Visualizzazione dei risultati da 1 a 2 su 2
  1. #1

    Come reperire esclusivamente testo da pagine html?

    Ciao a tutti!
    Ho un problemone da risolvere per una applicazione che devo realizzare e spero qualcuno possa suggerirmi un modo efficace di trattarlo:
    ho bisogno di estrarre in modo automatico, per mezzo di codice scritto in java, il testo completo di notizie presenti in pagine html presenti su varie riviste online(repubblica.it,messagero.it, ansa.it...) ; tramite i formati di syndacation RSS, dispongo dell'indirizzo di link alle singole pagine dove le notizie e il relativo testo completo sono presenti, ma il vero problema è che ogni rivista online tratta nella formattazione html delle pagine il testo della notizia con regole interne, e non in modo standard con particolari tag standardizzati, quindi non so proprio come poter fare a venire incontro all'esigenza di prelevare in modo automatico il solo testo della notizia, privo di altri campi presenti nell'html quali link, immagini, form ed altre cose diverse dal semplice testo della notizia, e dovrei poterlo fare in 1 modo che vada bene per tutte le diverse riviste online.
    Se qualcuno ha qualche dritta da darmi eviterei di continuare a sbattere la testa contro un muro,eheh
    grazie tante!Marco

    [edit] Tralasciamo l'inglese... è un forum Italiano [/edit]

  2. #2
    Una cosa che comuna tutti i siti di notizie è che la notizia incomincia sempre con il luogo scritto in maiuscolo (es: ROMA - MILANO - ecc...).
    Potresti scorrere il testo della pagina html e cercare la prima parola scritta tutta in maiuscolo e confrontare se equivale ad una regione.
    Non so se può esserti utile... manon mi viene in mente altro...

    Ciao!

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.