Visualizzazione dei risultati da 1 a 5 su 5

Discussione: tagger

  1. #1
    Utente di HTML.it
    Registrato dal
    Oct 2012
    Messaggi
    4

    tagger

    Salve a tutti!
    inizio dicendo che sono un principiante in java e quindi mi scuso per eventuali domande stupide che potrei fare=)
    Io ho un problema con un programma java che dovrebbe estrarre una pagina web e taggarla. Ho trovato molti codici che mi permettono di estrarre la pagina ma tutti estraggono l'HTML della pagina e quindi non riesco a lanciare l'algoritmo di tag.
    Qualcuno conosce il modo di estrarre solamente il TESTO della pagina ripulendola dal codice HTML?
    Grazie in anticipo!

  2. #2
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    in java (SE) non esiste l'equivalente di PHP strip_tags per cui ti dovresti scrivere tu una regex per strippare i tag che non vuoi (o tutti) e tenerti solo il contenuto. La ricerca in internet è la tua migliore amica. Se come dici tu sei alle prime armi, consiglio spassionato: comincia con le basi.

    Se sei "di fretta" e cerchi qualcuno che faccia le cose al posto tuo, hai due possibiità: o cambi forum (qui, in questa sezione, da regolamento non si fanno i compiti per casa degli utenti) o cambi sezione del forum (poco sotto la sezione programmazione/java c'è una parte dedicata ad offerte di lavoro/collaborazioni).
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  3. #3
    Utente di HTML.it
    Registrato dal
    Oct 2012
    Messaggi
    4

    risolto!.....o quasi!=)

    Ti ringrazio per l'interessamento! comunque sono riuscito a trovare un algoritmo che ripulisce l'html (si chiama boilerpipe), successivamente lo metto in una stringa e la "tokenizzo" utilizzando stringTokenizer. successivamente la taggo con treeTagger....il problema che mi è sorto ora è l'estrema lentezza del tutto....per taggare una pagina ci mette una giornata intera! qualcuno saprebbe dirmi il motivo?

  4. #4
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    bisognerebbe vedere che cosa fai: prima prova, spezzetta:

    prendi il tempo prima e dopo ciascun passaggio e vedi dove si crea il collo di bottiglia.
    A quel punto analizza che succede lì: se è codice di scritto di tuo pugno, sei sicuro che sia ottimizzato (loop/cicli semi-infiniti inutili etc etc). Se invece il problema risiede in qualcuna delle librerie che stai utilizzando, prova a contattare gli sviluppatori...
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  5. #5
    Utente di HTML.it
    Registrato dal
    Oct 2012
    Messaggi
    4
    perfetto ora provo!
    Grazie ancora!

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.