probabilmente tu devi usare le socket per leggere le pagine.. a meno che le pagine non siano in locale..
di sicuro tu hai un lavoro più difficile del mio
cmq se mi incolli o mi linki il testo vedo di darti qualche indicazione..
ma il prof non vi ha dato nessuna indicazione scusa?
per quanto riguarda il mio caso: io leggo un file di "stopwords", ovvero parole da non indicizzare... ed inserisco queste parole in una tabella di hash con liste di trabocco...
fatto questo apro un file sommario che mi dice quali file aprire.. apro ognuno di questi file, ci prendo tutte le parole e le inserisco senza doppioni in un albero di ricerca scartanddo solo le parole del file stopwords che avevo letto nella tabella di hash
in ultimo [ma questa parte ancora non l'ho fatta] dovrò leggere una query e dare in output una lista ordinata [dal più rilevante al meno rilevante] di file soddisfacenti la query...