Solo per quelle dei thread che mi interessavano; di fatto c'era uno script che prima di iniziare a fare alcunché pescava dagli archivi di un determinato sotto-forum tutti gli ID dei thread. Poi, per ciascun thread, otteneva l'HTML di ogni pagina (perché alcune informazioni si trovavano solo lì), e sfruttava poi la funzione "scarica il thread" per ottenere il BBcode originale dei post. Alla fine, i post venivano memorizzati nel DB locale. Tutto questo giochino richiedeva un tempo variabile tra il mezzo secondo e qualche secondo per thread.
Finito il download di tutto, le statistiche (di qualunque genere) si possono fare sul DB in locale.
Ni, ogni post e ogni thread ha un po' di struttura oltre al testo del messaggio (nel caso specifico, io tiravo giù ID del post, nome e ID dell'autore del post e data di invio) (poi magari dico fregnacce, e con dati strutturati si intende qualcosa d'altro)Se così fosse comunque si trattere solamente di dati non strutturati,
Non so aiutarti in quello, ti buttavo lì giusto qualche esempio di cose che avevo fatto. (comunque, lo script era un accrocchio pauroso di DOM e regex)e tra l'altro non saprei (con Knime, tool consigliato per questo esame) a tirarmi giù tutti questi dati.