esattamente quello che volevo dire io.....
la prima cosa a cui pensare sono gli algoritmi di ranking....per il crawling e l'indexing le soluzioni ci sono e sono ben collaudate, per esempio un DB che usa hashing estensibile è un must in un progetto del genere
il problema sono gli algoritmi di ranking....è relativamente facile analizzare le pagine web, estrarre gli elementi interessanti, rimescolarli in determinati modi, ma scegliere come rankarli è decisamente complicato
ad ogni modo vi consiglio di dare un'occhiata al motore di Giorgio Tave, Teecno.....usa meccanismi basilari come l'algoritmo TfxIdf, però è un punto di partenza per capire cosa va fatto.....
se vi serve ciò un pò di roba sull'information retrieval
P.S. il codice di Teecno lo trovate qui http://www.teecno.it/sorgenti/teecno.zip

Rispondi quotando
