VVoVe:

auguri!

visto che devi fare un progetto ex novo, magari puoi prenderti un vantaggio sui motori web.

Un motore web deve cercare tra documenti scritti da persone "esterne".
Persone che fanno di tutto (almeno alcune ^^) per far si che i propri documenti appaiono come "rilevanti". Tu non hai questo problema dato che i file di testo saranno, se nn ho capito male, interni al progetto.

Quindi oltre allo studiare il motore, potresti pensare allo strutturare i file da indicizzare in modo da essere pronti allo scopo.

Potresti lavorare ad un sistema di tagging che collabori con una mera ricerca testuale.

Ti faccio un esempio.
Se faccio una ricerca su "re di roma", il motore potrebbe ritornarmi:
- in cima gli articoli che hanno in un campo "tag" parole come "re" e "roma" legate da un AND.
- a seguire le pagine che hanno nel TESTO le parole "re" e "roma".

Do per scontato che tu non abbia la forza (e parlo di staff e risorse umane oltre che tecnologiche) di creare algoritmi che stabiliscano relazioni semantiche.
Vale a dire, sempre per l'esempio, che per una ricerca simile vengano ritornate parole come Cesare, Ottaviano, Nerone ecc.

Il consiglio è quindi il corredare i files di una sorta di "meta", o tag o comelivuoichiamare, che non essendo alla mercè di tutti possano essere ben gestiti da chi scrive gli articoli, ed unendo il tutto ad una mera ricerca testuale nel corpo dell'articolo.

In bocca al lupo!