ehm ... è appena appena il controrario

comunque lascia i file fuori dal db, o se ne sei sufficentemente capace tienili dentro ... il problema principale dell'indicizzazione è che mentre i pdf li puoi convertire in testo e quindi cercarci dentro i doc no, come anche le immagini

dovresti usare il server di openoffice da riga di comando per convertire i doc in formato opendocument e poi leggere da li