Visualizzazione dei risultati da 1 a 4 su 4
  1. #1

    motore ricerca full text

    da un cliente mi è stato richiesto di realizzare per il proprio sito un motore di ricerca full text che riesca a ricercare anche tra documenti pdf doc che caricherà nel sito

    non avendo mai sviluppato motori di ricerca ho cercato di fare una ricerca in internet per vedere che tipo di soluzioni possono essere adottate, senza però trovare esempi chiari di come funzionerebbe il sistema

    non ho capito se serve un programma su server che si occupa di tradurre i vari pdf in testo da inserire poi in un database per effettuare successivamente le ricerche, o se questa traduzione da file a testo va fatta con php...

    inoltre i quesiti che non sono riuscito a risolvere sono:
    1) quanto un sistema del genere possa rallentare un sito che già con il suo cms lavora sul suo database
    2) quali problematiche ci possono essere nel gestire vari formati (pdf doc ecc..) calcolando che ho già visto esserci numerose problematiche riguardanti i vari formati di testo unicode, latin ecc...

    in parole povere cerco qualcuno che avendo già esperienza nel settore mi sappia dire cosa serve per sviluppare un motore di ricerca di questo tipo per capire in termini di ore di lavoro e conoscenze cosa comporterebbe
    www.t1t.it

  2. #2
    Ti sei preso una bella croce!

    non ho capito se serve un programma su server che si occupa di tradurre i vari pdf in testo da inserire poi in un database per effettuare successivamente le ricerche, o se questa traduzione da file a testo va fatta con php...
    La prima tecnica porta a risultati più rapidi nel momento della ricerca ed dovrebbe appesantire di meno il server dato che l'aggiornamento degli indici su db potreste farlo di notte o comunque in momenti di scarso traffico.
    I contro sono la necessità di ulteriore spazio e carico per il database ed il fatto che gli indici su db potrebbero non essere aggiornabili in tempo reale.

    La seconda agisce in tempo reale, ma carica non poco il lavoro del server, proporzionalmente alla quantità di file presenti nel sito.
    Se sono tanti file e/o file di grandi dimensioni potrebbe decimare le prestazioni del server, soprattutto nel caso di ricerche multiple.

    quali problematiche ci possono essere nel gestire vari formati (pdf doc ecc..) calcolando che ho già visto esserci numerose problematiche riguardanti i vari formati di testo unicode, latin ecc...
    Se si conoscessero esattamente le problematiche cui si va incontro non sarebbe poi così grave.
    MA rischi di incastrarti in problematiche di cui non si capisce neppure l'essenza.
    Elaborare in tempo reale, efficacemente e senza eccezioni, documenti doc o pdf resta poco meno di un miracolo.

    Opterei per la creazione di un sistema di indicizzazione su db, almeno per i file non di testo in chiaro.

  3. #3
    grazie per la risposta, tu conosci l'esistenza di soluzioni già provate gratuite o a pagamento che fanno qualcosa di simile o implementabile in maniera un po' indolore

    anche perchè poi immagino che nella fase di ricerca va poi creato un motore che indicizzi il numero delle parole che si ripetono nei diversi documenti, e vadano eliminate le parole che non sono chiave (tipo articoli, preposizioni ecc..)
    www.t1t.it

  4. #4
    No, non conosco applicazioni del genere, ma iomi occupo principalmente di sviluppo e gli snippet pubblici non li conosco bene.

    Il lavoro che hai descritto è complesso e serio e credo valga la pena sofisticarlo con vari accorgimenti.

    Solo a titolo di esempio, se il sito non è molto grande:

    - dai file pdf e doc (ed altri formati che interessano) vengono estratti i soli contenuti testuali e salvati in file con nomi particolari (es inizino con "_ex_pdf_"+nomeoriginaledelfile.txt): questo lavoro verrà compiuto nottetempo.

    - la ricerca viene fatta tramite filesystem, ignora i file pdf e ionvece considera i file "_ex_pdf_" sapendo che si riferiscono ai file originali e non a quello che stai leggendo.

    Se invece il sito è vasto, il filesystem non può bastarti (timeout di php, cpu sovraimpegnata).
    DOvrai comunque organizzare un "sistema di indicizzazione interna".
    E lì puoi organizzarti in mille modi diversi a seconda di ciò che ti prefiggi.

    Comunque cercare di alleggerire il database filtrando i termini inutili sarebbe utile (al costo di maggiori tempi di elaborazione).

    Se qualcuno ti indica script già pronti...meglio per te.
    Senno...io qualche idea te la ho data!

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.