Visualizzazione dei risultati da 1 a 10 su 10
  1. #1

    Memorizzazione files .pdf

    Ciao a tutti

    Mi è stato chiesto di creare un DB che contenga una grossa quantità di documenti .doc e .pdf su cui poter effettuare ricerche in base sia a chiavi di ricerca predefinite, sia in base ad esigenze non completamente prevedibili, tipo ricercare tutti i documenti che contengano una certa frase AND/OR un'altra (insomma un piccolo google!). Il problema è che non so in che modo memorizzare i documenti nel DB (io uso Access2002 e Mysql4.1/PHP5).

    Mi date una dritta per capire da dove cominciare?? :master:

    Grazie a tutti!
    Non hai capito davvero qualcosa, finchè non sei in grado di spiegarlo a tua nonna. (Albert Einstein)

  2. #2
    Utente di HTML.it L'avatar di Webmaster76
    Registrato dal
    Mar 2001
    residenza
    Torino
    Messaggi
    298
    Ti sconsiglio di memorizzare quei documenti direttamente nel db, sarebbe poco semplice (e molto pesante) la ricerca.
    Piuttosto scrivi un programmino magari in VB o in C che estrapoli il solo testo non formattato e poi memorizzi nel DB solamente quello, fare ricerche così ha già un po' più senso...
    Un nuovo cms/framework... vuoi collaborare al progetto?

  3. #3
    ehm ... è appena appena il controrario

    comunque lascia i file fuori dal db, o se ne sei sufficentemente capace tienili dentro ... il problema principale dell'indicizzazione è che mentre i pdf li puoi convertire in testo e quindi cercarci dentro i doc no, come anche le immagini

    dovresti usare il server di openoffice da riga di comando per convertire i doc in formato opendocument e poi leggere da li

  4. #4
    Utente di HTML.it L'avatar di Webmaster76
    Registrato dal
    Mar 2001
    residenza
    Torino
    Messaggi
    298
    Originariamente inviato da daniele_dll
    ehm ... è appena appena il controrario
    Ovvero?
    Un nuovo cms/framework... vuoi collaborare al progetto?

  5. #5
    Originariamente inviato da Webmaster76
    Ovvero?
    nel senso che è moltooooo più pesante sviluppare un'applicativo esterno che fa questa operazione invece che relegarla al database

    tieni in considerazione che, a parte i costi ed il tempo di sviluppo e l'eventuale piattaforma alla quale si è legati in base al linguaggio, un applicativo che parte, apre un file, lo carica in memoria e fa delle ricerche SERIE è molto più pesante di delegare questa operazione tramite una query su un campo full text!

    l'applicativo deve ogni volta essere avviato e deve fare svariate operazioni aggiuntive rispetto ad un programma che sta già in memoria, senza tenere in considerazione che mysql potrebbe avere già in cache il tutto e quindi si limita a restituire dei risultati già trovati

  6. #6
    Utente di HTML.it L'avatar di Webmaster76
    Registrato dal
    Mar 2001
    residenza
    Torino
    Messaggi
    298
    Originariamente inviato da daniele_dll
    nel senso che è moltooooo più pesante sviluppare un'applicativo esterno che fa questa operazione invece che relegarla al database

    tieni in considerazione che, a parte i costi ed il tempo di sviluppo e l'eventuale piattaforma alla quale si è legati in base al linguaggio, un applicativo che parte, apre un file, lo carica in memoria e fa delle ricerche SERIE è molto più pesante di delegare questa operazione tramite una query su un campo full text!

    l'applicativo deve ogni volta essere avviato e deve fare svariate operazioni aggiuntive rispetto ad un programma che sta già in memoria, senza tenere in considerazione che mysql potrebbe avere già in cache il tutto e quindi si limita a restituire dei risultati già trovati
    Non concordo... fare una ricerca per frase esatta ad esempio su mix di documenti pdf, doc ecc ecc è immane perchè hai a che fare con la formattazione quindi dovresti filtrare il solo testo (basterebbe un cambio di font ad esempio per non trovare più nulla ad esempio), morale della favola: tanto vale estrarre il testo subito e avere solo delle ricerca sul testo. Secondo me è più fattibile e anche più performante.
    Un nuovo cms/framework... vuoi collaborare al progetto?

  7. #7
    è li l'errore ^^

    tu il testo dal pdf lo estrapoli prima ... e facendo eseguire una query fulltext esegui una ricerca instantanea, ottizzata appositamente per queste operazioni senza dover fare strane soluzioni ^^

    ---

    tempo a dietro lo avevo trovato ... ora non so più ... ma se non erro c'è un tool specifico del ghostscript che converte il pdf in html e in testo ... ed in testo senza formattazione ... di conseguenza c'è tutto il testo senza nulla di particolare ^^

  8. #8
    Utente di HTML.it L'avatar di Webmaster76
    Registrato dal
    Mar 2001
    residenza
    Torino
    Messaggi
    298
    Originariamente inviato da daniele_dll
    è li l'errore ^^

    tu il testo dal pdf lo estrapoli prima ... e facendo eseguire una query fulltext esegui una ricerca instantanea, ottizzata appositamente per queste operazioni senza dover fare strane soluzioni ^^

    ---

    tempo a dietro lo avevo trovato ... ora non so più ... ma se non erro c'è un tool specifico del ghostscript che converte il pdf in html e in testo ... ed in testo senza formattazione ... di conseguenza c'è tutto il testo senza nulla di particolare ^^
    Esatto, hai descritto esattamente cosa farei io. La ricerca è fulltext indispensabile per le ricerche su frasi esatte.

    Tu invece cosa faresti?
    Un nuovo cms/framework... vuoi collaborare al progetto?

  9. #9
    userei quello ... su mysql dato che la prevede ^^

    e per farlo prenderei in blocco il contenuto estrapolato tramite gs dal pdf e lo metterei nel db definendo il campo mediumtext come fulltext ^^

  10. #10
    Grazzzie a tutti e due!!

    Mi avete dato abbastanza materiale su cui iniziare a lavorare.
    Personalmente ritengo che delegare il lavoro a MySql dovrebbe produrre un risultato più performante, cmq vi terrò aggiornati!

    Tanks
    Non hai capito davvero qualcosa, finchè non sei in grado di spiegarlo a tua nonna. (Albert Einstein)

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.