PDA

Visualizza la versione completa : Analisi numero parole


cesar21
15-05-2020, 19:54
Ciao a tutti, chiedo scusa in anticipo se non ho pubblicato nell'area più adatta del forum e chiedo ai moderatori di spostarla nell'area che loro ritengono più adatta!
Chiedo a voi più esperti nella speranza che qualcuno tra voi mi sappia dare qualche indicazione o indirizzarmi verso qualcuno che se ne intende.
Sto costruendo un sito che analizza vari documenti caricati dagli utenti (txt/pdf/doc). Tuttavia prima di tale analisi e in seguito all'upload del documento dovrei creare un "meccanismo" che sia in grado di analizzarne il numero di parole (contenute nel documento) e che generi in automatico un prezzo in base appunto al numero di parole, così che l'utente possa pagare prima dell'analisi vera e propria. Non so se mi sono spiegato bene, spero di sì!

SoloWiFi
15-05-2020, 20:22
Ogni parola ha uno spazio prima, dopo o entrambe.
Quindi contando puoi stabilirne il numero.
Credo che devi considerare congiunzioni, preposizioni semplici ed articolate che non credo siano da conteggiare.

optime
16-05-2020, 07:15
Vedo delle difficoltà con i pdf...

oregon
16-05-2020, 10:17
Beh ... qui

https://www.iprogrammatori.it/forum-programmazione/sviluppo-software/analisi-numero-parole-t43204.html

ti hanno già detto e fra l'altro non hai risposto a tutti ...

misterx
16-05-2020, 11:36
Vedo delle difficoltà con i pdf...


però si può esportare un PDF in testo e da qui si fa una stima.

SoloWiFi
16-05-2020, 11:52
A quanto pare cesar21 vuole fare un passo molto ma molto più lungo della propria gamba. Il problema posto è alquanto elementare da risolvere per un programmatore.

optime
16-05-2020, 19:35
però si può esportare un PDF in testo e da qui si fa una stima. puoi dare qualche info in più?

misterx
16-05-2020, 19:50
puoi dare qualche info in più?

qua purtroppo devo mettere un link https://helpx.adobe.com/it/reader/using/export-pdf.html è una funzionalità del lettore di PDF.
Poi magari si può automatizzare l'esportazione sempre che, i PDF non siano protetti.

clasku
17-05-2020, 09:40
puoi dare qualche info in più?
se i PDF contengono testo (non scansioni di pagine di testo) si può provare con python e il modulo PyPDF2
non funziona sempre bene, però qualcosa se ne può tirare fuori
con i PDF, dalla mia esperienza, è sempre un po' un casino

SoloWiFi
17-05-2020, 09:56
Si potrebbe risolvere impedendo di caricare i PDF

Loading