Visualizzazione dei risultati da 1 a 4 su 4
  1. #1

    Rassegna stampa e ritaglio articolo

    Rassegna da pdf
    Salve a tutti,

    Chiedo a chi conosce come estrapolare i vari articoli da un giornale in pdf.

    Mi spiego,;

    devo ritagliare articoli da giornali locali e nazionali che contengono alcune chiavi di ricerca.
    Esiste un programma che estrapola gli articoli e li mette separatamente in una pagina?
    Praticamente quando un giornalista compone un pezzo, anche se su separate colonne, come si puo' capire dove inizia e dove finisce il pezzo? Quali colonne e quali foto fanno parte delll'articolo?

    So che esistono nel mercato americano programmi che fanno la rassegna stampa automaticamente in base a chiavi di ricerca, prendono il pdf, ritagliano l'articolo completo lo impaginano singolarmente su pagine separate e creano un pdf della rassegna giornaliera.

    Chissà se qualcuno sa aiutarmi almeno a capire come fare a prendere dal pdf un singolo articolo?

    Adesso uso programmi specializzati nel copia/incolla, ma non ricnoscono l'articolo e quaindi le colonne e le foto le devo selezionare io .

    Con quale criterio si riconosce un 'articolo completo quando si compone una pagina di giornale? Esistono tag o point-break specifici per ricolegare le colonne dell'articolo?

    Mah? Eppure questi programmi automatici sanno come fare!

    Grazie

  2. #2
    Non so a che programmi automatici ti riferisci. Servizi rivolti ai giornalisti che compongano rassegne stampa sono presenti anche in Italia, in italiano. Hanno ovviamente un costo, che generalmente è quantificato in base a pacchetti precisi o, addirittura, a parole chiave.
    Sono spesso usati dalle redazioni o dagli uffici stampa per tenere costantemente sotto controllo determinati argomenti e forniscono la rassegna sotto forma di documenti HTML o PDF.

    Una cosa diversa è quella di generare PDF da giornali già stampati: si parla generalmente di OCR, in tal caso.
    Serve uno scanner ed un software che sia in grado di interpretare la scansione in maniera da convertirla in un file di testo. Da qui poi si può impiegare il risultato ottenuto come meglio crediti.

    Se disponi già di file PDF di giornali stampati puoi impiegare le normali funzioni di ricerca interne ad Acrobat Pro per manipolare i documenti come meglio cred se (e solo se) il file PDF in quetione è stato editato in maniera tale da permetterti di selezionare il testo e copiarlo.

    Software così specifici da saper identificare l'inizio e la fine di un articolo in base ad una ricerca di una parola chiave internamente ad un PDF non mi pare ce ne siano, per lo meno non di pubblica notorietà: forse ti riferisci a qualche prodotto di nicchia rivolto all'editoria quotidiana. In tal caso dubbito fortemente che si possa acquistarlo tanto facilmente e ti converrebbe rivolgerti ad un fornitore specializzato.

    Potrebbe essere facile realizzare qualcosa che manipoli ricerche su documenti in HTML, ma, indipendentemente dal formato usato per confezionare l'articolo, dovrebbero essere presenti dei puntatori specifici per identificare inizio e fine del documento in questione. Comunque l'argomento non avrebbe attinenza con la grafica, bensì con la programmazione.

  3. #3
    Lavoro già da dieci anni alla rassegna stampa online e uso da parecchio programmi per ritaglio articoli da pdf. (anche se protetti da editing e "copia")

    In pratica, ogni mattina alle 6 scarico i giornali online, segnalo articoli a clienti (ovviamente ho chiavi di ricerca per capire se assegnare o no un articolo ad un cliente), converto i pdf in tif e poi li do' in pasto a un programma (comprato a caro prezzo. La ditta (tedesca però non esiste più) che mi permette di ritagliare il tif selezionando le varie colonne e le immagini e poi creo un pdf da consegnare al cliente via email alle 8 della mattina stessa.

    Esistono però alcuni software che ritagliano da soli l'articolo, anzi, in base ad un database di chiavi sanno (convertendo il pdf in testo) se prendere e ritagliare un articolo da assegnare ad un cliente o no.

    Qui è il motivo per cui ho inserito l'argomento sotto "Grafica"....!

    Comunque grazie dell'interessamento. Essendo programmatore saprei creare un software automatico ma il problema e che non capisco come si puo' definire un articolo nell'ambito della pagina.

  4. #4
    Confesso che le mie conoscenze terminano qui e che suul'argomento ne sai più di me.
    Credo sinceramente che la risposta rimanga nei principi dell'OCR.
    Penso anche che sarebbe forse più vantaggioso affidarsi alla manipolazione di un documento PDF: questi documenti hanno delle specifiche tali che permettono sicuramente di identificare meglio la posizione degli elementi per creare un automatismo come da te descritto.

    Prova a postare sul forum il nome del software e dell'azienda, anche se non esiste più.
    Per esperienza personale ti posso dire che in un caso simile, su un software di dato variabile impiegato in tipografia, recuperammo informazioni utili: eravamo convinti che non fosse più supportato ed invece scoprimmo che era stato assorbito da un'altra società. Spesso quando si usano flussi di lavoro consolidati da anni può capitare di perdere il contatto con i produttori dei software originari.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.