Visualizzazione dei risultati da 1 a 2 su 2
  1. #1
    Utente di HTML.it
    Registrato dal
    Apr 2007
    Messaggi
    143

    [Stringhe] Eliminare formattazione dopo il parsing pdf

    Ciao a tutti. Sono finalmente riuscito a estrarre il testo dai PDF . Ora però ho un piccolo problema. Se il PDF è pieno di immagini e formattazioni strane (ad esempio quando viene creato da una presentazione Power Point) la stringa risultante è piena di caratteri strani (suppongo codice ascii, ma non ne sono sicuro). Qualcuno è a conoscienza di qualche metodo o libreria per eliminare quei caratteri?

    Grazie

  2. #2
    Utente di HTML.it L'avatar di morphy79
    Registrato dal
    Jun 2004
    Messaggi
    1,568
    yes !!
    devi usare un encoding...
    ti posto una funzione di lettura da un input stream che ho io..
    come puoi vedere uso come encoding "ISO-8859-1".. ti toglie i caratteri sporchi..
    prova a guardare con google quella che fa al caso tuo, ce ne sono molte..
    questa è solo la dritta, poi sta a te applicarla.. se hai bisogno nello specfico sono qui cmq..

    codice:
    	public String read(InputStream is) throws Exception 
    	{  
    		InputStreamReader in =  new InputStreamReader(is, "ISO-8859-1"); 
    		int n, i; 
         	char c;
         	String answer = new String(EMPTY_STR);  
    
         	for (i=0;i<10;i++)         			// look 10 times for character string to receive
         	{
         		//----- collect all characters from the serial line  
         		while (in.ready())            	// there is a byte available  
         		{
         			n = in.read();          	// get the byte from the serial line  
         			if (n != -1)               	// one byte received
         			{
         				c = (char)n;           	// convert the received integer to a character  
         				answer = answer + c;   	// collect the characters from the serial line  
         				Thread.sleep(1);       	// wait 1 msec between every collected byte from the mobile phone [Timing]  
         			} // if  
         			else break;                	// no more bytes available  
         		} // while  
         		Thread.sleep(100);              // wait 100 msec [Timing]  
         	}  // for  
         	
         	in.close();
         	strMsgs = "RICEVUTO: "+answer;
    		lh.debugOperazioni(LOGGER_PREFIX, strMsgs, this.getClass().getName(), "read()", Level.DEBUG_INT);
    		return answer;                    	// give the received string back to the caller
    	} // read
    odio chi parla di politica..
    anzi vorrei fondare un partito contro tutto ciò

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.