Rilevare caratteri cinesi con file_get_contents

**bestdragon** · 27-07-2012, 13:49

Ciao a tutti!

come posso riconoscere un sito cinese o giapponese con il codice ottenuto tramite file_get_contents?
O anche con un diverso sistema, purchè valido.

Grazie mille!

**Alhazred** · 27-07-2012, 13:56

Non è un sistema valido controllare i caratteri del sito.
Nel mio sito ho anche la lingua giapponese, il tuo sistema lo rilevrebbe come sito giapponese, ma ti assicuro che è italiano

**bestdragon** · 28-07-2012, 20:16

Il mio obiettivo è rilevare se il sito sia scritto in lingua giapponese, cinese, coreana, ecc.
Insomma con caratteri diversi da abcdefghij...
Penso si possa fare rilevando il charset encoding dei metatags ma se non vengono inseriti sono obbligato a rilevare i caratteri stessi del testo!

**Santino83_02** · 28-07-2012, 22:00

forse questa http://php.net/manual/en/function.mb...t-encoding.php ma non so nè se fa al caso tuo né se vale la pena di installarla per fare una prova (non è una extension di default)

**bestdragon** · 31-07-2012, 13:30

Ho provato quella funzione ma spesso fallisce.
Quindi combino get_meta_tags e una ricerca della codifica con file_get_contents.

Il problema però si pone quando un sito non indica né la codifica né i meta tags.

Sono quindi obbligato a cercare nell'html sorgente alcuni caratteri non latini (es. giapponesi, cinesi, ecc).

Avete qualche suggerimento per rilevare tali caratteri nel codice?

Grazie

**Santino83_02** · 31-07-2012, 13:40

Originariamente inviato da bestdragon
Ho provato quella funzione ma spesso fallisce.
Quindi combino get_meta_tags e una ricerca della codifica con file_get_contents.

Il problema però si pone quando un sito non indica né la codifica né i meta tags.

Sono quindi obbligato a cercare nell'html sorgente alcuni caratteri non latini (es. giapponesi, cinesi, ecc).

Avete qualche suggerimento per rilevare tali caratteri nel codice?

Grazie

basterebbe che un sito ospiti del testo non latino (che so, la citazione di un articolo di giornale asiatico) e il tuo script penserebbe che il sito sia cinese... mah, non mi sembra una buona strada

**bestdragon** · 02-08-2012, 12:27

Lo so. Però per me è importante che funzioni così. Anche l'unico carattere non latino deve essere rilevato, poi penserò a come catalogare il sito...

Avete suggerimenti su come rilevare tali caratteri?

**Santino83_02** · 03-08-2012, 02:23

http://stackoverflow.com/questions/1...-in-the-string

sostanzialmente cerchi con una preg_match se è presente un character unicode nel range di quelli cinesi. La regexp del link dovrebbe funzionare. qui un elenco di codici per il cinese:

http://www.khngai.com/chinese/charmap/tbluni.php?page=0

qui altri esempi con altri tipi di regular expression:

http://stackoverflow.com/questions/6...egex-in-a-xslt

**bestdragon** · 24-08-2012, 14:04

Ho provato con quei metodi ma non sempre funziona.

Come devo esattamente comportarmi?

Cioè:
- in che modo devo ottenere il sorgente html della pagina
- in che modo e dove devo salvare tale sorgente
- come rilevo la lingua utilizzata
- devo usare pattern diversi in base al tipo di codifica usata dal sito?
- ecc

Grazie mille!

Discussione: Rilevare caratteri cinesi con file_get_contents

Strumenti discussione

Ricerca discussione

Visualizza

Rilevare caratteri cinesi con file_get_contents

Permessi di invio