Visualizzazione dei risultati da 1 a 9 su 9
  1. #1

    Rilevare caratteri cinesi con file_get_contents

    Ciao a tutti!

    come posso riconoscere un sito cinese o giapponese con il codice ottenuto tramite file_get_contents?
    O anche con un diverso sistema, purchè valido.

    Grazie mille!

  2. #2
    Moderatore di PHP L'avatar di Alhazred
    Registrato dal
    Oct 2003
    Messaggi
    12,503
    Non è un sistema valido controllare i caratteri del sito.
    Nel mio sito ho anche la lingua giapponese, il tuo sistema lo rilevrebbe come sito giapponese, ma ti assicuro che è italiano

  3. #3
    Il mio obiettivo è rilevare se il sito sia scritto in lingua giapponese, cinese, coreana, ecc.
    Insomma con caratteri diversi da abcdefghij...
    Penso si possa fare rilevando il charset encoding dei metatags ma se non vengono inseriti sono obbligato a rilevare i caratteri stessi del testo!

  4. #4
    forse questa http://php.net/manual/en/function.mb...t-encoding.php ma non so nè se fa al caso tuo né se vale la pena di installarla per fare una prova (non è una extension di default)
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  5. #5
    Ho provato quella funzione ma spesso fallisce.
    Quindi combino get_meta_tags e una ricerca della codifica con file_get_contents.

    Il problema però si pone quando un sito non indica né la codifica né i meta tags.

    Sono quindi obbligato a cercare nell'html sorgente alcuni caratteri non latini (es. giapponesi, cinesi, ecc).

    Avete qualche suggerimento per rilevare tali caratteri nel codice?

    Grazie

  6. #6
    Originariamente inviato da bestdragon
    Ho provato quella funzione ma spesso fallisce.
    Quindi combino get_meta_tags e una ricerca della codifica con file_get_contents.

    Il problema però si pone quando un sito non indica né la codifica né i meta tags.

    Sono quindi obbligato a cercare nell'html sorgente alcuni caratteri non latini (es. giapponesi, cinesi, ecc).

    Avete qualche suggerimento per rilevare tali caratteri nel codice?

    Grazie
    basterebbe che un sito ospiti del testo non latino (che so, la citazione di un articolo di giornale asiatico) e il tuo script penserebbe che il sito sia cinese... mah, non mi sembra una buona strada
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  7. #7
    Lo so. Però per me è importante che funzioni così. Anche l'unico carattere non latino deve essere rilevato, poi penserò a come catalogare il sito...

    Avete suggerimenti su come rilevare tali caratteri?

  8. #8
    http://stackoverflow.com/questions/1...-in-the-string

    sostanzialmente cerchi con una preg_match se è presente un character unicode nel range di quelli cinesi. La regexp del link dovrebbe funzionare. qui un elenco di codici per il cinese:

    http://www.khngai.com/chinese/charmap/tbluni.php?page=0


    qui altri esempi con altri tipi di regular expression:

    http://stackoverflow.com/questions/6...egex-in-a-xslt
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  9. #9
    Ho provato con quei metodi ma non sempre funziona.

    Come devo esattamente comportarmi?

    Cioè:
    - in che modo devo ottenere il sorgente html della pagina
    - in che modo e dove devo salvare tale sorgente
    - come rilevo la lingua utilizzata
    - devo usare pattern diversi in base al tipo di codifica usata dal sito?
    - ecc

    Grazie mille!

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.