Per iniziare puoi provare impostando il charset come UTF-8.
Poi, dai una occhiata a questa funzione:

http://www.zend.com/code/codex.php?id=835&single=1