Potresti usare uno strip_tags() sul testo prima del conteggio, e magari eliminare pure invii e tabulazioni e riconvertire le eventuali entità HTML in caratteri