Con le librerie sopra citate sembra funzionare bene. Nel frattempo ho trovato questa libreria se a qualcuno può fare comodo: https://tika.apache.org/index.html che fa esattamente quello che dicevo nel primo post, cioè riconosce il tipo di file e ne ricava il plain text, supporta moltissimi formati, unica pecca l'ho trovata un po lenta.