ciao a tutti stavo facendo delle prove con curl e volevo chiedere: invece di scaricare l'html della pagina si può scaricare in un altro formato (es txt)
ciao a tutti stavo facendo delle prove con curl e volevo chiedere: invece di scaricare l'html della pagina si può scaricare in un altro formato (es txt)
Davide
Non facile da fare ma ad esempio potresti dare l'output di curl in pasto a sed e togliere tutti i tag HTML con una regexp.
Qualcosa del genere dovrebbe funzionare (tieni conto che toglie solo i tag HTML, quindi poi l'output conterrà tutto quello che non è tag, javascript o regole css ad esempio)
Prima di passare l'output a sed potresti ad esempio eliminare tutte le righe contenenti <script> con grep, prendere solo quello che c'è tra <body> e </body> e darlo in pasto a sed. Questo ovviamente funziona solo se il tuo HTML è "ben formattato". Se tipo è tutto su una stessa riga non va. Ma direi che con sed può essere che tu riesca a risolvere. Ma non sono un esperto di sed, quindi sta vate scoprirlocodice:$ curl http://tuosito.com | sed -e 's/<[^>]*>//g' > output.txt![]()