problemi curl

**dadolicchio** · 06-10-2011, 13:23

ciao a tutti stavo facendo delle prove con curl e volevo chiedere: invece di scaricare l'html della pagina si può scaricare in un altro formato (es txt)

**mxa** · 10-10-2011, 04:15

Non facile da fare ma ad esempio potresti dare l'output di curl in pasto a sed e togliere tutti i tag HTML con una regexp.

Qualcosa del genere dovrebbe funzionare (tieni conto che toglie solo i tag HTML, quindi poi l'output conterrà tutto quello che non è tag, javascript o regole css ad esempio)

codice:

 $ curl http://tuosito.com | sed -e 's/<[^>]*>//g' > output.txt

Prima di passare l'output a sed potresti ad esempio eliminare tutte le righe contenenti <script> con grep, prendere solo quello che c'è tra <body> e </body> e darlo in pasto a sed. Questo ovviamente funziona solo se il tuo HTML è "ben formattato". Se tipo è tutto su una stessa riga non va. Ma direi che con sed può essere che tu riesca a risolvere. Ma non sono un esperto di sed, quindi sta vate scoprirlo

Discussione: problemi curl

Strumenti discussione

Ricerca discussione

Visualizza

problemi curl

Permessi di invio