Se ne è discusso decine di volte.
Per il download puoi usare:
http://www.php.net/file_get_contents
http://www.php.net/fopen etc.
http://www.php.net/fsockopen etc.
http://www.php.net/curl
Oppure una classe come Snoopy.
Per il parsing puoi usare:
- le funzioni di manipolazione delle stringhe (strpos(), substr(), etc.)
- le espressioni regolari
- tidy + DOM o SAX
- tidy + XSL