Buongiorno, sto provando a creare uno scraper che dal sitemap di un sito, sfogli tutti gli indirizzi ed estragga nome di un prodotto e prezzo.
Riesco facilmente ad estrarre gli indirizzi dall'indirizzo del sitemap grazie ad un ciclo foreach :
l problema lo riscontro quando devo sfogliare questi link per estrarre solo 2 elelementi della pagina un h1 con itemprop="name" e lo span con itemprop="price" ovviamente entrambi hanno anche classi ed id che cambiano di pagina in pagina perchè includono gli id articoli; pertanto essendo itemprop la chiave comune penso che sia la cosa giusta da fare usare questo attribbuto come chiave.Codice PHP:
$xml = simplexml_load_file("https://www.miosito.it/sitemap.xml");
if($xml)
{
echo "ho aperto l'url xml correttamente "; //DA ELIMINARE ED INSERIRE TUTTI I FOR EACH
}
foreach($xml as $cd){
foreach ($cd->loc as $link){
echo $link."<br>";
...
Ovviamente il sitemap contiene anche le pagine di errore e pagine che non hanno articoli all'interno (come chisiamo.php per esempio) che ovviamente potrei skippare con un semplice controllo if/else.
Non riesco a trovare una guida semplice. Potete aiutarmi?
Grazie mille!