estrarre contenuto td e url presenti nel cdice di una pagina html

**Stanislao** · 28-10-2016, 14:40

gentile team ho un codice così composto

codice HTML:

<tr class="bot"><td>&nbsp;</td><td>macchina fotografica</td>
<td>EUR 40,47</td>
<td id="viewItemId"><a href="http://www.miosito2.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>
<tr class="bot"><td>&nbsp;</td><td>macchina da cucire</td>
<td>EUR 40,67</td>
<td id="viewItemId"><a href="http://www.miosito.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>
<tr class="bot"><td>&nbsp;</td><td>macchina fotografica</td>
<td>EUR 40,17</td>
<td id="viewItemId"><a href="http://www.miosito2.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>

in pratica vorrei ottenere in risultato una cosa simile:
macchina fotografica 2 presenti link
macchina da cucire 1 presenti link

grazie mille

**Santino83_02** · 29-10-2016, 16:11

allora:

Codice PHP:


<?php

//funzione per caricare in qualche modo l'html che ti interessa parsare
/**
 * @return \DOMDocument
 */
function loadHTML($url)
{

//metodo fake, carico da file di testo. Te caricherai da url
libxml_use_internal_errors(true); //sopprime i warning di validazione dell'html. vedi la documentazione
$doc = new \DOMDocument();
$doc->loadHTMLFile($url); //probabilmente caricherai da string

return $doc;

}

$document = loadHTML(__DIR__.'/test.htm');

//parso l'html cercando le celle che ti interessano, ovvero quelle figlie di tr[class=bot]
$xpath = new \DOMXpath($document);

$righe = $xpath->query('//tr[@class="bot"]');

foreach($righe as $riga)
{
    foreach($riga->childNodes as $cella)
    {
        echo $cella->textContent;
    }
}

test.htm è:

codice:

<html>
<head>
<title>Un title</title>
</head>
<body>
<span>un testo a caso</span>

<div> altro testo <p> tra paragrafi</p></div>

<table>
<tr class="bot"><td>&nbsp;</td><td>macchina fotografica</td>
<td>EUR 40,47</td>
<td id="viewItemId"><a href="http://www.miosito2.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>
<tr class="bot"><td>&nbsp;</td><td>macchina da cucire</td>
<td>EUR 40,67</td>
<td id="viewItemId"><a href="http://www.miosito.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>
<tr class="bot"><td>&nbsp;</td><td>macchina fotografica</td>
<td>EUR 40,17</td>
<td id="viewItemId"><a href="http://www.miosito2.it/">Vai al link<b class="g-hdn">titolos</b></a></td><td>&nbsp;</td></tr>
</table>
</body>

ovviamente, con la medesima logica invede di fare echo $cella->textContent; devi parsarti la cella con le funzionalità date da DOMElement/DOMNode/DOMXpath, ma ti rimando al manuale in merito

Discussione: estrarre contenuto td e url presenti nel cdice di una pagina html

Strumenti discussione

Ricerca discussione

Visualizza

estrarre contenuto td e url presenti nel cdice di una pagina html

Permessi di invio