[REGEX] Estrapolare testo da HTML TAGS

**steve1112** · 03-12-2010, 15:34

Ciao ragazzi,
sono nuovo di qui

Avrei un problemino cone le espressione regolari, non sono molto simpatiche effettivamente;
entrando nel particolare, ho un testo simile a questo:

STRINGA.DA.ESTRAPOLARE

Non riesco proprio a trovare una regex che faccia per me, ho provato qualcosa (guardare sotto) ma non sono molto esperto nel campo e non so bene come orientarmi:

preg_match_all('/(<a href="/giovanni" onmousedown="prova.prova.Event('PROVA', '_text_link', 'PROVISSIMA - paperino')" title="ziopaperone" rel="followed-by">(.*)\')\" title=")/i', $stringa_input,$stringa_output);

Attendo fiducioso un vostro aiuto\consiglio!!

Grazie,

Stefano

**king size slim** · 03-12-2010, 16:13

Mi sa che fai prima con la funzione strip_tags

**in the web** · 03-12-2010, 19:32

Dò per scontato che ci sia del testo prima e dopo il tag, perchè altrimenti ha ragione king size.

Le espressioni regolari sono molto più semplici e molto più potenti di quello che sembrano, ma bisogna perderci un po' di tempo e studiarle con pazienza per imparare a usarle, perchè sono diverse da tutti gli altri linguaggi.

Credo che la seguente espressione vada bene per te:
<a\s[a-zA-Z0-9"'() =_+:./%&-]+>([a-zA-Z0-9 _-])*</a>

Se non va bene c'è qualche carattere probabilmente nell'url a cui non ho pensato

**Grino** · 05-12-2010, 14:53

Io utilizzerei un pattern di questo tipo
preg_match_all('/<a\s.*?>(.*?)<\a>/',$str,$matches);

Se in $str hai una pagina html. in $matches[1] hai un array di tutti i testi contenuti fra i tag a mentre in matches[0] ti ritrovi un array di tutti i link in formato html

**in the web** · 05-12-2010, 15:39

sia la mia sia la tua hanno dei difetti, più che altro non raggiungono lo scopo perchè non estrapolano l'url, che da quello che ho capito è quello che gli serve:

(?:.*)

in questo modo $match[1] dovrebbe contenere l'url
se invece può contenere più di un link bisogna fare una cosa un po' più complicata

**Grino** · 05-12-2010, 19:51

Allora occorre chiamare

Codice PHP:


preg_match_all('/<a.*?href="(.*?)".*?>(.*?)<\\/a>/',$str,$match);

In questo caso, passando in $str una pagina html completa, otteniamo in $match[0] una array con il codice html di ogni link, in $match[1] un array con tutti gli url contenuti in href per ogni link e in $match[2] il testo contenuto nel tag a

Per chi desidera testare il pattern può provare alla seguente pagina

**steve1112** · 06-12-2010, 16:57

Grazie a tutti!!!

Analizzando tutte le idee che mi avete gentilmente fornito sono arrivato alla seguente conclusione, perfettamente funzionante:

preg_match_all('/<a.*?href="(.*?)".*?onmousedown="(.*?)".*?>(.*?) <\/a>/', $source, $match);

Grazie ancora a tutti,

Stefano

Discussione: [REGEX] Estrapolare testo da HTML TAGS

Strumenti discussione

Ricerca discussione

Visualizza

[REGEX] Estrapolare testo da HTML TAGS

Permessi di invio