Originariamente inviato da alcio74
Ci sono funzioni PHP che ti permettono di valutare, utilizzando delle opportune espressioni regolari, se il "modello" di stringa definito nella espressione regolare sia presente nella stringa passata come secondo argomento.
Le due funzioni sono
PREG_MATCH() e
PREG_MATCH_ALL().
Quale delle due funzioni usare, lo dovrai decidere te in base a quelle che saranno le tue esigenze.
Ora però viene il bello.
Le espressioni regolari sono di una potenza inaudita e davvero ti potrebbero tornare utili in moltissimi momenti.
Il problema serio è che prima di usarle dovrai sbattere un po' la testa nello studiarti la sintassi.
Quindi prima di cimentarti, studiale per bene.
Ti avverto subito è inutile che ti metti a scopiazzare codice di qua e di la, perché per adattare una Espressione Regolare alle tue esigenze, devi davvero conoscerne bene i meccanismi.
Per iniziare a studiarne la sintassi, o quamento la filosofia che c'è dietro, ti consiglio di partire da una ricerca su google.
Trovi pagine come
questa ed inizi a seguire gli esempi.
Poni il caso di una pagina di un portale.
C'è un articolo, oppure una lista di articoli, c'è un menù laterale con delle voci, magari ci trovi (Dio li fulmini) i box con gli utlimi tweet del profilo Twitter pubblico di chi gestisce il sito, in un box a lato, ci potresti trovare i classici footer pieni di link fatti così per migliorare il posizionamento SEO delle pagine, per non parlare che spesso ci trovi anche blocchi di pubblicità che arrivano da circuiti tipo Google AdWords!
Senza contare tutte le cose nascoste che trovi in una pagina internet (meta tag, testi alternativi ad immaigni e link).
In questa bolgia di parole potrebbe non essere difficile trovarne alcune che non sono relative all'articolo principale presente in una pagina, ma fanno parte (che ne so) della rispoosta ad un tweet riportato in maniera pseudo-casuale in un box copiato/incollato che torvi nel sito che vai a "grattare".
Alcune parole, insomma, quelle più di uso comune, le potresti trovare ovunque nella pagina che vai a prelevare e valutare, e quindi potresti ottenere un falso positivo nel risultato dello script.
Quindi, prima di scrivere 150 (o 15 o 1500) righe di codice più o meno complesso, valuta attentamente come impostare lo script, dove farlo agire, e soprattutto se è così necessario andare a rallentare il tuo progetto per leggere una pagina internet di un altro sito per ottenere un risultato tipo "hai cercato la parola XYZ e nel sito ABC esiste".
Anche perché, ricordati: lo scraping potrebbe essere una pratica ritenuta illegale dai gestori del sito che interroghi!
Buon lavoro