[Rilevare una pagina web ed effettuarne un trova all'interno] Possibile con php?

**freetom** · 07-11-2012, 12:18

Dunque mi sarebbe venuta la seguente voglia

Provare ad estrapolare in qualche modo in automatico una pagina web
ed effettuare al suo interno sempre in automatico un'azione trova.

Es. estrapolo una pagina specifica di un blog e voglio ricercarvi all'interno la parola news se la trovo mostro un semplice

codice:

echo "COMPLIMENTI l'hai trovata!"

Possibile realizzare una pagina spartana di questo tipo con php?

Grazie!

**alcio74** · 07-11-2012, 15:05

Con FILE_GET_CONTENTS(), leggi la pagina HTML che passi come argomento in una stringa.
All'interno della stringa, con opportune espressioni regolari, fai lo scraping delle informazioni di cui necessiti.
È un metodo un po' brutale ma con le giuste regexp funziona a dovere.
Ovviamente, per parole di uso comune come NEWS, SPORT o che so io, rischieresti di trovare dei falsi positivi... quindi dei riscontri su parti della pagina che non fanno parte del testo di un articolo del blog.

**freetom** · 07-11-2012, 15:13

Originariamente inviato da alcio74
Con FILE_GET_CONTENTS(), leggi la pagina HTML che passi come argomento in una stringa.
All'interno della stringa, con opportune espressioni regolari, fai lo scraping delle informazioni di cui necessiti.
È un metodo un po' brutale ma con le giuste regexp funziona a dovere.
Ovviamente, per parole di uso comune come NEWS, SPORT o che so io, rischieresti di trovare dei falsi positivi... quindi dei riscontri su parti della pagina che non fanno parte del testo di un articolo del blog.

FILE_GET_CONTENTS() -> eccezionale! Stasera provo

"con opportune espressioni regolari, fai lo scraping delle informazioni di cui necessiti" tipo volessi trovare la parola "perdindirindina" nella stringona...

che dovrei scrivere come cod php?

"Ovviamente, per parole di uso comune come NEWS, SPORT o che so io, rischieresti di trovare dei falsi positivi..." = ???

Comunque... GRAZIEEE!

**alcio74** · 07-11-2012, 19:08

Originariamente inviato da freetom
tipo volessi trovare la parola "perdindirindina" nella stringona

Ci sono funzioni PHP che ti permettono di valutare, utilizzando delle opportune espressioni regolari, se il "modello" di stringa definito nella espressione regolare sia presente nella stringa passata come secondo argomento.
Le due funzioni sono PREG_MATCH() e PREG_MATCH_ALL().
Quale delle due funzioni usare, lo dovrai decidere te in base a quelle che saranno le tue esigenze.
Ora però viene il bello.
Le espressioni regolari sono di una potenza inaudita e davvero ti potrebbero tornare utili in moltissimi momenti.
Il problema serio è che prima di usarle dovrai sbattere un po' la testa nello studiarti la sintassi.
Quindi prima di cimentarti, studiale per bene.
Ti avverto subito è inutile che ti metti a scopiazzare codice di qua e di la, perché per adattare una Espressione Regolare alle tue esigenze, devi davvero conoscerne bene i meccanismi.
Per iniziare a studiarne la sintassi, o quamento la filosofia che c'è dietro, ti consiglio di partire da una ricerca su google.
Trovi pagine come questa ed inizi a seguire gli esempi.

Originariamente inviato da freetom
= ???

Poni il caso di una pagina di un portale.
C'è un articolo, oppure una lista di articoli, c'è un menù laterale con delle voci, magari ci trovi (Dio li fulmini) i box con gli utlimi tweet del profilo Twitter pubblico di chi gestisce il sito, in un box a lato, ci potresti trovare i classici footer pieni di link fatti così per migliorare il posizionamento SEO delle pagine, per non parlare che spesso ci trovi anche blocchi di pubblicità che arrivano da circuiti tipo Google AdWords!
Senza contare tutte le cose nascoste che trovi in una pagina internet (meta tag, testi alternativi ad immaigni e link).
In questa bolgia di parole potrebbe non essere difficile trovarne alcune che non sono relative all'articolo principale presente in una pagina, ma fanno parte (che ne so) della rispoosta ad un tweet riportato in maniera pseudo-casuale in un box copiato/incollato che torvi nel sito che vai a "grattare".
Alcune parole, insomma, quelle più di uso comune, le potresti trovare ovunque nella pagina che vai a prelevare e valutare, e quindi potresti ottenere un falso positivo nel risultato dello script.

Quindi, prima di scrivere 150 (o 15 o 1500) righe di codice più o meno complesso, valuta attentamente come impostare lo script, dove farlo agire, e soprattutto se è così necessario andare a rallentare il tuo progetto per leggere una pagina internet di un altro sito per ottenere un risultato tipo "hai cercato la parola XYZ e nel sito ABC esiste".
Anche perché, ricordati: lo scraping potrebbe essere una pratica ritenuta illegale dai gestori del sito che interroghi!

Buon lavoro

**freetom** · 07-11-2012, 19:43

Originariamente inviato da alcio74
Ci sono funzioni PHP che ti permettono di valutare, utilizzando delle opportune espressioni regolari, se il "modello" di stringa definito nella espressione regolare sia presente nella stringa passata come secondo argomento.
Le due funzioni sono PREG_MATCH() e PREG_MATCH_ALL().
Quale delle due funzioni usare, lo dovrai decidere te in base a quelle che saranno le tue esigenze.
Ora però viene il bello.
Le espressioni regolari sono di una potenza inaudita e davvero ti potrebbero tornare utili in moltissimi momenti.
Il problema serio è che prima di usarle dovrai sbattere un po' la testa nello studiarti la sintassi.
Quindi prima di cimentarti, studiale per bene.
Ti avverto subito è inutile che ti metti a scopiazzare codice di qua e di la, perché per adattare una Espressione Regolare alle tue esigenze, devi davvero conoscerne bene i meccanismi.
Per iniziare a studiarne la sintassi, o quamento la filosofia che c'è dietro, ti consiglio di partire da una ricerca su google.
Trovi pagine come questa ed inizi a seguire gli esempi.

Poni il caso di una pagina di un portale.
C'è un articolo, oppure una lista di articoli, c'è un menù laterale con delle voci, magari ci trovi (Dio li fulmini) i box con gli utlimi tweet del profilo Twitter pubblico di chi gestisce il sito, in un box a lato, ci potresti trovare i classici footer pieni di link fatti così per migliorare il posizionamento SEO delle pagine, per non parlare che spesso ci trovi anche blocchi di pubblicità che arrivano da circuiti tipo Google AdWords!
Senza contare tutte le cose nascoste che trovi in una pagina internet (meta tag, testi alternativi ad immaigni e link).
In questa bolgia di parole potrebbe non essere difficile trovarne alcune che non sono relative all'articolo principale presente in una pagina, ma fanno parte (che ne so) della rispoosta ad un tweet riportato in maniera pseudo-casuale in un box copiato/incollato che torvi nel sito che vai a "grattare".
Alcune parole, insomma, quelle più di uso comune, le potresti trovare ovunque nella pagina che vai a prelevare e valutare, e quindi potresti ottenere un falso positivo nel risultato dello script.

Quindi, prima di scrivere 150 (o 15 o 1500) righe di codice più o meno complesso, valuta attentamente come impostare lo script, dove farlo agire, e soprattutto se è così necessario andare a rallentare il tuo progetto per leggere una pagina internet di un altro sito per ottenere un risultato tipo "hai cercato la parola XYZ e nel sito ABC esiste".
Anche perché, ricordati: lo scraping potrebbe essere una pratica ritenuta illegale dai gestori del sito che interroghi!

Buon lavoro

Grazie mille mi metterò a studiare riguardo al suo utilizzo ti spiego l'idea era di cercare di farmi un piccolo rilevatore di posizionamento artigianale per vedere che posizione occupo con i miei siti e video su google e youtube... se fosse permesso... Ci sono un sacco di programmi anche ipercomplessi che lo fanno quindi credevo fosse permesso ma a questo punto se lo sai dammene conferma o meno

cosi' se non è permesso... evito anche di studiare...

**alcio74** · 07-11-2012, 23:40

Originariamente inviato da freetom
l'idea era di cercare di farmi un piccolo rilevatore di posizionamento artigianale per vedere che posizione occupo con i miei siti e video su google e youtube

Ma allora informati su come utilizzare le API di youtube.
Onestamente non le ho mai usate, ma di solito sono ben documentate!

**freetom** · 08-11-2012, 01:40

Originariamente inviato da alcio74
Ma allora informati su come utilizzare le API di youtube.
Onestamente non le ho mai usate, ma di solito sono ben documentate!

Credo di esserci quasi arrivato...
Mi mancherebbe di sapere come posso verificare ad esempio questo:

class="yt-grid-box, result-item-video, context-data-item", data-context-item-title="Video, interattivo, Rossa, o, Blu?", data-context-item-

ovvero sia come poter estrapolare il valore evidenziato in grassetto in una variabile $pezzodatrovare che rappresenta appunto una sottostringa della stringona...

tnx

**oly1982** · 08-11-2012, 15:44

giusto per curiosità... ma il tuo scopo concreto con youtube quale sarebbe?

**freetom** · 08-11-2012, 15:49

Originariamente inviato da oly1982
giusto per curiosità... ma il tuo scopo concreto con youtube quale sarebbe?

Semplicemente monitorare la posizione dei miei video sperando di arrivare in un certo tempo nelle prime 10 pagine per determinate chiavi di ricerca

**oly1982** · 08-11-2012, 16:01

Originariamente inviato da freetom
Semplicemente monitorare la posizione dei miei video sperando di arrivare in un certo tempo nelle prime 10 pagine per determinate chiavi di ricerca

http://www.simplesoft.it/php/interag...pi-in-php.html

Discussione: [Rilevare una pagina web ed effettuarne un trova all'interno] Possibile con php?

Strumenti discussione

Ricerca discussione

Visualizza

[Rilevare una pagina web ed effettuarne un trova all'interno] Possibile con php?

Permessi di invio