gestire code/liste in php

**starmercuzio** · 10-06-2011, 14:38

Ho da scrivere un po' di codice gestendo queste 2 strutture, ma non ho trovaTO MOLTo online, sapete linkarmi qualcosa? Ho bisogno delle funzioni principali, push e pop, per gestire una coda di link. Grazie. HO cercato anche qui su html, ma non ho trovato grandi "tutorial". Mi servirebbe sapere come dichiaro una coda/lista, come inserisco e rimuovo.
Inoltre se non sbhaglio se uso

codice:

$prova=file("nomefile.txt")

mi crea una lista che ha come elementi le righe del nomefile.txt? o sbaglio?

**m4rko80** · 10-06-2011, 16:12

Ciao, file() mette il contenuto di un file in un array riga per riga.

Push e pop a cosa ti riferisci?
Cosa devi fare coi link?

**starmercuzio** · 10-06-2011, 16:19

Devo realizzare un crawler in php piuttosto rudimentale. Ho parsato una pagina web in due parti, una solo link (ancore) che andrà in una coda( ecco a cosa mi serve) e l'altra parte in un file su disco con i termini senza i link ( vorrei appendere nel file ogni volta il testo della pagina visitata)... Non ho la minima idea di come implementare la coda su cui inserire i link...

**Santino83_02** · 10-06-2011, 17:56

guarda se usi array_pop/array_shift/array_push se a posto. Vediti il manuale per sapere che fanno, ma mi sa che hai già capito...poi se vuoi ti fai una tua classettina per la tua struttura dati che usa queste funzioni.

**starmercuzio** · 11-06-2011, 11:56

devo cstrutire un semplice crawler in php senza gestione dei thread o flag su pagine viste. Il codice scritto fin'ora è :

codice:

<?php
$testoiniziale=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag
$testodopo=strip_tags($testoiniziale,"<a>"); // rimuovo tutti i tag tranne quello definito dopo la virgola
preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testodopo,$matches);//tramite questa er posso avere soltanto tutti i link dopo ahref
file_put_contents("codicehtml.txt",$matches[1]);
for($i=0;$i<count($matches[1]);$i++) {
	$link=array_shift($matches[1]);
	//print($link);
	$testodipartenza=file_get_contents($link);
	$testolink=strip_tags($testodipartenza,"<a>");
	preg_match_all("/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $testolink,$ancore);
	print($ancore[1]);
	
	
	}
	$testoiniziale2=file_get_contents("http://www.repubblica.it"); // ricavo tutto il contenuto di una pag 
$testodopot=strip_tags($testoiniziale2);
$array=explode(" ",$testodopot);
file_put_contents("termini.txt",$array);
?>

Voglio parsare ogni pagina links e testo.. tutti il testo andrà in termini.txt mentre i links, staranno in memoria per velocizzare il tutto. Ho usato quindi un vettore a mo' di coda, che mi preleva ogni volta la testa del vettore (array-shift) e la apre. Mi restituisce un'errore su file_get_contents($link), come mai?? Tente prensente che per ora è solo un abbozzo, linea guida... sono sulla buona strada ?

Ah dimenticavo che all'interno del for implemento solo il parsing dei link, il parsing del testo vale solo per la pagina seme per ora...

**starmercuzio** · 13-06-2011, 19:42

up!

**starmercuzio** · 16-06-2011, 17:03

Originariamente inviato da starmercuzio
up!

**Santino83_02** · 16-06-2011, 17:42

che errore ti da sul file_Get_contents?

Discussione: gestire code/liste in php

Strumenti discussione

Ricerca discussione

Visualizza

gestire code/liste in php

Permessi di invio