Ne esiste uno gia fatto per caso?
Me ne serve uno che estragga html da tutte le pagine di un sito web, rimanendo però sullo stesso sito..
??
Ne esiste uno gia fatto per caso?
Me ne serve uno che estragga html da tutte le pagine di un sito web, rimanendo però sullo stesso sito..
??
In che senso?
di cosa hai bisogno nello specifico?
nello specifico.. di un codice php che mi trovi TUTTE le pagine di un sito web e mi restituisca gli url, come echo... (Mi servirebbero praticamente tutte le pagine di alcuni siti)
Poi lo implemento io..
PS..
Ma i Crawler semplicemente cercano links nel html della home e poi si espandono? Perchè cosi secondo me qualcuno salta.... O ci sono metodi più raffinati?
Secondo me qualcuno salta???!!!!PS..
Ma i Crawler semplicemente cercano links nel html della home e poi si espandono? Perchè cosi secondo me qualcuno salta.... O ci sono metodi più raffinati?
Ma sai che cosa è un algoritmo???
Detto questo le supposizioni non contano dato che basterebbe sapere quale algoritmo è stato utilizzato per seguire i link delle pagine, logicamente bisognerebbe prima sapere quale struttura dati è stata usata.codice:Da Wikipedia: In informatica e matematica, con il termine algoritmo si intende, in genere, un metodo per ottenere un certo risultato (risolvere un certo tipo di problema) attraverso un numero finito di passi. Io direi più semplicemente una sequenza finita di istruzioni per ottenere un risultato in un tempo "ragionevole", comunque potremmo starne a parlare ore se oltre alla teoria degli Algoritmi ci tiriamo in mezzo anche la teoria della Calcolabilità e Complessità.
I penso che tutto il web sia possibile rappresentarlo per mezzo di un grafo diretto non pesato con cicli e quindi per sezionarlo a dovere basterebbe utilizzare uno dei tanti algoritmi di visita dei grafi.
Quindi stai tranquillo che se tutto è implementato per bene tutte le pagine non isolate, cioè non linkate da nessuno prima o poi verranno esaminate.
uhm ok
che algoritmo mi suggerisci?
nel post chiedevo magari se qualcuno di voi ne ha trovato qualcuno interessante..
Eh mio caro il discorso è abbastanza complesso
Prima cosa devi decidere come implementare il grafo mi sembra che ci siano tre opzioni :
- Mediante lista di adiacenza
- Mediante matrice di adiacenza
- Mediante matrice di incidenza
Poi devi scegliere l'algoritmo ovvero puoi usare la BFS o la DFS
Inoltre per usare questi algoritmi devi usare delle strutture dati elementari di supporto ovvero stack o coda e di conseguenza le funzioni per la loro manipolazione ovvero le varie pop(), push(), top() ecc. ecc.
Come vedi non è facile, puoi provare a cercare delle librerie che abbiano implementato tali funzioni se non ricordo male il Collection Framework di java implementa queste strutture dati però i grafi non credo.
Io dovrei fare una ricerca su siti che vendono dei prodotti ecommerce..
che mi consigli, tu che ne sai più di me?
Vuoi fare un clone di trovaprezzi.it?Originariamente inviato da jookla
Io dovrei fare una ricerca su siti che vendono dei prodotti ecommerce..
che mi consigli, tu che ne sai più di me?
Il 90% dei problemi di un pc si trova
tra la tastiera e la sedia.
Per trovare tutte le pagine di un sito basta scansionare la sitmap che normalmente si mette in sito/sitemal.xml
trovaprezzi.it? no no qualcosa molto molto più in piccolo..
l'idea di andare a leggere il sitemap.xml è davvero buona però bisogna trovarlo non sempre lo mettono li...