Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 17
  1. #1
    Utente bannato
    Registrato dal
    Apr 2011
    Messaggi
    113

    [crawler php] Ne esiste uno gia fatto per caso?

    Ne esiste uno gia fatto per caso?

    Me ne serve uno che estragga html da tutte le pagine di un sito web, rimanendo però sullo stesso sito..

    ??

  2. #2
    In che senso?
    di cosa hai bisogno nello specifico?

  3. #3
    Utente bannato
    Registrato dal
    Apr 2011
    Messaggi
    113
    nello specifico.. di un codice php che mi trovi TUTTE le pagine di un sito web e mi restituisca gli url, come echo... (Mi servirebbero praticamente tutte le pagine di alcuni siti)

    Poi lo implemento io..



    PS..
    Ma i Crawler semplicemente cercano links nel html della home e poi si espandono? Perchè cosi secondo me qualcuno salta.... O ci sono metodi più raffinati?

  4. #4
    Utente di HTML.it L'avatar di wino_7
    Registrato dal
    Dec 2006
    Messaggi
    537
    PS..
    Ma i Crawler semplicemente cercano links nel html della home e poi si espandono? Perchè cosi secondo me qualcuno salta.... O ci sono metodi più raffinati?
    Secondo me qualcuno salta???!!!!
    Ma sai che cosa è un algoritmo???

    codice:
    Da Wikipedia:
    In informatica e matematica, con il termine algoritmo si intende,
    in genere, un metodo per ottenere un certo risultato
    (risolvere un certo tipo di problema) attraverso un numero finito di passi.
    Io direi più semplicemente una sequenza finita di istruzioni per ottenere
    un risultato in un tempo "ragionevole", comunque potremmo
    starne a parlare ore se oltre alla teoria degli Algoritmi ci tiriamo
    in mezzo anche la teoria della Calcolabilità e Complessità.
    Detto questo le supposizioni non contano dato che basterebbe sapere quale algoritmo è stato utilizzato per seguire i link delle pagine, logicamente bisognerebbe prima sapere quale struttura dati è stata usata.
    I penso che tutto il web sia possibile rappresentarlo per mezzo di un grafo diretto non pesato con cicli e quindi per sezionarlo a dovere basterebbe utilizzare uno dei tanti algoritmi di visita dei grafi.
    Quindi stai tranquillo che se tutto è implementato per bene tutte le pagine non isolate, cioè non linkate da nessuno prima o poi verranno esaminate.

  5. #5
    Utente bannato
    Registrato dal
    Apr 2011
    Messaggi
    113
    uhm ok

    che algoritmo mi suggerisci?
    nel post chiedevo magari se qualcuno di voi ne ha trovato qualcuno interessante..

  6. #6
    Utente di HTML.it L'avatar di wino_7
    Registrato dal
    Dec 2006
    Messaggi
    537
    Eh mio caro il discorso è abbastanza complesso
    Prima cosa devi decidere come implementare il grafo mi sembra che ci siano tre opzioni :
    • Mediante lista di adiacenza
    • Mediante matrice di adiacenza
    • Mediante matrice di incidenza

    Poi devi scegliere l'algoritmo ovvero puoi usare la BFS o la DFS
    Inoltre per usare questi algoritmi devi usare delle strutture dati elementari di supporto ovvero stack o coda e di conseguenza le funzioni per la loro manipolazione ovvero le varie pop(), push(), top() ecc. ecc.

    Come vedi non è facile, puoi provare a cercare delle librerie che abbiano implementato tali funzioni se non ricordo male il Collection Framework di java implementa queste strutture dati però i grafi non credo.

  7. #7
    Utente bannato
    Registrato dal
    Apr 2011
    Messaggi
    113
    Io dovrei fare una ricerca su siti che vendono dei prodotti ecommerce..
    che mi consigli, tu che ne sai più di me?

  8. #8
    Originariamente inviato da jookla
    Io dovrei fare una ricerca su siti che vendono dei prodotti ecommerce..
    che mi consigli, tu che ne sai più di me?
    Vuoi fare un clone di trovaprezzi.it?
    Il 90% dei problemi di un pc si trova
    tra la tastiera e la sedia.

  9. #9
    Per trovare tutte le pagine di un sito basta scansionare la sitmap che normalmente si mette in sito/sitemal.xml

  10. #10
    Utente bannato
    Registrato dal
    Apr 2011
    Messaggi
    113
    trovaprezzi.it? no no qualcosa molto molto più in piccolo..

    l'idea di andare a leggere il sitemap.xml è davvero buona però bisogna trovarlo non sempre lo mettono li...

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.