Visualizzazione dei risultati da 1 a 10 su 38

Hybrid View

  1. #1
    Quote Originariamente inviata da Neptune Visualizza il messaggio
    Ma quindi il tuo software si è scaricato in versione html tutte le pagine del forum per tirare giù queste statistiche?
    Solo per quelle dei thread che mi interessavano; di fatto c'era uno script che prima di iniziare a fare alcunché pescava dagli archivi di un determinato sotto-forum tutti gli ID dei thread. Poi, per ciascun thread, otteneva l'HTML di ogni pagina (perché alcune informazioni si trovavano solo lì), e sfruttava poi la funzione "scarica il thread" per ottenere il BBcode originale dei post. Alla fine, i post venivano memorizzati nel DB locale. Tutto questo giochino richiedeva un tempo variabile tra il mezzo secondo e qualche secondo per thread.

    Finito il download di tutto, le statistiche (di qualunque genere) si possono fare sul DB in locale.
    Se così fosse comunque si trattere solamente di dati non strutturati,
    Ni, ogni post e ogni thread ha un po' di struttura oltre al testo del messaggio (nel caso specifico, io tiravo giù ID del post, nome e ID dell'autore del post e data di invio) (poi magari dico fregnacce, e con dati strutturati si intende qualcosa d'altro)
    e tra l'altro non saprei (con Knime, tool consigliato per questo esame) a tirarmi giù tutti questi dati.
    Non so aiutarti in quello, ti buttavo lì giusto qualche esempio di cose che avevo fatto. (comunque, lo script era un accrocchio pauroso di DOM e regex)
    Ultima modifica di MItaly; 17-10-2013 a 20:12
    Amaro C++, il gusto pieno dell'undefined behavior.

  2. #2
    Quote Originariamente inviata da MItaly Visualizza il messaggio
    Solo per quelle dei thread che mi interessavano; di fatto c'era uno script che prima di iniziare a fare alcunché pescava dagli archivi di un determinato sotto-forum tutti gli ID dei thread. Poi, per ciascun thread, otteneva l'HTML di ogni pagina (perché alcune informazioni si trovavano solo lì), e sfruttava poi la funzione "scarica il thread" per ottenere il BBcode originale dei post. Alla fine, i post venivano memorizzati nel DB locale. Tutto questo giochino richiedeva un tempo variabile tra il mezzo secondo e qualche secondo per thread.

    Finito il download di tutto, le statistiche (di qualunque genere) si possono fare sul DB in locale.

    Ni, ogni post e ogni thread ha un po' di struttura oltre al testo del messaggio (nel caso specifico, io tiravo giù ID del post, nome e ID dell'autore del post e data di invio) (poi magari dico fregnacce, e con dati strutturati si intende qualcosa d'altro)

    Non so aiutarti in quello, ti buttavo lì giusto qualche esempio di cose che avevo fatto. (comunque, lo script era un accrocchio pauroso di DOM e regex)
    L'unica esercitazione fatta a lezione ci faceva vedere come processare file CSV con questo knime e tanti cazzi. Però siamo solo all'inizio del corso probabilmente farà vedere anche come preprocessare roba non strutturata visto che lui stesso parlava di attingere informazioni direttamente da siti web.

    Un idea che mi stava venendo è di andare sul sito dei comuni italiani (mi sa che lo aveva citato anche il professore), a quel punto le analisi che potrei fare?

    Tipo si potrebbero confrontare le densità di popolazione dei vari comuni (magari solo delle province se mi voglio diminuire un pò il carico di dati) però è un analisi molto blanda di dati numerici univariati. Magari potrei anche fornire ulteriormente dei dati aggregati tipo differenza tra densità tra sud, centro e nord.

    Potrei estrarre le estrazioni ferroviare e fare un confronto tra densità di popolazione e numero di stazioni ferroviarie nei dintorni, oppure tra superfice e stazioni ferroviarie.

    Però non mi viene in mente altro e già quelle due cose che mi sono venute in mente mi sembrano un pò cazzate. Ci vorrebbe qualche dato che analizzato effettivamente sia di una qualche utilità invece mi stanno venendo in mente cose che poi non servono veramente a nulla.
    "Estremamente originale e fantasioso" By darkiko;
    "allora sfiga crepuscolare mi sa che e' meglio di atmosfera serale" By NyXo;
    "per favore, già è difficile con lui" By fcaldera;
    "se lo apri te e invece di "amore" ci metti "lavoro", l'effetto è lo stesso" By fred84

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.