Consigli su progetto di data/text mining

**Neptune** · 17-10-2013, 18:56

Duuunque per un esame di Data&Text mining il professore ci ha lasciato il massimo grado di libertà sull'argomento da trattare, a patto di usare le varie tecniche che ci insegnerà durante il corso e di analizzare tutte le tipologie di dati (Numerici continui, Nominali, Nominali ordinati, oltre che strutturati e non strutturati).

Ora a parte che non so ancora quali saranno queste tecniche e quindi già così su due piedi diventa difficile, non mi viene comunque nulla in mente che poi abbia una sua utilità. Considerando tra l'altro che dobbiamo utilizzare dataset reali presi da qualche parte su internet (lui suggeriva google finance, o qualcosa sul fantacalcio o robe simili).

Eccomi qui quindi a chiedervi consigli su qualche applicazione che potrebbe avere un senso a patto che sia un argomento per cui poi i dataset siano reperibli.

A me era venuto in mente di utilizzare un dataset di rilevazioni sulle rotte delle navi (le famose rilevazioni AIS su cui ho fatto la tesi triennale) in cui ci sono informazioni riguardanti la rotta della nave, oltre che informazioni relative alla nave stessa tipo nazionalità, stazza, velocità massima e media rilevata e cercare di estrapolarci qualche informazione utile. Ad esempio mi era venuta in mente di estrapolare stazza della nave e velocità media per vedere come questi dati si rilelazionavano. Però sarebbe un applicazione piuttosto limitata e blanda e non utilizzerei tutti i tipi di dati come mi ha chiesto lui.

Avete in mente quindi qualche applicazione di data&text mining che potrebbe avere senso e che lavori su più tipologie di dati? insomma qualcosa che non risulti troppo banale come quello che è venuto in mente a me!

**MItaly** · 17-10-2013, 19:30

Io una volta, per prendere la mano con Python, SQLite e BeautifulSoup, avevo scritto uno script Python che estraeva (eventualmente in massa) i thread da questo forum, ricreandoli in un DB in locale; alla fine ci avevo fatto qualche statistica sul numero di utenti "affezionati" e sull'andamento dei post in base al periodo dell'anno, dati che hanno confermato un po' di idee che avevo sul tipo di partecipazione che ha il forum.

---

Ah per il Fantacalcio: io di calcio non so nulla, ma ero stato tirato dentro ad una variante fallosa del fantacalcio - +1 per ogni cartellino giallo, +3 per ogni espulsione, +1 per ogni gol subito dal portiere, -1 per ogni gol segnato, +la pagella del giocatore invertita (10 - il voto), +1 per ogni giornata di squalifica, roba così (l'obiettivo diventa quello di costruire una squadra di brocchi fallosi).

Per questo motivo, recuperavo per vie traverse dei CSV con i dati delle giornate, e, mettendoli tutti in un DB e calcolando alcune statistiche, determinando di volta in volta come schierare la squadra. In genere la cosa funzionava abbastanza bene.

**lnessuno** · 17-10-2013, 19:47

Originariamente inviata da MItaly

alla fine ci avevo fatto qualche statistica

Figata!

**MItaly** · 17-10-2013, 19:51

Originariamente inviata da lnessuno

Figata!

soprattutto perché conferma le impressioni che si hanno "a pelle".

Tra l'altro avevo anche fatto un dump del subforum politica prima che venisse cancellato, da cui era saltato fuori che Nuvolari aveva scritto 1,4 MB di roba (solo testo!)

, pari a circa 1/6 delle dimensioni complessive del subforum.

**lnessuno** · 17-10-2013, 19:52

... sarei curioso di sapere i miei dati.... beh, in realtà sarei curioso di vedere tutto

**MItaly** · 17-10-2013, 19:55

Originariamente inviata da lnessuno

... sarei curioso di sapere i miei dati.... beh, in realtà sarei curioso di vedere tutto

https://dl.dropboxusercontent.com/u/...013.sqlite.zip
Consiglio:

codice:

select 
username,
sum(length(content)) as totlength,
count(id) as postsnumber,
(sum(length(content))/count(id)) as meanlength
from posts group by username order by totlength desc

**Neptune** · 17-10-2013, 20:00

Ma quindi il tuo software si è scaricato in versione html tutte le pagine del forum per tirare giù queste statistiche?
Se così fosse comunque si trattere solamente di dati non strutturati, e tra l'altro non saprei (con Knime, tool consigliato per questo esame) a tirarmi giù tutti questi dati. Oltre al fatto che poi le variabili che utilizzerei sarebbero tutti numerici (il numero di post) e non ci sarebbero variabili nominali quindi in qualche modo dovrei arrichire la cosa oltre che capire come riottenere i dati.

**MItaly** · 17-10-2013, 20:08

Originariamente inviata da Neptune

Ma quindi il tuo software si è scaricato in versione html tutte le pagine del forum per tirare giù queste statistiche?

Solo per quelle dei thread che mi interessavano; di fatto c'era uno script che prima di iniziare a fare alcunché pescava dagli archivi di un determinato sotto-forum tutti gli ID dei thread. Poi, per ciascun thread, otteneva l'HTML di ogni pagina (perché alcune informazioni si trovavano solo lì), e sfruttava poi la funzione "scarica il thread" per ottenere il BBcode originale dei post. Alla fine, i post venivano memorizzati nel DB locale. Tutto questo giochino richiedeva un tempo variabile tra il mezzo secondo e qualche secondo per thread.

Finito il download di tutto, le statistiche (di qualunque genere) si possono fare sul DB in locale.

Se così fosse comunque si trattere solamente di dati non strutturati,

Ni, ogni post e ogni thread ha un po' di struttura oltre al testo del messaggio (nel caso specifico, io tiravo giù ID del post, nome e ID dell'autore del post e data di invio) (poi magari dico fregnacce, e con dati strutturati si intende qualcosa d'altro)

e tra l'altro non saprei (con Knime, tool consigliato per questo esame) a tirarmi giù tutti questi dati.

Non so aiutarti in quello, ti buttavo lì giusto qualche esempio di cose che avevo fatto. (comunque, lo script era un accrocchio pauroso di DOM e regex)

**Neptune** · 17-10-2013, 21:02

Originariamente inviata da MItaly

Solo per quelle dei thread che mi interessavano; di fatto c'era uno script che prima di iniziare a fare alcunché pescava dagli archivi di un determinato sotto-forum tutti gli ID dei thread. Poi, per ciascun thread, otteneva l'HTML di ogni pagina (perché alcune informazioni si trovavano solo lì), e sfruttava poi la funzione "scarica il thread" per ottenere il BBcode originale dei post. Alla fine, i post venivano memorizzati nel DB locale. Tutto questo giochino richiedeva un tempo variabile tra il mezzo secondo e qualche secondo per thread.

Finito il download di tutto, le statistiche (di qualunque genere) si possono fare sul DB in locale.

Ni, ogni post e ogni thread ha un po' di struttura oltre al testo del messaggio (nel caso specifico, io tiravo giù ID del post, nome e ID dell'autore del post e data di invio) (poi magari dico fregnacce, e con dati strutturati si intende qualcosa d'altro)

Non so aiutarti in quello, ti buttavo lì giusto qualche esempio di cose che avevo fatto. (comunque, lo script era un accrocchio pauroso di DOM e regex)

L'unica esercitazione fatta a lezione ci faceva vedere come processare file CSV con questo knime e tanti cazzi. Però siamo solo all'inizio del corso probabilmente farà vedere anche come preprocessare roba non strutturata visto che lui stesso parlava di attingere informazioni direttamente da siti web.

Un idea che mi stava venendo è di andare sul sito dei comuni italiani (mi sa che lo aveva citato anche il professore), a quel punto le analisi che potrei fare?

Tipo si potrebbero confrontare le densità di popolazione dei vari comuni (magari solo delle province se mi voglio diminuire un pò il carico di dati) però è un analisi molto blanda di dati numerici univariati. Magari potrei anche fornire ulteriormente dei dati aggregati tipo differenza tra densità tra sud, centro e nord.

Potrei estrarre le estrazioni ferroviare e fare un confronto tra densità di popolazione e numero di stazioni ferroviarie nei dintorni, oppure tra superfice e stazioni ferroviarie.

Però non mi viene in mente altro e già quelle due cose che mi sono venute in mente mi sembrano un pò cazzate. Ci vorrebbe qualche dato che analizzato effettivamente sia di una qualche utilità invece mi stanno venendo in mente cose che poi non servono veramente a nulla.

**Gumble** · 18-10-2013, 09:12

a suo tempo durante uno stage in una compagnia telefonica avevo estrapolato una relazione tra tipo di azienda (anni di attività, numero di impiegati, storia debiti del CEO, etc.) e ritardi nei pagamenti delle fatture del telefono. Il tutto per dimostrare che le giovani aziende pagavano in ritardo.... sorprendentemente il risultato andava nella direzione opposta (le grandi multinazionali si prendevano il diritto di pagare quando volevano).
avevo provato varie tecniche tra cui clustering, reti neurali e alberi di decisione per analizzare 300gb di dati sui pagamenti piu o meno strutturati (tabelle DB denormalizzate per ottenere un unico resultset).
se hai la possibilità, ti consiglio di fare qls del genere... é molto interessante!

Discussione: Consigli su progetto di data/text mining

Strumenti discussione

Ricerca discussione

Visualizza

Consigli su progetto di data/text mining

Permessi di invio