Ricerca Sequenziale vs Binaria per grandi file .csv

**mdsjack** · 15-05-2005, 18:39

ciao a tutti, ho una domanda nuova

secondo voi per cercare dati dentro un GROSSO archivio .csv è meglio un sistema di ricerca sequenziale o binaria?

ovviamente intendo con php e in relazione alla velocità di esecuzione.

ciao,
jack.

**daniele_dll** · 15-05-2005, 18:51

[supersaibal]Originariamente inviato da mdsjack
ciao a tutti, ho una domanda nuova

secondo voi per cercare dati dentro un GROSSO archivio .csv è meglio un sistema di ricerca sequenziale o binaria?

ovviamente intendo con php e in relazione alla velocità di esecuzione.

ciao,
jack. [/supersaibal]

è una follia ricercare dentro un csv ...

cmq devi andare per forza sul sequenziale, non hai chiavi
tranne che mantieni tu un indice esterno che ti gestisca i campi di ricerca e quindi accelera tutto tremendamente

**mdsjack** · 15-05-2005, 19:01

pensavo al sistema binario è proprio per evitare indici.

il csv sarebbe ordinato in ordine crescente proprio nel campo "indice", a cui poi corrisponde un valore.

un sistema ad indice esterno sai dirmi quanto fa guadagnare a grandi linee?

**daniele_dll** · 15-05-2005, 19:10

TANTO

xche?

dipende da come lo fai

se ad esempiofai un file di questo tipo ...

[HEADER]
1BYTE[CHAR]4BYTE[UINT]4BYTE[UINT]
.
.
.
.
.

[CHIAVI]
nBYTE[CHAR()]4BYTE[UINT]1BYTE[CHAR-SEPARATORE]

e fai 256 blocchi di questi ... e nel primo byte inserisci il primo carattere del valore che devi cercare ... sai all'instante da dove iniziare (per vedere dove leggere nella testata del file è estremamente semplice ... 9 * valore ascii del carattere)

il valore unsigned int (devi sprintfarlo con %u senno lo hai signed in php) contiene la posizione iniziale di quei valori , mentre il secondo uint contiene la posizione finale ... semplicemente estrai quel blocco di dati e lo splitti in base ad un separatore che hai precedentemente stabilito ... a questo punto hai un array, piccolo rispetto alle dimensioni complessive, dell'indice ... usi ad es un ciclo while ... e appena trovi il valore che ti interessa leggi gli ultimi 4 byte ed estrai la riga ... e poi apri il CVS ... ed estrai (devi leggere carattere per carattere, in ogni caso dato che devi scomporti, tramite un parser, il contenuto del CSV) fino all'accapo finale

in questo modo ... puoi anche avere 1 milione di righe dentro il cvs ... ma la velocità di ricerca è ESTREMAMENTE alta

**mdsjack** · 15-05-2005, 19:22

il bello è che quando mi spieghi qualcosa, io capisco il 20%.

cmq grazie. per adesso lascio il sequenziale e addio al binario.

**daniele_dll** · 15-05-2005, 19:30

LOL

guarda che è semplice ... ci sono, MAX, fatto bene, 2 giorni di lavoro ^^

**skidx** · 15-05-2005, 20:08

dico un'ovvietà: ovviamente il file deve essere ordinato per i valori tra cui devi cercare, sennò la ricerca binaria è inutile

**daniele_dll** · 15-05-2005, 20:16

[supersaibal]Originariamente inviato da skidx
dico un'ovvietà: ovviamente il file deve essere ordinato per i valori tra cui devi cercare, sennò la ricerca binaria è inutile

[/supersaibal]

beh ... in realtà no

usando un file indice non ha importanza l'ordinamento

al max ti può accelerare un po ... ma se usi il sistema che ho descritto su, lo speedup è minimo

))

**mdsjack** · 15-05-2005, 20:30

sbav, ma continuo a non capirci niente.

non sono un informatico...

**skidx** · 15-05-2005, 20:33

[supersaibal]Originariamente inviato da daniele_dll
beh ... in realtà no

usando un file indice non ha importanza l'ordinamento

[/supersaibal]

Daniele, se usi un file indice ordinato, la ricerca binaria la fai sull'indice, non sul file, ma sempre ordinato deve essere quello su cui cerchi.

Per la ricerca binaria, ovunque tu la faccia, i valori da cercare devono essere ordinati, sennò è perfettamente inutile, conviene fare una sequenziale.

Discussione: Ricerca Sequenziale vs Binaria per grandi file .csv

Strumenti discussione

Ricerca discussione

Visualizza

Ricerca Sequenziale vs Binaria per grandi file .csv

Re: Ricerca Sequenziale vs Binaria per grandi file .csv

Permessi di invio