Home Messaggi odierni FAQ Ricerca avanzata Lo staff del forum Regolamento Utenti Archivio

Visualizzazione dei risultati da 1 a 9 su 9

Discussione: Rilevare duplicati o pseudo-duplicati tra pagine web con url differente

Navigazione veloce PHP Vai in cima

Visualizzazione discussione

06-08-2008, 13:48 #9
wider

Visualizza il profilo

Visualizza i messaggi forum

Messaggio privato

Vai alla Home Page
Utente di HTML.it

Registrato dal

Jan 2005

Messaggi

605
Guarda... i problemi sono vari: facendo una rapida anlisi ti accorgerai che alcune pagine uguali differiscono fra loro per "elementi" inconsistenti (per esempio molti siti stampano l'ora o le news da altri siti via XML): calcolando un'hash (o peggio un valore md5) non puoi fare un controllo su questi element (infatti un valore md5 cambia radicalmente anche per solo un carattere).

Cosa posso consigliarti? Per avere il risultato migliore devi fare un controllo necessariamente sul testo stesso (quindi usare similar-text, con una percentuale di almeno 90%, o levenshtein).

Per un confronto 1:1 il tuo algoritmo va benissimo.

Cristiano
---
Originariamente inviato da rebelia : solo un nerd puo' pensare di tacchinare in un forum di informatica
Rispondi quotando

Navigazione veloce PHP Vai in cima

« Discussione precedente | Prossima discussione »

Permessi di invio

Non puoi inserire discussioni
Non puoi inserire repliche
Non puoi inserire allegati
Non puoi modificare i tuoi messaggi

Il codice BB è attivo
Le smilie sono attive
Il codice [IMG] attivo
[VIDEO] code is disattivato
il codice HTML è disattivato

Regole del Forum

Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.