Rilevare duplicati o pseudo-duplicati tra pagine web con url differente

**el gaviota** · 04-08-2008, 19:52

Salve a tutti.

(è il mio primo messaggio)

La mia richiesta d'aiuto è un po' oscura se non si premette una piccola introduzione.
Sto cominciando la progettazione di un social network relativo ai contenuti per adulti. Essendo allievo ingegnere informatico naturalmente non sono all'asciutto di programmazione (programmazione ad oggetti, Java, C++, piccoli sistemi di controllo per robot, conoscenze "libresche" di SQL e basi di dati) ma riguardo lo sviluppo web conosco poco. Comunque sono abituato a leggere documentazione e studiare mi interessa.

Per il mio progetto so che avrò bisogno di PHP, un DBMS e semplice design CSS. Tutti argomenti su quali qui ci sono un sacco di articoli e guide. Per questo motivo comincio un po' "al contrario": rilevo le problematiche che mi sembrano più spinose e vedo un po' se è roba che sono capace di risolvere. Diciamo che siamo in una fase di studio di fattibilità.

Veniamo al problema tecnico.
Nel nostro scenario abbiamo degli URL sottomessi dagli utenti e aggiunti ad un db. In fase di inserimento si fa in primo luogo una verifica degli url duplicati, più o meno raffinata. Tuttavia è possibile, anzi probabile, che avvengano inserimenti di URL "sporcati" variamente da querystring, codici referrer etc, che si riferiscono a pagine già presenti.
L'inghippo sta nel fatto che non è possibile sapere a priori quali parametri siano rilevanti per il contenuto e quali altri inutili, perché l'uso che i vari (tantissimi) siti possono fare della querystring è il più disparato.
Per questo motivo ho puntato ad interpretare il contenuto. Uno script prende l'url e si scarica la pagina: a quel punto estrae il contenuto di body e lo ripulisce da tutti i tag (tranne il tag img*). Sul risultato si applica una funzione hash e si salva il digest. Per rilevare i duplicati verrà fatto un confronto tra i digest.

Il metodo vi sembra buono? Qual è l'algoritmo di hash più adatto? :master:
Lo script dovrebbe essere di basso uso, quindi non dovrebbe essere critico per le prestazioni.

*Faccio notare che senza ripulire il codice della pagina dai tag non si riesce a rilevare duplicati. Le differenze in genere sono presenti in parametri di script contenuti nell'header, nonché in svariati collegamenti che propagano il referrer. Ripulire tutto tranne le immagini mi è sembrato un buon compromesso: il falso positivo è abbastanza remoto, il falso negativo è tollerabile (ci sono pure gli utenti).
Ma naturalmente anche su questo punto sono ben accetti i suggerimenti.

EDIT

Dimenticavo di dire che con questo metodo ho già fatto dei file di test php funzionanti. Ma non fanno niente più di ciò che ho spiegato...

Discussione: Rilevare duplicati o pseudo-duplicati tra pagine web con url differente

Strumenti discussione

Ricerca discussione

Visualizza

Visualizzazione discussione

Rilevare duplicati o pseudo-duplicati tra pagine web con url differente

Permessi di invio