Visualizzazione dei risultati da 1 a 4 su 4
  1. #1

    Problema con pulizia codice html......

    Ciao a tutti, ho un problema sul quale ci sto perdendo la testa :muro:
    Il problema è che devo filtrare un testo in html e scriverlo in un file di testo ma succedono cose (per me almeno) inspiegabili.
    Farò un post un po' lunghino, però credo sia l'unico modo per descrivere bene il problema.
    Prendiamo come testo html un esempio che potrebbe essere questo:
    codice:
    "Tipologia: Interni
    Formato: 3,5
    Capacità:
     750 GB
    Velocità Disco: 7200rpm
                                                           Interfaccia:
     SATA
    
    Features
    
    • Max. 334GB Formatted Capacity per Disk 
    
    • Serial ATA 3.0Gbps Interface Support 
    
    • Improved recording stability over temperature with PMR 
    
    • Advanced dynamic FOD control for best data integrity 
    
    • Intelligent compensation of external disturbance 
    
    • SATA Native Command Queuing Feature 
    
    • Device Initiated SATA Power Management 
    
    • Staggerd Spin-up Support 
    
    • Environment friendly product with RoHS compliance 
    
    • Improved performance with dual-ARM based firmware 
    
    • ATA S.M.A.R.T. Compliant 
    
    • ATA Automatic Acoustic Management Feature 
    
    • ATA 48-bit Address Feature 
    
    • ATA Device Configuration Overlay Feature 
    
    • NoiseGuard™ 
    
    • SilentSeek™ 
    
    Drive Configuration Capacity  750 GB  
    
    Interface  Serial ATA 3.0 Gbps  
    
    Buffer DRAM Size  32 MB  
    
    Byte per Sector  512 bytes  
    
    Rotational Speed  7200 RPM  
    
    Performance Specifications Average Seek time(typical)  8.9 ms  
    
    Average Latency  4.17 ms  
    
    Data Transfer Rate / Media to/from Buffer(Max.)  175 MB/sec  
    
    Data Transfer Rate / Buffer to/from Host(Max.)  300 MB/sec  
    
    Drive Reday Time(typical)  12 sec  
    
    Reliability Specifications Non-recoverable Read Error  1 sector in 10^15
     bits  
    
    Start/Stop Cycles  50,000  
    
    Acoustics Idle  2.70 Bel  
    
    Performance Seek  2.90 Bel  
    
    Environmental Specifications Temperature / Operating  0 ~ 60 °C  
    
    Temperature / Non-operating  -40 ~ 70 °C  
    
    Humidity(non-condensing) / Operating  5 ~ 90 %  
    
    Humidity(non-condensing) / Non-operating  5 ~ 95 %  
    
    Liner Shock(1/2 sine pulse) / Operating  70 G  
    
    Liner Shock(1/2 sine pulse) / Non-operating  350 G  
    
    Altitude(relative to sea level) / Operating  -300 to 3,000 m  
    
    Altitude(relative to sea level) / Non-operating  -300 to 12,000 m  
    
    Power Requirements Voltage  +5V±5%, +12V±10%  
    
    Spin-up Current (Max.)  2.4 A  
    
    Seek (typical)  8.6 W  
    
    Read/Write (typical)  7.9 W  
    
    Idle (typical)  7.7 W  
    
    Standby (typical)  0.8/1.2 W  
    
    Sleep (typical)  0.8/1.2 W  
    
    Physical Dimension Height (Max.)  26.1 mm  
    
    Width  101.5 mm  
    
    Length  147.0 mm  
    
    Weight (avg.)  640 g  
    ";
    A questo punto, ho dovuto fare il giro del mondo per riuscire a pulirlo, perchè sarebbe stato troppo facile se la funzione strip_tags avesse funzionato a dovere e invece no, se uso strip_tags mi viene fuori un risultato del tipo:
    codice:
    Tipologia:InterniFormato:3,5Capacità:750 GBVelocità Disco: 7200rpmInterfaccia.......
    Quindi, per pulire il file come volevo ho dovuto girarci un po' attorno in questo modo:
    codice:
    // Recupera nome prodotto ed elimina tutti i tag html ritornando una stringa pulita ma troncata a 251 caratteri
    function descrizione($db, $lang,  $id)
    {
            $query = "SELECT * FROM `products_description` WHERE products_id = $id and language_id=$lang";
            $result = mysql_db_query($db,$query);
            $record=mysql_fetch_array($result);
    
    for ($i=0;$i <= strlen($record[3]);$i++)
    {
       $descrizione = $descrizione . $record[3][$i];
       if ($record[3][$i] == " ") $descrizione=$descrizione . "^";
       if ($record[3][$i] == ">") $descrizione=$descrizione . "^";
    }
    
    $descrizione=strip_tags($descrizione);
    
    for ($i=0;$i <= strlen($descrizione);$i++) if ($descrizione[$i] == "^") $descrizione[$i] = " ";
    
    // Elimina alcune spurie tag che la funzione precedente non toglie
    $descrizione=str_replace("nbsp;", "",$descrizione);
    $descrizione=str_replace("amp;", "",$descrizione);
    $descrizione=str_replace("&", "",$descrizione);
    $descrizione=str_replace(" :", ":",$descrizione);
    $descrizione=str_replace("à", "a'",$descrizione);
    $descrizione=str_replace("è", "e''",$descrizione);
    $descrizione=str_replace("•", "- ",$descrizione);
    $descrizione=str_replace("°C", "",$descrizione);
    $descrizione=str_replace("°C", "",$descrizione);
    
    /// Elimina gli a capo riga
    $descrizione=str_replace("\r", "",$descrizione);
    $descrizione=str_replace("\n", " ",$descrizione);
    
    // Elimina le tabulazioni
    $descrizione=str_replace("\t", "",$descrizione);
    
    // Ritorna i primi 251 caratteri della descrizione
    return substr(trim($descrizione),0,251);
    }
    La funzione in questione funziona alla grande, perchè se alla fine mi faccio scrivere a video la stringa ritornata dalla funzione, vedo questo:
    codice:
    Tipologia: Interni Formato: 3,5 Capacità: 750 GB Velocità Disco: 7200rpm Interfaccia: SATA Features • Max. 334GB Formatted Capacity per Disk • Serial ATA 3.0Gbps Interface Support • Improv...
    quindi direi risultato ottimale, ma se vado a visualizzare il sorgente pagina, vedo questo:
    codice:
    Tipologia:  Interni  Formato:  3,5  Capacità:   750  GB  Velocità  Disco:  7200rpm                                Interfaccia:   SATA  Features  •  Max.  334GB  Formatted  Capacity  per  Disk    •  Serial  ATA  3.0Gbps  Interface  Support    •  Improv...
    E di conseguenza quando vado a scrivere l'informazione sul file di testo mi trovo una serie di spazi che mi fanno solo una grande confusione.
    Ho provato anche a salvare la pagina html dove visualizzo correttament il testo in modalità normale e con gli spazi ambigui in sorgente pagina, ma analizzandola con un editor esadecimale non vedo caratteri escape strani.
    Non so più come venirne fuori, è da questa mattina che sbatto la testa su questo problema ed ho anche riscritto da zero la routine di pulizia per ben 3 volte utilizzando sempre strategie diverse :muro:
    Se qualcuno riescisse a darmi qualche consiglio, gli sarei molto grato
    Grazie.
    Ciao.
    Stefanoxjx

  2. #2
    In realta' strip_tags() fa quello che deve, e' il testo originale che non ha spazi tra i tag. Comunque non ho analizzato a fondo il tuo codice ma se ho capito bene sostituisci tutti i '>' e gli spazi con '^' e poi sostituisci i '^' con spazi... quindi alla fine ti risultano degli spazi ripetuti.

    Ora tutto il codice e' piuttosto convoluto, pero' alla fine non dovrebbe essere sufficiente "comprimere" gli spazi successivi in uno solo:

    codice:
    $descrizione = preg_replace('/\s+/', ' ', $descrizione);

  3. #3
    Soluzione alternativa invece di tutto quel codice:

    codice:
    $descrizione = strip_tags(str_replace('><', '> <', $record[3]));
    per gli altri caratteri direi che e' solo un problema di encoding.

  4. #4
    ah ah ah!!!
    Con due righe mi hai fatto sistemare tutto quanto

    Ora la funzione è diventata molto più breve e leggibile e funziona pure

    codice:
    // Recupera nome prodotto ed elimina tutti i tag html ritornando una stringa pulita ma troncata a 251 caratteri
    function descrizione($db, $lang,  $id)
    {
            $query = "SELECT * FROM `products_description` WHERE products_id = $id and language_id=$lang";
            $result = mysql_db_query($db,$query);
            $record=mysql_fetch_array($result);
    
            // Elimina i tags html
            $descrizione = strip_tags(str_replace('><', '> <', $record[3]));
    
            // Elimina gli spazi multipli
            $descrizione = preg_replace('/\s+/', ' ', $descrizione);
    
            // Elimina alcune spurie tag che la funzione precedente non toglie
            $descrizione=str_replace("nbsp;", "",$descrizione);
            $descrizione=str_replace("amp;", "",$descrizione);
            $descrizione=str_replace("&", "",$descrizione);
    
            // Ritorna i primi 251 caratteri della descrizione
            return substr(trim($descrizione),0,251);
    }
    Ti ringrazio moltissimo, sei stato molto gentile
    Stefanoxjx

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.