Ciao a tutti, ho un problema sul quale ci sto perdendo la testa :muro:
Il problema è che devo filtrare un testo in html e scriverlo in un file di testo ma succedono cose (per me almeno) inspiegabili.
Farò un post un po' lunghino, però credo sia l'unico modo per descrivere bene il problema.
Prendiamo come testo html un esempio che potrebbe essere questo:
codice:
"Tipologia: Interni
Formato: 3,5
Capacità:
 750 GB
Velocità Disco: 7200rpm
                                                       Interfaccia:
 SATA

Features

• Max. 334GB Formatted Capacity per Disk 

• Serial ATA 3.0Gbps Interface Support 

• Improved recording stability over temperature with PMR 

• Advanced dynamic FOD control for best data integrity 

• Intelligent compensation of external disturbance 

• SATA Native Command Queuing Feature 

• Device Initiated SATA Power Management 

• Staggerd Spin-up Support 

• Environment friendly product with RoHS compliance 

• Improved performance with dual-ARM based firmware 

• ATA S.M.A.R.T. Compliant 

• ATA Automatic Acoustic Management Feature 

• ATA 48-bit Address Feature 

• ATA Device Configuration Overlay Feature 

• NoiseGuard™ 

• SilentSeek™ 

Drive Configuration Capacity  750 GB  

Interface  Serial ATA 3.0 Gbps  

Buffer DRAM Size  32 MB  

Byte per Sector  512 bytes  

Rotational Speed  7200 RPM  

Performance Specifications Average Seek time(typical)  8.9 ms  

Average Latency  4.17 ms  

Data Transfer Rate / Media to/from Buffer(Max.)  175 MB/sec  

Data Transfer Rate / Buffer to/from Host(Max.)  300 MB/sec  

Drive Reday Time(typical)  12 sec  

Reliability Specifications Non-recoverable Read Error  1 sector in 10^15
 bits  

Start/Stop Cycles  50,000  

Acoustics Idle  2.70 Bel  

Performance Seek  2.90 Bel  

Environmental Specifications Temperature / Operating  0 ~ 60 °C  

Temperature / Non-operating  -40 ~ 70 °C  

Humidity(non-condensing) / Operating  5 ~ 90 %  

Humidity(non-condensing) / Non-operating  5 ~ 95 %  

Liner Shock(1/2 sine pulse) / Operating  70 G  

Liner Shock(1/2 sine pulse) / Non-operating  350 G  

Altitude(relative to sea level) / Operating  -300 to 3,000 m  

Altitude(relative to sea level) / Non-operating  -300 to 12,000 m  

Power Requirements Voltage  +5V±5%, +12V±10%  

Spin-up Current (Max.)  2.4 A  

Seek (typical)  8.6 W  

Read/Write (typical)  7.9 W  

Idle (typical)  7.7 W  

Standby (typical)  0.8/1.2 W  

Sleep (typical)  0.8/1.2 W  

Physical Dimension Height (Max.)  26.1 mm  

Width  101.5 mm  

Length  147.0 mm  

Weight (avg.)  640 g  
";
A questo punto, ho dovuto fare il giro del mondo per riuscire a pulirlo, perchè sarebbe stato troppo facile se la funzione strip_tags avesse funzionato a dovere e invece no, se uso strip_tags mi viene fuori un risultato del tipo:
codice:
Tipologia:InterniFormato:3,5Capacità:750 GBVelocità Disco: 7200rpmInterfaccia.......
Quindi, per pulire il file come volevo ho dovuto girarci un po' attorno in questo modo:
codice:
// Recupera nome prodotto ed elimina tutti i tag html ritornando una stringa pulita ma troncata a 251 caratteri
function descrizione($db, $lang,  $id)
{
        $query = "SELECT * FROM `products_description` WHERE products_id = $id and language_id=$lang";
        $result = mysql_db_query($db,$query);
        $record=mysql_fetch_array($result);

for ($i=0;$i <= strlen($record[3]);$i++)
{
   $descrizione = $descrizione . $record[3][$i];
   if ($record[3][$i] == " ") $descrizione=$descrizione . "^";
   if ($record[3][$i] == ">") $descrizione=$descrizione . "^";
}

$descrizione=strip_tags($descrizione);

for ($i=0;$i <= strlen($descrizione);$i++) if ($descrizione[$i] == "^") $descrizione[$i] = " ";

// Elimina alcune spurie tag che la funzione precedente non toglie
$descrizione=str_replace("nbsp;", "",$descrizione);
$descrizione=str_replace("amp;", "",$descrizione);
$descrizione=str_replace("&", "",$descrizione);
$descrizione=str_replace(" :", ":",$descrizione);
$descrizione=str_replace("à", "a'",$descrizione);
$descrizione=str_replace("è", "e''",$descrizione);
$descrizione=str_replace("•", "- ",$descrizione);
$descrizione=str_replace("°C", "",$descrizione);
$descrizione=str_replace("°C", "",$descrizione);

/// Elimina gli a capo riga
$descrizione=str_replace("\r", "",$descrizione);
$descrizione=str_replace("\n", " ",$descrizione);

// Elimina le tabulazioni
$descrizione=str_replace("\t", "",$descrizione);

// Ritorna i primi 251 caratteri della descrizione
return substr(trim($descrizione),0,251);
}
La funzione in questione funziona alla grande, perchè se alla fine mi faccio scrivere a video la stringa ritornata dalla funzione, vedo questo:
codice:
Tipologia: Interni Formato: 3,5 Capacità: 750 GB Velocità Disco: 7200rpm Interfaccia: SATA Features • Max. 334GB Formatted Capacity per Disk • Serial ATA 3.0Gbps Interface Support • Improv...
quindi direi risultato ottimale, ma se vado a visualizzare il sorgente pagina, vedo questo:
codice:
Tipologia:  Interni  Formato:  3,5  Capacità:   750  GB  Velocità  Disco:  7200rpm                                Interfaccia:   SATA  Features  •  Max.  334GB  Formatted  Capacity  per  Disk    •  Serial  ATA  3.0Gbps  Interface  Support    •  Improv...
E di conseguenza quando vado a scrivere l'informazione sul file di testo mi trovo una serie di spazi che mi fanno solo una grande confusione.
Ho provato anche a salvare la pagina html dove visualizzo correttament il testo in modalità normale e con gli spazi ambigui in sorgente pagina, ma analizzandola con un editor esadecimale non vedo caratteri escape strani.
Non so più come venirne fuori, è da questa mattina che sbatto la testa su questo problema ed ho anche riscritto da zero la routine di pulizia per ben 3 volte utilizzando sempre strategie diverse :muro:
Se qualcuno riescisse a darmi qualche consiglio, gli sarei molto grato
Grazie.
Ciao.