Ciao a tutti, ho un problema sul quale ci sto perdendo la testa :muro:
Il problema è che devo filtrare un testo in html e scriverlo in un file di testo ma succedono cose (per me almeno) inspiegabili.
Farò un post un po' lunghino, però credo sia l'unico modo per descrivere bene il problema.
Prendiamo come testo html un esempio che potrebbe essere questo:
codice:
"Tipologia: Interni
Formato: 3,5
Capacità:
750 GB
Velocità Disco: 7200rpm
Interfaccia:
SATA
Features
• Max. 334GB Formatted Capacity per Disk
• Serial ATA 3.0Gbps Interface Support
• Improved recording stability over temperature with PMR
• Advanced dynamic FOD control for best data integrity
• Intelligent compensation of external disturbance
• SATA Native Command Queuing Feature
• Device Initiated SATA Power Management
• Staggerd Spin-up Support
• Environment friendly product with RoHS compliance
• Improved performance with dual-ARM based firmware
• ATA S.M.A.R.T. Compliant
• ATA Automatic Acoustic Management Feature
• ATA 48-bit Address Feature
• ATA Device Configuration Overlay Feature
• NoiseGuard™
• SilentSeek™
Drive Configuration Capacity 750 GB
Interface Serial ATA 3.0 Gbps
Buffer DRAM Size 32 MB
Byte per Sector 512 bytes
Rotational Speed 7200 RPM
Performance Specifications Average Seek time(typical) 8.9 ms
Average Latency 4.17 ms
Data Transfer Rate / Media to/from Buffer(Max.) 175 MB/sec
Data Transfer Rate / Buffer to/from Host(Max.) 300 MB/sec
Drive Reday Time(typical) 12 sec
Reliability Specifications Non-recoverable Read Error 1 sector in 10^15
bits
Start/Stop Cycles 50,000
Acoustics Idle 2.70 Bel
Performance Seek 2.90 Bel
Environmental Specifications Temperature / Operating 0 ~ 60 °C
Temperature / Non-operating -40 ~ 70 °C
Humidity(non-condensing) / Operating 5 ~ 90 %
Humidity(non-condensing) / Non-operating 5 ~ 95 %
Liner Shock(1/2 sine pulse) / Operating 70 G
Liner Shock(1/2 sine pulse) / Non-operating 350 G
Altitude(relative to sea level) / Operating -300 to 3,000 m
Altitude(relative to sea level) / Non-operating -300 to 12,000 m
Power Requirements Voltage +5V±5%, +12V±10%
Spin-up Current (Max.) 2.4 A
Seek (typical) 8.6 W
Read/Write (typical) 7.9 W
Idle (typical) 7.7 W
Standby (typical) 0.8/1.2 W
Sleep (typical) 0.8/1.2 W
Physical Dimension Height (Max.) 26.1 mm
Width 101.5 mm
Length 147.0 mm
Weight (avg.) 640 g
";
A questo punto, ho dovuto fare il giro del mondo per riuscire a pulirlo, perchè sarebbe stato troppo facile se la funzione strip_tags avesse funzionato a dovere e invece no, se uso strip_tags mi viene fuori un risultato del tipo:
codice:
Tipologia:InterniFormato:3,5Capacità:750 GBVelocità Disco: 7200rpmInterfaccia.......
Quindi, per pulire il file come volevo ho dovuto girarci un po' attorno in questo modo:
codice:
// Recupera nome prodotto ed elimina tutti i tag html ritornando una stringa pulita ma troncata a 251 caratteri
function descrizione($db, $lang, $id)
{
$query = "SELECT * FROM `products_description` WHERE products_id = $id and language_id=$lang";
$result = mysql_db_query($db,$query);
$record=mysql_fetch_array($result);
for ($i=0;$i <= strlen($record[3]);$i++)
{
$descrizione = $descrizione . $record[3][$i];
if ($record[3][$i] == " ") $descrizione=$descrizione . "^";
if ($record[3][$i] == ">") $descrizione=$descrizione . "^";
}
$descrizione=strip_tags($descrizione);
for ($i=0;$i <= strlen($descrizione);$i++) if ($descrizione[$i] == "^") $descrizione[$i] = " ";
// Elimina alcune spurie tag che la funzione precedente non toglie
$descrizione=str_replace("nbsp;", "",$descrizione);
$descrizione=str_replace("amp;", "",$descrizione);
$descrizione=str_replace("&", "",$descrizione);
$descrizione=str_replace(" :", ":",$descrizione);
$descrizione=str_replace("à", "a'",$descrizione);
$descrizione=str_replace("è", "e''",$descrizione);
$descrizione=str_replace("•", "- ",$descrizione);
$descrizione=str_replace("°C", "",$descrizione);
$descrizione=str_replace("°C", "",$descrizione);
/// Elimina gli a capo riga
$descrizione=str_replace("\r", "",$descrizione);
$descrizione=str_replace("\n", " ",$descrizione);
// Elimina le tabulazioni
$descrizione=str_replace("\t", "",$descrizione);
// Ritorna i primi 251 caratteri della descrizione
return substr(trim($descrizione),0,251);
}
La funzione in questione funziona alla grande, perchè se alla fine mi faccio scrivere a video la stringa ritornata dalla funzione, vedo questo:
codice:
Tipologia: Interni Formato: 3,5 Capacità: 750 GB Velocità Disco: 7200rpm Interfaccia: SATA Features • Max. 334GB Formatted Capacity per Disk • Serial ATA 3.0Gbps Interface Support • Improv...
quindi direi risultato ottimale, ma se vado a visualizzare il sorgente pagina, vedo questo:
codice:
Tipologia: Interni Formato: 3,5 Capacità: 750 GB Velocità Disco: 7200rpm Interfaccia: SATA Features • Max. 334GB Formatted Capacity per Disk • Serial ATA 3.0Gbps Interface Support • Improv...
E di conseguenza quando vado a scrivere l'informazione sul file di testo mi trovo una serie di spazi che mi fanno solo una grande confusione.
Ho provato anche a salvare la pagina html dove visualizzo correttament il testo in modalità normale e con gli spazi ambigui in sorgente pagina, ma analizzandola con un editor esadecimale non vedo caratteri escape strani.
Non so più come venirne fuori, è da questa mattina che sbatto la testa su questo problema ed ho anche riscritto da zero la routine di pulizia per ben 3 volte utilizzando sempre strategie diverse :muro:
Se qualcuno riescisse a darmi qualche consiglio, gli sarei molto grato
Grazie.
Ciao.