Visualizzazione dei risultati da 1 a 7 su 7
  1. #1

    Organizzazione di contenuti leggendo file HTML

    Sono alla ricerca di codice che consenta di analizzare una pagina HTML con dei contenuti, ripulire le informazioni inutili e tenere solo titolo e testo; esempio, partendo da repubblicat.it, archiviare in un DB solo gli articoli e dimenticarsi il resto... secondo voi esistono prodotti open source di questo tipo?

    Grazie
    Iceberg

  2. #2
    Puoi tranquillamente farlo tu con ASP.NET ma ti ricordo che la cosa non è legale ... Perchè chiaramente tu non puoi 'copiare' i contenuti di un webSite o simili senza aver avvisato e fatto specifica richiesta al webMaster o chi per esso.


  3. #3
    Grazie per il suggerimento!
    Iceberg

  4. #4
    ... nemmeno mettendo la fonte?
    Iceberg

  5. #5
    ma quello credo che dipenda dal propietario ... Almeno credo.
    Diciamo che mettendo la fonte ti pari il ...


  6. #6
    Grazie per i suggerimenti!!

    Tornando al problema iniziale, sapresti darmi qualche indicazione su come realizzare un "motore" come quello indicato nel mio primo post?

    In particolare, come potrei recuperare i contenuti partendo da una home page e ripulire le parti inutili???

    Grazie
    Iceberg

  7. #7
    Beh grossolanamente

    IL trucco sta nel memorizzare senza i tag la stringa magari in un streamer ...
    Poi a quel punto usi il metodo find indexOf e quant' altro per cercare la tua stringa.

    Per recuperare i contenuti di una pagina ... cosa sulla quale io non sono d' accordo puoi provare cosi' :

    C#

    codice:
    string GetRemotePage(string strUrl) {
      try {
        WebClient myWebClient = new WebClient();
        Stream myStream = myWebClient.OpenRead(strUrl);
        StreamReader sr = new StreamReader(myStream);
        string strHtmlPage = sr.ReadToEnd();
        myStream.Close();
        return strHtmlPage;
      } catch (Exception e) {
        return e.Message;
      }
    }

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.