Visualizzazione dei risultati da 1 a 7 su 7
  1. #1

    [RegExp] pattern per l'estrazione degli url contenuti in un testo

    ciao a tutti,
    ho un testo contenente una serie di link o di riferimenti a pagine html, asp ecc.
    ho necessità di estrarre da questo tutti gli url che contiene e volevo farlo con le regexp, ma ho qualche problema con il pattern.. per ora con questo riesco ad estrarre le estensioni delle pagine, ma non so come prendere la parte prima (nome della pagina ed eventuali cartelle):
    codice:
    re.Pattern = "(\.asp|\.html|\.htm|\.js|\.css|\.inc|\.vbs)"
    gli url sono del tipo:

    pagina.htm
    ../cartella/pagina.asp
    http://dominio/cartella/pagina.html
    ecc



    edit:
    @roby: si può aggiungere qualcosa del genere?
    Segnala questo messaggio a Willybit
    xxx

  2. #2
    per ora me la sono cavata con questo:
    codice:
    re.Pattern = "[\w\\/\.]+(\.asp|\.html|\.htm|\.js|\.css|\.inc|\.vbs)"
    ma ho il problema che mi estrae troppo, infatti mi trova

    prova.asp

    sia in

    "sssprova"

    che in

    "questa è una prova.aspetta per vedere il risultato"

    qualcuno sa come posso risolvere? oltre a questo problema, il pattern sopra è corretto o si può migliorare?
    xxx

  3. #3
    Utente di HTML.it L'avatar di Baol74
    Registrato dal
    Jul 2002
    Messaggi
    2,004
    c'è sempre href prima ?

  4. #4
    no, potrebbe esserci anche un action=".." oppure l'url potrebbe essere passato come variabile ad una funzione o ad una routine.
    per ora quello che mi viene in mente è fare una nuova regexp con un test sui link estratti per verificare se sono effettivamente tali oppure no (per meglio dire se sono stringhe che finiscono con .asp, .vbs, ecc) ma che non ricadano nel secondo caso indicato sopra, che seppur raro potrebbe comunque manifestarsi.
    cio' che mi piacerebbe fare è risolvere il problema con una unica regexp
    xxx

  5. #5
    Utente di HTML.it L'avatar di Baol74
    Registrato dal
    Jul 2002
    Messaggi
    2,004
    Azz.

    si, ma devi saper come inizia altrimenti la vedo difficile.
    insomma l'inizio protebbe essere " spazio = .... giusto?

  6. #6
    per ora il come inizia non mi crea problemi, con il pattern che ho postato sopra prendo tutte le stringhe comprese tra un set di caratteri che possono essere alfanumerici, punti slash o backslash e l'estensione che mi interessa.
    di fatto prendo link tipo:
    ('link.asp')
    link.asp
    //link.asp
    "link.asp"
    ecc
    il problema è scremare in modo da togliere eventuali stringhe che terminano con *.aspQUALCOSALTRO

    mi rendo conto che con così poca rigidità c'è un buon margine di errore..

    edit:
    quello che mi interessa del testo che analizzo è un qualunque riferimento ad un'altra pagina
    xxx

  7. #7
    Utente di HTML.it L'avatar di angelicab
    Registrato dal
    Sep 2001
    Messaggi
    1,515
    Originariamente inviato da Baol74
    c'è sempre href prima ?
    questo è il problema che ho io .. con href sempre all'inizio .. puoi aiutarmi??
    ........\ | /......
    ......(@ @)).....
    -oOO-(_)-OOo-
    ......Angie.....

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.