[RegExp] pattern per l'estrazione degli url contenuti in un testo

**Alethesnake** · 01-06-2005, 15:41

ciao a tutti,
ho un testo contenente una serie di link o di riferimenti a pagine html, asp ecc.
ho necessità di estrarre da questo tutti gli url che contiene e volevo farlo con le regexp, ma ho qualche problema con il pattern.. per ora con questo riesco ad estrarre le estensioni delle pagine, ma non so come prendere la parte prima (nome della pagina ed eventuali cartelle):

codice:

re.Pattern = "(\.asp|\.html|\.htm|\.js|\.css|\.inc|\.vbs)"

gli url sono del tipo:

pagina.htm
../cartella/pagina.asp
http://dominio/cartella/pagina.html
ecc

edit:
@roby: si può aggiungere qualcosa del genere?
Segnala questo messaggio a Willybit

**Alethesnake** · 01-06-2005, 17:09

per ora me la sono cavata con questo:

codice:

re.Pattern = "[\w\\/\.]+(\.asp|\.html|\.htm|\.js|\.css|\.inc|\.vbs)"

ma ho il problema che mi estrae troppo, infatti mi trova

prova.asp

sia in

"sssprova"

che in

"questa è una prova.aspetta per vedere il risultato"

qualcuno sa come posso risolvere? oltre a questo problema, il pattern sopra è corretto o si può migliorare?

**Baol74** · 01-06-2005, 17:16

c'è sempre href prima ?

**Alethesnake** · 01-06-2005, 17:48

no, potrebbe esserci anche un action=".." oppure l'url potrebbe essere passato come variabile ad una funzione o ad una routine.
per ora quello che mi viene in mente è fare una nuova regexp con un test sui link estratti per verificare se sono effettivamente tali oppure no (per meglio dire se sono stringhe che finiscono con .asp, .vbs, ecc) ma che non ricadano nel secondo caso indicato sopra, che seppur raro potrebbe comunque manifestarsi.
cio' che mi piacerebbe fare è risolvere il problema con una unica regexp

**Baol74** · 01-06-2005, 17:55

Azz.

si, ma devi saper come inizia altrimenti la vedo difficile.
insomma l'inizio protebbe essere " spazio = .... giusto?

**Alethesnake** · 01-06-2005, 18:14

per ora il come inizia non mi crea problemi, con il pattern che ho postato sopra prendo tutte le stringhe comprese tra un set di caratteri che possono essere alfanumerici, punti slash o backslash e l'estensione che mi interessa.
di fatto prendo link tipo:
('link.asp')
link.asp
//link.asp
"link.asp"
ecc
il problema è scremare in modo da togliere eventuali stringhe che terminano con *.aspQUALCOSALTRO

mi rendo conto che con così poca rigidità c'è un buon margine di errore..

edit:
quello che mi interessa del testo che analizzo è un qualunque riferimento ad un'altra pagina

**angelicab** · 08-11-2005, 13:31

Originariamente inviato da Baol74
c'è sempre href prima ?

questo è il problema che ho io .. con href sempre all'inizio .. puoi aiutarmi??

Discussione: [RegExp] pattern per l'estrazione degli url contenuti in un testo

Strumenti discussione

Ricerca discussione

Visualizza

[RegExp] pattern per l'estrazione degli url contenuti in un testo

Permessi di invio