[regex] estrapolare un link, errore nell'espressione

**v.1** · 30-12-2009, 14:56

salve a tutti, sono alle prime armi con le espressioni regolari, e non riesco a capire perchè questa non funzioni:

/(http\:\/\/|https\:\/\/|ftp\:\/\/)([^\"]*?)[\s\n\t$\z\"\[\]\<\>]/is

il mio intento è quello di catturare un link da una stringa.
il problema dovrebbe stare nell'ultimo blocco di codice, quello evidenziato in verde. ho ottenuto risultati migliori usandolo come una positive lookahead, ma il codice fallisce a trovare il termine del link.

(?=\s|\n|\t|$|\z|\"|\[|\]|\<|\>)

ad esempio se alla fine del link sono presenti gli apici ", questi vengono considerati parte del link. usare ?: all'inizio del blocco non risolve il problema.. non capisco

**lbottoni** · 31-12-2009, 09:22

segnati questo link che ti sarà utile...qui trovi di sicuro quello che vuoi fare..da li prendi spunto

http://regexlib.com/

**v.1** · 31-12-2009, 10:15

grazie

**v.1** · 31-12-2009, 13:42

ho modificato il codice così, che mi pare un po' migliore, ma il problema rimane quando lo eseguo sul mio server

(?

?<!href\=\"|value\=\"|src\=\"|\[url\=))(?:\[url\])?((?:mailto\:|(?:news|(?:ht|f)tp(?:s?))\:\/\/)[^\"\s]{4,}?)(?:\[\/url\]|(?=\s|\n|\t|\z|\"|$|\[|\]|\<|\>|\,))

il bello è che il pattern funziona con tutti gli engine regex che ho provato online

in passato avevo già trovato pesanti limitazioni nell'uso del lookaround delle librerie PCRE di php. ma che non sia nemmeno in grado di trovare un carattere alla fine di una stringa mi pare un poco eccessivo no?

**v.1** · 31-12-2009, 13:47

anzi, il lookaround non funziona affatto!
il pattern non dovrebbe fare il match con gli indirizzi che seguono un campo href=".. e invece se ne infischia!

non è possibile!!

**lbottoni** · 31-12-2009, 13:48

le regexp sono toste..se fai un parsing di un documento non conviene usare DOM?

**v.1** · 31-12-2009, 13:51

cioè con javascript?

eh si lo potrei fare.. ma preferirei usare il server

**lbottoni** · 31-12-2009, 13:56

http://pb11.php.net/manual/it/ref.domxml.php

ci sono classi che aiutano in PHP il parsing della pagina come se lavorassi in js

**v.1** · 31-12-2009, 14:06

a dir la verità non capisco..

in pratica ho realizzato un sistema bbcode per il mio blog e uso le espressioni regolari per sostituire i tag bbcode con tag html. funziona tutto benone, solo che mi piacerebbe avere un pattern per riconoscere anche gli URL sparsi nel testo senza tag bbcode. niente di astruso, se non che per avere un pattern efficace devo usare il lookaround (che sarebbero i costrutti ?=, ?!, ?<=, ?<!), ma questi non funzionano.
e questo è il problema.
io pensavo che l'errore fosse nel pattern che avevo creto, invece sembra essere nelle librerie PCRE

**lbottoni** · 31-12-2009, 14:16

fai attenzione che il ? fà parte delle regole delle esprerssioni e deve esse preceduto dal backslashe \

Discussione: [regex] estrapolare un link, errore nell'espressione

Strumenti discussione

Ricerca discussione

Visualizza

[regex] estrapolare un link, errore nell'espressione

Permessi di invio