Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 20
  1. #1

    Help per Semplice Regex

    Non ho ancora imparato le Regex...
    quindi vengo (spero per l'ultima volta) a chiedere una mano su questo argomento...

    dovrei estrarre una stringa dalla stringa href="" delle pagine web.
    Il problema e' che il codice fatto da skifo potrebbe essere cosi:

    codice:
    href[tab][spazio]"http://"
    href[tab][spazio]'http://'
    Quindi ho il problema dei tab o spazi a seconda di quello che il tipo ha scritto idem per gli apici... Se Tutti si adeguassero agli standard non ci sarebbero sti problemi!!!

    Io dovrei estrarre http:// ma non e' detto che inizino con http quindi dovrei estrarre quello dentro gli apici...

    codice:
    href [tab o spazio (non e' detto che ci siano)] " o ' indirizzo da estrarre " o '
    Grazie Mille

  2. #2
    Utente di HTML.it L'avatar di albgen
    Registrato dal
    Jun 2005
    Messaggi
    3,249
    non ho capito bene cosa vuoi fare. se vuoi estrarre un url valido
    abbiamo già parlato di questa cosa qui (vedi il terzultimo post)
    http://forum.html.it/forum/showthrea...readid=1054136

    altrimenti prova a spiegarti...non ho capito il discorso degli spazi !

    I got the remedy

  3. #3
    non devo estrarre un url valido ma... solo l'url dall'attributo href

    il problema e' che non tutti si adeguano agli standard quindi posso avere queste situazioni
    codice:
    href="INDIRIZZO DA ESTRARRE"
    href='INDIRIZZO DA ESTRARRE'
    href= "INDIRIZZO DA ESTRARRE"
    href= 'INDIRIZZO DA ESTRARRE'
    href = "INDIRIZZO DA ESTRARRE"
    href = 'INDIRIZZO DA ESTRARRE'
    href =      "INDIRIZZO DA ESTRARRE"
    href =      'INDIRIZZO DA ESTRARRE'
    href      =      "INDIRIZZO DA ESTRARRE"
    href      =      'INDIRIZZO DA ESTRARRE'
    spero che cosi si sia capito meglio

    grazie di nuovo

  4. #4
    una cosa di questo tipo funziona correttamente,
    codice:
    <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?>
    solo che estrae tutto
    codice:
    <a href="...">
    Come faccio ad estrarre solo la parte tra " o ' ?

  5. #5
    Utente di HTML.it L'avatar di albgen
    Registrato dal
    Jun 2005
    Messaggi
    3,249
    fai un altro ciclo che ti estrae gli url da quelli estratti con <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?>

    cioè, prima fai <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?> e quindi avrai tanti <a href....
    le salvi in una struttura dati di tipo lista oppure array.
    poi usi la regex del url valido sulla lista e avrai tutti gli url
    I got the remedy

  6. #6
    piccolo problema al quale non avevo fatto caso

    la regex
    codice:
    <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?>
    prende solo indirizzi formati in questo modo:
    codice:
    <a href="indirizzo">
    invece prima e dopo href possono esserci altri attributi, come risolvo il problema?

    Grazie

  7. #7
    Utente di HTML.it L'avatar di albgen
    Registrato dal
    Jun 2005
    Messaggi
    3,249
    Originariamente inviato da _sys/sid
    piccolo problema al quale non avevo fatto caso

    la regex
    codice:
    <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?>
    prende solo indirizzi formati in questo modo:
    codice:
    <a href="indirizzo">
    invece prima e dopo href possono esserci altri attributi, come risolvo il problema?

    Grazie
    non vedo dove stà il problema !
    la regex fa match solo degli <a href="..">.
    il resto non lo considera !
    I got the remedy

  8. #8
    la regex considera solo gli url formati in quel modo
    codice:
    <a href="indirizzo">
    se il mio url e' cosi
    codice:
    <a href="indirizzo" title="Mia Pagina">
    l'indirizzo non viene preso

  9. #9
    Utente di HTML.it L'avatar di albgen
    Registrato dal
    Jun 2005
    Messaggi
    3,249
    allora usa questa

    codice:
    <a[^>]*?href\s*=\s*[""']?([^'"" >]+?)[ '""]?.*>
    I got the remedy

  10. #10
    grazie mille... ultimo problema...
    adesso ho un array di indirizzi completi
    codice:
    <a href='mioAddr' title='pio'>
    che regex uso per estrarre solo il "mioAddr" ?


    Grazie Mille

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.