Anch'io sono molto interessato a questo argomento e soprattutto vorrei sapere a che link hai trovato i sorgenti.
Cmq per rispondere al tuo dubbio a mio parere non è cosi pericoloso. Io risolverei la tua preccupazione facendo, ovviamente, un sistema di tagging degli url che, in caso di blocco, faccia ripartire lo spider dall'ultimo url taggato come "controllato".
In ogni caso....perchè dovrebbe piantarsi? intendi per sovraccarico del server?