Comunque, giusto per fare il puntiglioso, aggiungo che non ha senso chiedersi "quanti file ci sono", dato che il web non funziona "a file", ma a URL - e ad un medesimo URL possono corrispondere risorse differenti a seconda del momento della richiesta, dei cookies, ... visto che un sacco di pagine sono costruite dinamicamente. Per cui il problema, per come è posto, non ha soluzione. Al massimo ci si può chiedere, fissato un certo user-agent, un certo set di cookies, eccetera, "quanti URL, ad un determinato istante, restituiscono una pagina valida" - ovvero, uno stato HTTP 200.