Qual è l '"articolo del 2001" per bloccare i "programmi di recupero automatico" a cui fa riferimento la pagina man di wget?


11

La wgetpagina man lo afferma, sotto la sezione per il --random-waitparametro:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Voglio ottenere una copia di questo articolo per la lettura e ho provato molte ricerche su Internet per determinare l'articolo. Tuttavia, tutto ciò che posso trovare con queste ricerche è la pagina man wgetospitata su diversi siti Web; e alcuni altri articoli di ricerca che non hanno alcuna relazione con questo argomento.

Qualcuno sa a quale articolo viene fatto riferimento e dove posso ottenere una copia?


Stavo scavando attraverso il wget mailing list e trovato questo: lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

Risposte:


15

Anche se non è una risposta diretta, git blamee git logrivela che questa sezione è stata introdotta in commit 2c41d783 da un committer chiamato hniksic, che si rivela essere Hrvoje Niksic. Il suo indirizzo e-mail si trova nel ChangeLogfile di wget (non lo pubblicherò qui per ovvi motivi). Suggerirei di chiederglielo direttamente, in quanto potrebbe essere il migliore per dare una risposta più adeguata. Nel frattempo, potresti considerare di chiedergli se gli dispiacerebbe aggiornare la manpage di conseguenza. ;)


4

Penso che potrebbe essere questo articolo:

Creazione di dati significativi dai registri Web mediante SAS di base

C'è un paragrafo che discute il blocco degli intervalli di classe C:

Una volta che l'indirizzo IP è separato nei suoi componenti, il filtraggio di intervalli di indirizzi IP è semplice. Viene eseguito un filtro di classe B rispetto ai primi due ottetti, ad esempio 168.126.xx.xx. Questa è la variabile Onetwo nell'esempio di codice sopra. Gli intervalli di classe C sono più comunemente utilizzati in quanto mirano a interi server e utilizzano tre dei quattro ottetti, ad esempio 168.126.56.xx. Nell'esempio di codice sopra, questo è il campo Tre dato che Usrhost è il valore dell'indirizzo TCP / IP del registro web.

E una menzione wgetnel blocco basato su stringhe dell'agente utente:

Il nostro metodo preferito per l'identificazione della stringa dell'agente utente utilizza la funzione di corrispondenza del modello di indice. Per esempio:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

È stato il quinto risultato in Google per "analisi dei log wget" per l'anno 2001 .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.