È possibile rallentare la frequenza di scansione di Baiduspider?

18

Molto è stato fatto della frequenza di scansione del ragno Baidu. È vero: "Baiduspider striscia come un matto."

Ho sperimentato questo fenomeno in siti con cui lavoro. In almeno un caso, ho scoperto che Baiduspider esegue la scansione alla stessa frequenza di Googlebot, nonostante Baidu fornisca circa l'1% del traffico di Google.

Mi piacerebbe mantenere quelle visite sul mio sito, per quanto siano poche (forse un giorno cresceranno?), Ma non posso giustificare che consenta un carico così pesante sul mio server.

La risposta accettata alla domanda sopra menzionata suggerisce che Baidu Webmaster Tools offre l'opportunità di limitare la velocità di scansione, ma esito ad aprire quella lattina (solo cinese) di worm.

Qualcuno ha esperienza nel limitare la velocità di scansione di Baiduspider con BWT? C'è un altro modo per limitare questo carico?

— samthebrand
fonte

11

Grande domanda, e molti webmaster potrebbero essere interessati dal momento che il ragno Baidu è notoriamente aggressivo e può zappare risorse dai server ...

Come indicato nelle notizie di Ricerca Web di Baidu, il ragno Baidu non supporta l'impostazione di notifica del ritardo di scansione e richiede invece la registrazione e la verifica del sito con la sua piattaforma di Strumenti per i Webmaster di Baidu, come indicato qui sul suo sito. Questa sembra essere l'unica opzione per controllare la frequenza di scansione direttamente con Baidu.

Il problema è che altri robot spam utilizzano gli user-agent di Baidu (elencati qui al numero 2) per eseguire lo spidering del tuo sito, come indicato nelle loro FAQ qui al numero 4. Quindi richiedere una velocità di scansione più lenta con Baidu potrebbe non risolvere tutto.

Pertanto, se decidi di utilizzare gli Strumenti per i Webmaster di Baidu, potrebbe essere saggio confrontare anche i suoi user-agent con gli IP noti per essere associati ad essi utilizzando una risorsa come il Database di bot vs browser o utilizzando una ricerca DNS inversa

Le uniche altre opzioni sono o bloccare tutti gli user-agent Baidu e quindi sacrificare il potenziale traffico proveniente da Baidu o tentare di limitare le richieste eccessive usando qualcosa come mod_qos per Apache, che afferma di gestire:

Il numero massimo di richieste simultanee a una posizione / risorsa (URL) o host virtuale.
Limitazione della larghezza di banda, ad esempio il numero massimo consentito di richieste al secondo a un URL o il massimo / minimo di kbyte scaricati al secondo.
Limita il numero di eventi di richiesta al secondo (condizioni di richiesta speciali).
Può anche "rilevare" persone molto importanti (VIP) che possono accedere al web server senza o con meno restrizioni.
Riga di richiesta generica e filtro intestazione per negare operazioni non autorizzate. Richiedi limitazione e filtro dei dati del corpo (richiede mod_parp).
Limitazioni a livello di connessione TCP, ad esempio il numero massimo di connessioni consentite da un singolo indirizzo IP IP o controllo dinamico keep-alive.
Preferisce gli indirizzi IP noti quando il server esaurisce le connessioni TCP gratuite.

Non ho trovato esperienze segnalate con Baidu Webmaster Tools, che è lento da caricare e presenta problemi di traduzione (nessuna versione inglese). Potrebbe essere utile, ma ovviamente basato sull'opinione pubblica.

— dan
fonte

1

Questo è davvero utile @Dan. Provare alcune di queste soluzioni (Baidu Webmaster Tools è una vera seccatura.) Riferirà.

— samthebrand,

1

Grazie! Fantastico - lo aggiornerò se trovo anche altre opzioni. Questa domanda riflette molte frustrazioni dei webmaster con i robot aggressivi e le preoccupazioni di interagire con loro (ad esempio, Strumenti per i Webmaster Baidu). Si spera che i robot legittimi lo prendano in considerazione e diventeranno disponibili strumenti / opzioni migliori.

— dan

@samthebrand e dan - ti preghiamo di riferire! Hai trovato altre soluzioni che puoi consigliare?

— lazysoundsystem il

5

Dopo molte ricerche e sperimentazioni, ho finalmente morso il proiettile e ho creato un account Baidu Webmaster Tools. È abbastanza semplice da usare se armato con Google Translate in un'altra finestra. Potrebbe essere necessario attivare firebug per poter copiare e incollare il testo cinese da pulsanti che non è possibile acquisire dalla normale modalità browser.

Dopo aver configurato, è necessario attendere alcuni giorni per visualizzare i dati di scansione e quindi è possibile personalizzare la velocità di scansione. Viene visualizzato in una sezione chiamata "Pressione" che dovresti riuscire a raggiungere con questo URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Tieni presente che potrai utilizzare questo URL solo se hai impostato un account Strumenti per i Webmaster Baidu e hai associato l'URL del tuo sito Web al tuo account per il sito Web in questione). Qui vedrai un cursore con la tua attuale velocità di scansione al centro (nel mio caso 12676 richieste al giorno. Scorri verso sinistra per ridurre la velocità di scansione.

Non ho ancora idea se rispetti effettivamente la tua richiesta. Ti dà un avvertimento che dice qualcosa del genere. "Ti consigliamo di utilizzare la frequenza di scansione Baidu predefinita del sito. Solo se il tuo sito web ha problemi con la nostra scansione, utilizza questo strumento per regolarlo. Per mantenere la normale scansione del tuo sito, Baidu prenderà in considerazione la tua regolazione della velocità di scansione condizioni del sito e pertanto non è possibile garantire l'adeguamento in base alla richiesta. "

— user35703
fonte

1

Sono sicuro di non essere l'unico a apprezzare un aggiornamento al riguardo - rispetta la richiesta? Consiglieresti di creare un account?

— lazysoundsystem il

Ho appena aggiornato l'URL diretto alla pagina di regolazione della frequenza di scansione, poiché è stato ora più profondamente sepolto negli Strumenti per i Webmaster (non più nel menu). Google Translate rende molto difficile la ricerca a causa di traduzioni confuse ;-)

— odony

-1

Sì, è possibile utilizzare il Crawl-delayparametro in robots.txt per impostare il numero di secondi per l'attesa tra le richieste successive allo stesso server.

User-agent: Baiduspider
Crawl-delay: 100

La prima riga indica solo al crawler Web Baidu di onorare il comando. La seconda riga è il tempo di attesa in secondi tra le richieste al server. Puoi aggiungere qualsiasi ritardo che desideri per le tue esigenze.

Dovrai aggiungere questi comandi al tuo file robots.txt esistente . Se non disponi già di un file robots.txt , aggiungi il codice sopra a un file di testo, salva il file come robots.txt e caricalo nella cartella principale del tuo sito Web, quindi appare all'indirizzo seguente:

www.examplesite.com/robots.txt

— Max
fonte

2

Baiduspider non supporta il ritardo di scansione. Vedi qui .

— samthebrand,

Ehi, l'avevo visto in alcuni file robots.txt di siti così ho pensato che lo facesse! Come va questo detto ?!

— Max