Consenti solo ai bot di Google e Bing di eseguire la scansione di un sito

Sto usando il seguente file robots.txt per un sito: L'obiettivo è consentire a googlebot e bingbot di accedere al sito tranne la pagina /bedven/bedrijf/*e impedire a tutti gli altri bot di eseguire la scansione del sito.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

L'ultima regola User-agent: * Disallow: /impedisce a tutti i bot di eseguire la scansione di tutte le pagine del sito?

web-crawlers robots.txt

— Konsole
fonte

L'intero compito mi riguarda. Esistono altri motori di ricerca e chiunque li usi non vedrà il tuo sito. theeword.co.uk/info/search_engine_market afferma che il 4,99% di Internet non è presente nei tuoi motori di ricerca. Sono molte persone. Un metodo migliore sarebbe quello di monitorare il tuo traffico e vedere se qualche bot effettivamente causa problemi, quindi bloccarli in modo specifico.

— GKFX,

Un robot che si comporta male potrebbe ignorare totalmente il tuo robots.txtcomunque

— Nick T,

I robot davvero cattivi non si preoccupano di robots.txt

— Osvaldo,

@NickT, nel mondo reale, non mancano i robot mal educati che seguono robots.txt, o almeno la Disallow: /regola. Se il tuo sito Web personale viene messo a terra perché un programmatore di bot non ha mai considerato che il server potrebbe essere un Raspberry Pi dall'estremità sbagliata di una connessione a 256 kbit, un'esclusione generale come questa è utile.

— Mark

@Console perché?

— o0 '.

Risposte:

L'ultimo record (avviato da User-agent: *) sarà seguito da tutti i robot educati che non si identificano come "googlebot", "google", "bingbot" o "bing".
E sì, significa che non sono autorizzati a strisciare nulla.

Potresti voler omettere l' *in /bedven/bedrijf/*.
Nella specifica originale robots.txt, *non ha alcun significato speciale, è solo un personaggio come un altro. Quindi non consentirebbe la scansione delle pagine che hanno letteralmente il carattere *nel loro URL.
Sebbene Google non segua le specifiche robots.txt a tale proposito, poiché usano *come jolly per "qualsiasi sequenza di caratteri", in questo caso non è necessario per loro: /bedven/bedrijf/*e /bedven/bedrijf/significherebbe esattamente lo stesso: blocca tutti gli URL il cui percorso inizia con /bedven/bedrijf/.

E infine, potresti ridurre il tuo robots.txt a due record, perché un record può avere più User-agentrighe :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
fonte

Tieni presente che Google ignora la direttiva del ritardo di scansione in robots.txt. Devi invece impostarlo in Strumenti per i Webmaster di Google.

— SconcertatoGoat

-2

I bot, specialmente quelli danneggiati, possono ignorare il file robots.txt. Quindi, indipendentemente da ciò che è scritto lì, alcuni robot possono eseguire la scansione del tuo sito.

— Atis Luguzs
fonte