Come configurare robots.txt per consentire tutto?

116

Il mio robots.txtin Strumenti per i Webmaster di Google mostra i seguenti valori:

User-agent: *
Allow: /

Cosa significa? Non ne ho abbastanza conoscenza, quindi cerco il tuo aiuto. Voglio consentire a tutti i robot di eseguire la scansione del mio sito web, è questa la configurazione giusta?

robots.txt

— Raajpoot
fonte

Consenti non è compreso da tutti i web crawler, utilizza invece disavow: (cioè, senza URL dopo:). È più sicuro (vedi: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

Quel file consentirà l'accesso a tutti i crawler

User-agent: *
Allow: /

Questo fondamentalmente consente a tutti i programmi utente (il *) di accedere a tutte le parti del sito (il /).

— Jim
fonte

11

Corretto, a meno che non sia necessario negare la parte consentita. Non c'è "allow", quindi fai in modo che: "User-agent: * Disallow:" come mostrato qui: robotstxt.org/robotstxt.html

— vsdev

C'è una parte Consenti. Controlla i documenti ufficiali di Google developers.google.com/search/reference/robots_txt#allow

— Hasan Sefa Ozalp il

60

Se vuoi consentire a ogni bot di eseguire la scansione di tutto, questo è il modo migliore per specificarlo nel tuo file robots.txt:

User-agent: *
Disallow:

Nota che il Disallowcampo ha un valore vuoto, il che significa che secondo la specifica :

Qualsiasi valore vuoto, indica che tutti gli URL possono essere recuperati.

Anche il tuo modo (con Allow: /invece di Disallow:) funziona, ma Allownon fa parte della specifica originale di robots.txt , quindi non è supportato da tutti i robot (molti popolari lo supportano, però, come Googlebot ). Detto questo, i campi non riconosciuti devono essere ignorati e, per i bot che non riconoscono Allow, il risultato sarebbe lo stesso in questo caso comunque: se non è vietato eseguire la scansione di nulla (con Disallow), è consentito eseguire la scansione di tutto.
Tuttavia, formalmente (secondo le specifiche originali) è un record non valido, perché Disallowè richiesto almeno un campo:

Almeno un campo Disallow deve essere presente in un record.

— unor
fonte

17

Capisco che questa è una domanda abbastanza vecchia e ha alcune risposte abbastanza buone. Ma ecco i miei due centesimi per completezza.

Secondo la documentazione ufficiale , ci sono quattro modi per consentire l'accesso completo ai robot per accedere al tuo sito.

Pulito:

Specificare un matcher globale con un segmento non consentire come menzionato da @unor. Quindi il tuo /robots.txtaspetto è così.

User-agent: *
Disallow:

L'hack:

Crea un /robots.txtfile senza contenuto in esso. Che per impostazione predefinita consentirà tutti per tutti i tipi di file Bots.

Non mi interessa il modo:

Non creare un file del /robots.txttutto. Che dovrebbe produrre gli stessi identici risultati dei due precedenti.

Il brutto:

Dalla documentazione dei robot per i meta tag , puoi utilizzare il seguente meta tag su tutte le tue pagine del tuo sito per far Botssapere che queste pagine non dovrebbero essere indicizzate.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Affinché questo venga applicato all'intero sito, dovrai aggiungere questo metatag a tutte le tue pagine. E questo tag dovrebbe essere rigorosamente posizionato sotto il HEADtag della pagina. Maggiori informazioni su questo meta tag qui .

— Raja Anbazhagan
fonte

Tuttavia, nessun robots.txt e Wordpress sono una cattiva combinazione, perché WordPress genera un robots.txt virtuale. A meno che tu non sia soddisfatto di quello generato da WordPress.

— Jesper

8

Significa che consenti a ogni ( *) user-agent / crawler di accedere alla radice ( /) del tuo sito. Stai bene.

— Jordi
fonte

5

non esiste un campo "Consenti", secondo robotstxt.org/robotstxt.html, quindi starei attento a usarlo. Wikipedia cita "Alcuni importanti crawler supportano un Consenti direttiva in grado di contrastare un seguente direttiva Disallow.": En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij