Se non voglio impostare alcun comportamento speciale, va bene se non mi preoccupo di avere un file robots.txt?


29

Se non voglio impostare alcun comportamento speciale, va bene se non mi preoccupo di avere un file robots.txt?

O la mancanza di uno può essere dannosa?

Risposte:


30

La mancanza di un file robots.txt non sarà dannosa. Dal sito web robotstxt.org :

Per consentire l'accesso completo a tutti i robot

User-agent: *
Non consentire:

(o semplicemente creare un file "/robots.txt" vuoto o non utilizzarlo affatto)

Tuttavia, anche se non stai specificando nulla nel tuo file robots.txt, è un buon modo per informare i motori di ricerca della posizione della tua Sitemap XML . Puoi farlo aggiungendo una riga nella parte superiore del file robots.txt che assomigli a:

Mappa del sito: http://www.example.com/sitemap-host1.xml

Dovresti anche essere consapevole del fatto che non averlo creerà molte 404 voci nei tuoi log web.


+1 - buon riassunto, anche se vorrei davvero sottolineare ciò che Kinopiko ha già correttamente sottolineato : basta creare il più semplice o addirittura vuoto per evitare quei 404s e (a seconda della gestione dei siti 404 pagine) potenzialmente abbastanza traffico / larghezza di banda , poiché i motori di ricerca applicheranno il controllo della cache HTTP corretto per saltare di nuovo il download del file se invariato, che sia vuoto o meno.
Steffen Opel,

Contrassegnato come wiki, si prega di modificare come meglio credi.
JasonBirch l'

21

Se non hai un "robots.txt", il tuo registro degli errori otterrà molti file 404 sul file, il che potrebbe essere una sorta di fastidio, simile a se non hai una favicon.


1
un punto eccellente ..
Jeff Atwood,

1
+1 - Vorrei aggiungere che non solo ti salvi da file di registro più grandi e rumorosi, ma puoi (a seconda della gestione delle pagine 404 dei tuoi siti) evitare potenzialmente un po 'di traffico / larghezza di banda anche a causa della maggior parte delle 404 pagine più grande di un semplice robots.txtfile, che inoltre verrà scaricato meno spesso a causa dei motori di ricerca che applicano il controllo adeguato della cache HTTP .
Steffen Opel,

6

Penso che sarebbe deve essere OK, altrimenti enormi aree del web sarebbe un-indicizzabili dai ragni web.

No robots.txtè uguale a "consentire l'indicizzazione da parte di tutti" robots.txtquasi per definizione.


2

La mancanza di un file robots.txt lascia al crawler il compito di decidere cosa può e cosa non può fare. Dal momento che bastano pochi secondi per evitare qualsiasi tipo di ambiguità, perché non crearne uno che consenta a tutti gli agenti di accedere a tutto?


0

Bene, poiché robots.txtcontiene l'indirizzo della tua Sitemap , non averne uno è potenzialmente dannoso.


le sitemap sono utili solo per alcuni tipi di siti Web, IMO
Jeff Atwood,

Ho anche visto crawler (google in particolare) cercare /sitemap.xml o /sitemap.gz in assenza di robots.txt
Tim Post

Non è necessario che tu abbia la tua sitemap in robots.txt, puoi comunque inviarla a Google / Yahoo / Bing. Non è sicuramente "potenzialmente dannoso".
Sconcertato

0

A seconda dei tuoi contenuti, non dovresti avere problemi a non avere un file robot a condizione che tu abbia a che fare con tutte le pagine del tuo sito indicizzate dai motori di ricerca.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.