Robots.txt: CSS consente o non consente


12

CSS e template sono ammessi in robots.txt ?

Dovrebbe causare problemi?

In Joomla, CSS e template non sono consentiti in robots.txt . Aiutatemi a trovare una soluzione per non consentire o meno ai robot di utilizzare CSS, template, ecc. Per i miei siti Web in arrivo.


Non penso che Joomla blocchi questi file per impostazione predefinita - se è questo che stai insinuando?
MrWhite,

Risposte:


23

Google ha recentemente aggiornato le linee guida per dichiarare ufficialmente che non è necessario bloccare l'accesso ai file CSS o JS in robots.txt . Ciò garantisce che quando Google esegue la scansione del sito, possa renderlo esattamente come farebbe un browser.

Se blocchi i file CSS o JS, potresti danneggiare le prestazioni del tuo sito Web nelle classifiche.

Maggiori informazioni qui: Aggiornamento delle nostre Linee guida tecniche per i webmaster e qui: Linee guida per i webmaster

Poiché si tratta di una raccomandazione recente, molti siti Web e CMS (come Joomla) avranno spesso tali file bloccati in robots.txt . Il ragionamento alla base di questo era di solito che i motori di ricerca non avevano bisogno di scansionare o indicizzare questi file, quindi per impedire che i file e le directory non necessari venissero indicizzati e per salvare il "budget di scansione", questi sarebbero spesso bloccati in robots.txt .


2
Google dice da molto tempo che non dovresti bloccare JS e CSS (video di Matt Cutts da marzo 2012) poiché potrebbe danneggiare la capacità di G di eseguire la scansione del tuo sito, è solo che lo hanno reso "più ufficiale" di recente.
MrWhite,

2
È stato consigliato di non bloccare CSS e JS per oltre un decennio. So che il rendering da parte dei motori di ricerca sembra nuovo, ma non lo è e alcune forme di rendering, incluso il semplice JS, esistono da molto tempo ormai.
closetnoc,

1
Nota aggiuntiva (in qualche modo correlata dal momento che viene spesso utilizzata con JS) - Per quanto riguarda i controller che rendono un percorso accessibile tramite tema / vista / JSON / URi - dovresti bloccare quelli o potresti dover affrontare aree non a tema indicizzate anziché la pagina usando detto aspetto dei dati. Questa è un'area di "vista" che è valida per bloccare, in particolare le cose che JS usa come JSON. Spesso G eseguirà JS, vedrà il collegamento JSON e lo visiterà. Causa errori o, se temi, un indice mezzo costruito. Questo è un tutto nuovo can-o-worm, ma basta essere consapevoli.
Dhaupin,

1
Mi sono sentito in dovere di esprimere il mio forte disaccordo con l'atteggiamento di culto del carico che qualunque cosa dice Google, dobbiamo fare. Google afferma anche che il tuo sito si classificherà più in alto se permetti loro di scansionare le immagini, utilizzare HTTPS, ecc. Conforme a tutto ciò che dice Google, stai solo offrendo loro più potere per fare richieste più grandi. Alla fine della giornata, stai costruendo il tuo sito web per umani o robot?
Domanda Overflow

1
Supponi che dipenda da quanto fai affidamento su una buona classifica in Google? Sebbene come la maggior parte delle cose, è solo un piccolo indicatore in un gran numero di fattori che hanno. Come hai già detto, hanno recentemente affermato che l'HTTP è un piccolo fattore di classifica, eppure non ho cambiato nessuno dei 100 di siti su cui lavoro in HTTP e le loro classifiche vanno bene.
Max

3

La strategia per il tuo robots.txt dovrebbe sempre rispondere alla domanda: quali sezioni della mia rete non devono essere sottoposte a scansione da un robot e quali sezioni possono essere sottoposte a scansione da un robot.

I robot implementano la loro logica e hanno molteplici scopi (non solo Google ha un crawler ...) quindi se stai assumendo che un robot venga in qualche modo "distratto" dai tuoi file CSS e JS apri la scatola nera del robot e supponi cosa l' implementazione attuale e l' intento attuale del robot è. Questa non è una strategia utile a lungo termine.

Invece di pensare nel dominio del robot, prova a pensare nel dominio del contenuto del tuo web.

Voglio sottolineare che un file robots.txt non è un meccanismo di sicurezza.


1

I modelli sono utilizzati dall'applicazione di blog o di gestione dei contenuti (CMS) e non dovrebbero essere accessibili esternamente quando i CSS vengono letti dal browser e dai motori di ricerca e devono essere letti. Detto questo, non bloccherei nessuno dei due, ma non cambierei nemmeno quelli del CMS. I motori di ricerca e i robot non si preoccupano dei tuoi modelli. Basta bloccare l'accesso al tuo sito tramite URL / URI che non si desidera indicizzare o leggere ma non si considera robots.txt come uno strumento di sicurezza. Non è progettato per questo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.