Come impedire che determinati URL vengano indicizzati


8

Quando scrivo site:example.com(usando ovviamente il mio dominio), visualizzo diversi errori di collegamento visualizzati nell'elenco. In genere, sono nella forma:/some/fixed/path/admin/unblockUser/11

Sto pensando di aggiungere la seguente riga al mio robots.txtfile:

Disallow: /some/fixed/path/admin/*

Risposte:


18

Esistono 2 modi principali per impedire ai motori di ricerca di indicizzare pagine specifiche :

  1. Un file Robots.txt per il tuo dominio.
  2. Il tag Meta Robots su ogni pagina.

Robots.txt dovrebbe essere la tua prima fermata per i pattern URL che corrispondono a più file. Puoi vedere la sintassi qui e più dettagliata qui . Il file robots.txt deve essere collocato nella cartella principale del tuo dominio, ovvero in http://www.yourdomain.com/robots.txt, e dovrebbe contenere qualcosa del tipo:

User-agent: *
Disallow: /path/with-trailing-slash/

(La colorazione del testo sopra è fatta dal software Stackexchange e dovrebbe essere ignorata.)

Il tag Meta Robots è più flessibile e capace , ma deve essere inserito in ogni pagina che si desidera influenzare.

Ancora una volta Google ha una panoramica di come utilizzare i Meta Robot e come rimuovere le pagine dal loro indice tramite Strumenti per i Webmaster. Wikipedia ha una documentazione più completa su Meta Robots , comprese le derivazioni specifiche del motore di ricerca.

Se vuoi vietare a Google, The Web Archive e altri motori di ricerca di conservare una copia della tua pagina web, allora vuoi il seguente tag (mostrato in formato HTML4):

<meta name="robots" content="noarchive">

Per impedire l' indicizzazione e conservare una copia :

<meta name="robots" content="noindex, noarchive">

E per evitare entrambi i punti precedenti , oltre a utilizzare i collegamenti sulla pagina per trovare più pagine da indicizzare:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: tutti e 3 i metatag sopra indicati sono solo per i motori di ricerca - non influiscono sui proxy o sui browser HTTP.

NB 2: se hai già pagine indicizzate e archiviate e blocchi le pagine tramite robots.txt mentre allo stesso tempo aggiungi il meta tag alle stesse pagine, allora robots.txt impedirà ai motori di ricerca di vedere il meta tag aggiornato.


1
Downvoted? Perché mai questo è stato downvoted? Si prega di lasciare un commento se si vota verso il basso in modo da poter migliorare la risposta.
Jesper M,

@Jesper Mortensen La tua risposta iniziale non ha affrontato affatto la domanda di memorizzazione nella cache. La tua modifica ha risolto questo problema e ha reso le informazioni noindex molto migliori. +1 ora ;-)
mawtex,

1
Una cosa da tenere a mente è che una direttiva robots.txt non consente l'indicizzazione di un URL né comporta la rimozione di tale URL dall'indice. I motori di ricerca possono e indicizzeranno gli URL senza averli sottoposti a scansione (se non sono consentiti), quindi se l'interruzione dell'indicizzazione degli URL è fondamentale (e non solo l'interruzione dell'indicizzazione dei contenuti), è necessario utilizzare il meta tag robot o la x -robots-tag header HTTP e assicurarsi che gli URL non possano non eseguire la scansione.
John Mueller,

1
Inoltre, sebbene non sia necessariamente errato, un meta tag robot con "noindex, noarchive" equivale a "noindex" (quando un URL non è indicizzato, non è nemmeno archiviato / memorizzato nella cache).
John Mueller,

1
Infine (scusate per l'aggiunta di così tanti commenti :-)), in questo caso particolare (pagine admin), vorrei solo assicurarmi che gli URL restituiscano 403 quando non sono connessi. Ciò impedisce anche ai motori di ricerca di indicizzarlo ed è teoricamente più chiaro che avere una pagina restituisce 200+ usando un meta tag robot noindex. Il risultato finale è lo stesso nei risultati di ricerca, ma l'utilizzo del codice risultato HTTP corretto può aiutarti a riconoscere più facilmente gli accessi non autorizzati agli amministratori nei tuoi registri.
John Mueller,

5

Esiste in realtà un terzo modo per impedire a Google e ad altri motori di ricerca di indicizzare gli URL. È l' X-Robots-Tagintestazione della risposta HTTP . Questo è meglio dei meta tag perché funziona per tutti i documenti e puoi avere più di un tag.

I tag META REP ti offrono un controllo utile su come viene indicizzata ogni pagina web sul tuo sito. Funziona solo con pagine HTML. Come è possibile controllare l'accesso ad altri tipi di documenti, come file Adobe PDF, file video e audio e altri tipi? Bene, ora la stessa flessibilità per specificare i tag per URL è disponibile per tutti gli altri tipi di file.

Abbiamo esteso il nostro supporto per i tag META in modo che ora possano essere associati a qualsiasi file. Aggiungi semplicemente qualsiasi tag META supportato a una nuova direttiva X-Robots-Tag nell'intestazione HTTP utilizzata per servire il file. Ecco alcuni esempi illustrativi: Non visualizzare un link cache o un frammento per questo elemento nei risultati di ricerca di Google: Tag X-Robots: noarchive, nosnippet Non includere questo documento nei risultati di ricerca di Google: Tag X-Robots : noindex Comunicaci che un documento non sarà disponibile dopo il 7 luglio 2007, alle 16:30 GMT: X-Robots-Tag: unavailable_after: 7 lug 2007 16:30:00 GMT

È possibile combinare più direttive nello stesso documento. Ad esempio: non mostrare un collegamento memorizzato nella cache per questo documento e rimuoverlo dall'indice dopo il 23 luglio 2007, ore 15:00 PST: tag X-Robots: tag X-Robots noarchive: unavailable_after: 23 lug 2007 15:00:00 PST


Il link "X-Robots_tag header" è interrotto.
mawtex,

Grazie per il testa a testa. Chrome sembra avere problemi con la barra degli strumenti di formattazione e ha aggiunto del testo aggiuntivo al collegamento.
John Conde

1

Sì, questo risolverà il problema. Per impedire che i contenuti vengano visualizzati negli indici di Google, puoi utilizzare robots.txt o il metatag html

<meta name="robots" content="noindex, nofollow" />

La prossima volta che il tuo sito verrà indicizzato, i tuoi contenuti verranno esclusi dall'indice di Google.

Puoi anche tu il noarchivevalore: questo bloccherà la memorizzazione nella cache della tua pagina. Questo è specifico di Google:

<meta name="robots" content="noarchive" />

Puoi utilizzare lo "strumento di rimozione" in Strumenti per i Webmaster di Google per richiedere una rimozione molto urgente dei tuoi contenuti. Nota che dovresti prima bloccare l'indicizzazione dei tuoi contenuti (usando robots.txt o il tag meta robots).

Ulteriori informazioni:


1

Se il tuo obiettivo è che queste pagine non siano visibili al pubblico, è meglio inserire una password in questo set di pagine. E / o avere una configurazione che consente solo indirizzi specifici e autorizzati in grado di accedere al sito (ciò può essere fatto a livello di server, probabilmente tramite l'host o l'amministratore del server).

Se il tuo obiettivo è far sì che queste pagine esistano, semplicemente non indicizzate da Google o da altri motori di ricerca, come altri hanno già detto, hai alcune opzioni, ma penso che sia importante distinguere tra le due funzioni principali di Ricerca Google in questo sense: scansione e indicizzazione.

Scansione o indicizzazione

Google esegue la scansione del tuo sito, Google indicizza il tuo sito. I crawler trovano le pagine del tuo sito, l'indicizzazione sta organizzando le pagine del tuo sito. Maggiori informazioni su questo un po ' qui .

Questa distinzione è importante quando si tenta di bloccare o rimuovere pagine dall '"Indice" di Google. Molte persone si limitano a bloccare semplicemente tramite robots.txt, che è una direttiva che dice a Google cosa (o cosa no) sottoporre a scansione. Si presume spesso che se Google non esegue la scansione del tuo sito, è improbabile che lo indicizzi. Tuttavia, è estremamente comune vedere pagine bloccate da robots.txt, indicizzate in Google.


Direttive su Google e sui motori di ricerca

Questo tipo di "direttive" sono semplicemente raccomandazioni a Google su quale parte del tuo sito scansionare e indicizzare. Non sono tenuti a seguirli. Questo è importante sapere. Ho visto molti sviluppatori nel corso degli anni pensare che possono semplicemente bloccare il sito tramite robots.txt e improvvisamente il sito viene indicizzato su Google poche settimane dopo. Se qualcun altro si collega al sito o se uno dei crawler di Google in qualche modo riesce a bloccarlo, può comunque essere indicizzato .

Di recente, con la dashboard aggiornata di GSC (Google Search Console), hanno questo rapporto chiamato "Rapporto sulla copertura dell'indice". Qui sono disponibili nuovi dati per i webmaster che non sono stati direttamente disponibili prima, dettagli specifici su come Google gestisce un determinato set di pagine. Ho visto e sentito parlare di molti siti Web che ricevono "Avvisi", etichettati "Indicizzati, ma bloccati da Robots.txt".

L' ultima documentazione di Google menziona che se si desidera che le pagine escano dall'indice, aggiungere tag noindex nofollow ad esso.


Rimuovi strumento URL

Solo per basarci su ciò che alcuni altri hanno menzionato sullo "Rimuovi strumento URL" ....

Se le pagine sono già indicizzate ed è urgente farle uscire, lo "Strumento Rimuovi URL" di Google ti permetterà di bloccare "temporaneamente" le pagine dai risultati di ricerca. La richiesta dura 90 giorni, ma l'ho usata per rimuovere le pagine più rapidamente da Google rispetto all'utilizzo di noindex, nofollow, un po 'come un livello aggiuntivo.

Utilizzando lo strumento "Rimuovi URL", Google eseguirà comunque la scansione della pagina e, eventualmente, la memorizzerà nella cache, ma mentre stai usando questa funzione, puoi aggiungere i tag nofollow noindex, così li vede, e al momento i 90 giorni sono si spera che saprà non indicizzare più la tua pagina.


IMPORTANTE: l'utilizzo di entrambi i tag robots.txt e noindex nofollow è un segnale in conflitto con Google.

Il motivo è che se dici a Google di non eseguire la scansione di una pagina e quindi non hai nindollow su quella pagina, potrebbe non eseguire la scansione per vedere il tag noindex nofollow. Può quindi essere indicizzato tramite qualche altro metodo (che sia un collegamento o quant'altro). I dettagli sul perché ciò accada sono piuttosto vaghi, ma l'ho visto accadere.


In breve, a mio avviso, il modo migliore per impedire l'indicizzazione di URL specifici è quello di aggiungere un tag nofollow noindex a quelle pagine. Con ciò, assicurati di non bloccare quegli URL anche con robots.txt, in quanto ciò potrebbe impedire a Google di vedere correttamente quei tag. Puoi sfruttare lo strumento Rimuovi URL da Google per nasconderli temporaneamente dai risultati di ricerca mentre Google elabora il tuo noindex nofollow.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.