Google Preview obbedisce a Robots.txt?


11

Perché sembra proprio così. Per i miei siti non consentiamo la directory delle immagini e le anteprime sono tutte immagini mancanti che rendono il sito instabile.

È questo il caso e c'è un modo per consentire solo al bot di anteprima di accedere alle immagini usando robots.txt?

EDIT: sembra che le anteprime siano generate sia dal normale Bot di Google sia da una anteprima Web di Google al volo come menzionata (brevemente) sul Blog di Webmaster Central .

Usando un sito: ricerca e il mio software di monitoraggio ho potuto vedere quando il bot ha colpito il mio sito e quando ciò è accaduto le immagini sono apparse bene nell'anteprima. Quindi la mia ipotesi è che il normale crawler ignora le immagini per robots.txt, ma il crawler di anteprima ottiene comunque le immagini.

Questa implementazione sembra un po 'crumby perché le mie opzioni sembrano essere:

  1. consenti a google bot di eseguire la scansione delle mie immagini (cosa che non voglio fare)
  2. usare il tag nosnippet che blocca l'anteprima, ma ANCHE frammenti (cosa che non voglio fare)
  3. Fai apparire le anteprime traballanti che possono influire negativamente sui click-through

Se si tratta solo di non avere le immagini indicizzate, è possibile consentire la scansione ma pubblicare le immagini con un'intestazione HTTP x-robots-tag con "noindex".
John Mueller,

@ John Mueller Sembra che questa sia la risposta. Perché non pubblicarlo nella sezione delle risposte?
plntxt,

Risposte:


3

Penso che John Mueller abbia avuto ragione nei commenti.

Se si tratta solo di non avere le immagini indicizzate, è possibile consentire la scansione ma pubblicare le immagini con un'intestazione HTTP x-robots-tag con "noindex"

Non sapevo che potresti consentire a Google di eseguire la scansione dei contenuti senza indicizzarli. Ho messo in atto la sua tecnica e sto solo aspettando di farmi gattonare per vedere se ha funzionato.

Lo accetterò come risposta tra qualche giorno a meno che John non voglia aggiungere i suoi commenti alla sezione delle risposte in modo da poter guadagnare il rappresentante.


Mi dispiace per la risposta al commento :). Una cosa da tenere a mente è che questo processo non è molto rapido al momento. La modifica dello stato di indicizzazione delle immagini è generalmente più lenta della ricerca sul Web e l'aggiornamento delle immagini di anteprima può anche richiedere molto più tempo rispetto all'aggiornamento del normale contenuto della ricerca Web (pagina cache, titolo, frammento). In pratica, immagino che questo sia qualcosa che richiederà all'ordine delle settimane di vedere eventuali cambiamenti, quindi sii paziente :).
John Mueller,

La pazienza è la chiave. Diverse settimane dopo il cambiamento, alcune immagini sono ora visibili, mentre mancano ancora. Ma questa sembra essere stata la soluzione al mio problema.
plntxt il

2

Poiché la maggior parte dell'anteprima viene eseguita dal crawler di bot di Google, il blocco della scansione di alcune parti del tuo sito influirà sull'anteprima ...

Perché non vuoi consentire a Google bot di eseguire la scansione delle tue immagini?


2
Investiamo molto tempo e denaro investendo nella fotografia di prodotto e preferiremmo tenere le nostre immagini fuori dalla ricerca di immagini poiché le persone che usano la ricerca di immagini in genere cercano un'immagine e non stanno cercando di acquistare un prodotto. Se le nostre immagini fossero nell'indice, sarebbe più facile per i concorrenti rubarle.
plntxt,

1
Puoi provare a filigranare le tue foto e / o la tua steganografia all'interno di un copyright e / o filtrare il display per riferimento ...
Pascal Qyy,

1
@G. Qyy Oppure potrei pagare un numero infinito di scimmie per scansionare il web alla ricerca di immagini protette da copyright.
plntxt,

@Jim: O puoi conservare preziosamente le tue foto sui documenti e mai, mai metterle su Internet ... ^^
Pascal Qyy,

1
Un buon punto: nulla può proteggere completamente le tue foto, ma preferirei davvero non averle nell'indice di Google. Non sono un fan del watermarking e il modo più economico per ridurre le nostre immagini altrove è tenerle fuori dall'indice.
plntxt,

2

Quella che segue è una soluzione tecnica che può essere o meno semplicemente da applicare al tuo sito.

È possibile (anche probabile) che Google venga fuori con un modo per farlo con pochi suggerimenti in metadati o robots.txt, ma fino ad allora ...


Passo 1.

Creare un servizio / servlet di reindirizzamento per le immagini della prima pagina.

Cioè un URL come

/frontpageimages/[image name]

che reindirizza sul lato server

/images/[image name]

Passo 2.

Fai riscrivere tutti i link delle immagini sulla tua prima pagina (e solo sulla prima pagina) per passare attraverso il servizio di reindirizzamento dal passaggio 1 anziché collegarti direttamente all'immagine.

Passaggio 3.

Assicurati che robots.txt consenta la scansione di googlebot /frontpageimages/


Ciò dovrebbe garantire che Google possa eseguire la scansione di tutte le immagini che incontra sulla tua prima pagina lasciando tutte le immagini su altre pagine da sole.

Mentre il servizio di reindirizzamento potrebbe (in teoria) essere utilizzato per scansionare tutte le tue immagini senza violare tecnicamente il tuo robot.txt, non è qualcosa che i robot ben educati (come googlebot) faranno. E i robot mal educati non si preoccuperanno di robots.txt.


Chi vuole solo che la loro prima pagina mostri un'anteprima? So che voglio che ogni pagina mostri una buona anteprima. Se lo fai per ogni pagina essenzialmente stai negando lo scopo di bloccare le immagini in primo luogo.
John Conde

@John Hai ragione. In tal caso, o vuoi che Google ti indicizzi oppure no.
Kris,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.