I robot negati dal dominio sono ancora elencati nei risultati di ricerca


9

Pertanto, su tutti i nostri siti che non sono sottoposti a ricerca, abbiamo applicato un file robots.txt (per Come escludere un sito Web dai risultati di ricerca di Google in tempo reale? O qualsiasi altra domanda simile).

Tuttavia, se i termini di ricerca sono abbastanza specifici, il dominio stesso può essere trovato tramite i risultati. Un esempio di questo può essere trovato qui . Come puoi vedere dal link, è possibile trovare il dominio stesso (il contenuto non è memorizzato nella cache, ma il dominio è elencato). Inoltre, eseguire una ricerca con site:hyundaidigitalmarketing.com3 risultati. Il controllo dei backlink ne fornisce anche alcuni, ma ovviamente non posso impedirli (il collegamento è consentito nel contesto) o controllare come vengono gestiti (non posso dire all'host di aggiungere nofollow, noindex).

Ora, so che questo è un grave caso limite, tuttavia i clienti delle mie aziende stanno facendo proprio questo. In effetti, i nostri domini sono piuttosto buoni, quindi anche ricerche apparentemente arbitrarie stanno ottenendo risultati pertinenti. Ora, devo scrivere un rapporto su come / perché questo sta accadendo.

Quindi, mi rivolgo alla meravigliosa rete Stack Exchange per aiutarmi a capire cosa mi manca o capire cosa sta succedendo. I collegamenti ad articoli di settore sono estremamente utili, ma tutto ciò che puoi dare è ovviamente fantastico. Intendo offrire ai doni il meglio che posso per farne una risposta a cui rivolgersi in futuro.

Modifica: ho aperto una generosità su questa domanda nella speranza di ottenere qualche risposta in più. Di seguito ho anche fornito i risultati della mia ricerca.

Risposte:


5

Dovrò cercare la fonte di queste informazioni ma apparentemente robots.txt non impedirà necessariamente che una pagina venga indicizzata. Ma apparentemente l'intestazione HTTP x-robots-tag funziona.

Se stai usando Apache puoi bloccare le pagine in blocco usando questa linea in un file .htaccess:

Header set x-robots-tag: noindex

Provalo e guarda cosa succede.

modificare

(Ho trovato una fonte . Non quella che ricordo ma funziona).


Ciao e grazie per la risposta. In che modo differisce dal meta tag robot già implementato nell'output html del sito utilizzato come esempio sopra? Per quanto ne so, serve solo come sostituto, quindi non è necessario inserirlo in ogni pagina.
Kevin Peno,

@Kevin, dovrebbero essere gli stessi in termini di efficacia. Questo sarebbe solo più facile da gestire come hai detto.
John Conde

4

Penso che Matt Cutts ne abbia parlato. Se la mia memoria è corretta, ha a che fare con il collegamento. Ecco di più: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

Puoi rimuoverli con lo strumento di rimozione di Google.


Puoi vederli tutti con: site: gmpackageguide.com Non ci sono molti URL. Presumo che fossero nell'indice prima che i robot fossero vietati. Vorrei solo rimuoverli.
Joe,

In futuro, darei istruzioni alle persone di web design di non includere sempre alcun indice, nessun follow nella sezione head della pagina web. Sospetto che il CMS che stai usando possa farlo.
Joe,

@Joe - d'accordo, ma consiglierei in noindex, followmodo che qualsiasi PageRank sia distribuito da back-link che possono verificarsi.
Mike Hudson,

@Joe & @Mike, grazie per l'informazione. Tuttavia, prendi il sito: hyundaidigitalmarketing.com. Ho lanciato questo sito me stesso un anno fa. Include sia un file robots.txt che la meta header. Tuttavia, come puoi vedere il modulo che esegue una ricerca su google con site:hyundaidigitalmarketing.como per i termini hyundai digital marketing, il dominio stesso continuerà ad apparire come il primo e il miglior risultato. Devo impedirlo.
Kevin Peno,

Inoltre, una ricerca di links:hyundaidigitalmarketing.commostra back link. Ovviamente non posso impedire o controllare i backlink di formattazione E potrebbero essere validi. Se il collegamento al sito lo causa, devo capire come / perché, in modo da poterlo spiegare ai miei superiori. Spero che questo spieghi meglio la mia domanda.
Kevin Peno,

3

Sulla base delle mie ricerche sull'argomento, ho scoperto che non esiste un modo garantito al 100% per impedire l'indicizzazione e la memorizzazione nella cache dei dati, ma puoi avvicinarti molto (supponendo che tu voglia affrontare un aumento del traffico bot). Ecco come ho interpretato le informazioni.

Si potrebbe pensare che il file robots.txt sia usato per definire le informazioni sui robot in tutto il sito e i meta tag siano usati per dettagli specifici della pagina. Penso che lo spirito dietro i 2 sia esattamente questo, ma in pratica non è così.

Non creare un file robots.txt

Questo funziona con tutti i principali provider di ricerca per evitare che il contenuto di apparire sulla SERP, ma fa non impediscono l'indicizzazione. Ciò impedisce anche ai robot di eseguire la scansione delle pagine, quindi anche i meta tag robot (vedi sotto) vengono ignorati. Per questo motivo non è possibile utilizzare il 2 insieme ed è per questo che, se si desidera impedire l'indicizzazione, non è necessario utilizzare un file robots.txt.

Nota a margine: Google supporta l'uso di Noindex: /in robots.txt, ma non è documentato (chissà quando si romperà) e non si sa se questo funzioni per chiunque altro.

Usa le intestazioni HTTP o i tag META HTML per impedire tutto

A differenza del file robots.txt, il meta tag robot (e l'intestazione HTTP) è ampiamente supportato e, sorprendentemente, ricco di funzionalità. È progettato per essere impostato su ogni pagina, ma la recente adozione X-Robots-Tagdell'intestazione facilita l'impostazione a livello di sito. L'unico aspetto negativo di questo metodo è che i bot eseguiranno la scansione del tuo sito. Questo può essere limitato usando nofollow, ma non tutti i robot rispettano davvero nofollow.

Ho trovato un sacco di informazioni in questo post sul blog obsoleto . La sua versione originale era del 2007 ma, poiché molte delle informazioni su di essa sono funzionalità più recenti da allora, sembra essere aggiornato regolarmente.

In sintesi, è necessario inviare un'intestazione HTTP di X-Robots-Tag: noindex,nofollow,noodp,noydir. Ecco la scomposizione del perché:

  • nofollowdovrebbe limitare il numero di pagine sottoposte a scansione sul tuo sito, mantenendo basso il traffico dei bot. * noindexdice ai motori di non indicizzare la pagina.
  • Ora, potresti supporre che noindexpotrebbe essere abbastanza. Tuttavia, ho scoperto che anche se dici che il noindextuo sito potrebbe essere indicizzato a causa di altri siti collegati ad esso. Il modo migliore per impedire collegamenti a siti comuni da Y! Directory ( noydir) e Open Directory ( noodp).
  • L'uso dell'intestazione HTTP applica anche i dati dei robot a file, immagini e altri file non HTML! SÌÌ!

Funzionerà nel 99% dei casi. Tieni presente, tuttavia, che in alcuni casi è ancora possibile essere indicizzati da alcuni provider. Google afferma di rispettare pienamente noindex, ma ho i miei sospetti.

Infine, se vieni indicizzato o sei già stato indicizzato, l'unico modo per de-indicizzare le tue informazioni è seguire i vari mezzi di ciascun provider per richiedere la rimozione del sito / url. Ovviamente questo significa che probabilmente vorrai monitorare i siti / le pagine usando qualcosa come Google Alert (grazie @Joe).


3

Penso che il tuo problema di base siano i back link al sito in quanto forniscono ai motori di ricerca un punto di accesso al sito e li rendono consapevoli. Pertanto, anche se non visualizzeranno una descrizione per il sito, potrebbero mostrare l'URL se ritengono che sia la migliore corrispondenza per il risultato.

Leggi questo articolo collegato a quello pubblicato da @joe pubblicato: Matt Cutts tenendo fuori Google

Il bit chiave è:

C'è una buona ragione per questo: quando ho iniziato a lavorare su Google nel 2000, diversi siti Web utili (eBay, New York Times, California DMV) contenevano file robots.txt che vietavano il recupero di qualsiasi pagina. Ora ti chiedo, cosa dovremmo restituire come risultato della ricerca quando qualcuno esegue la query [california dmv]? Saremmo piuttosto tristi se non restituissimo www.dmv.ca.gov come primo risultato. Ma ricorda: a quel punto non eravamo autorizzati a recuperare pagine da www.dmv.ca.gov. La soluzione consisteva nel mostrare il collegamento non elaborato quando avevamo un alto livello di sicurezza che si trattava del collegamento corretto. A volte potremmo persino estrarre una descrizione dal progetto Open Directory, in modo da poter fornire molte informazioni agli utenti anche senza recuperare la pagina.

La ricerca che hai fatto copre anche le cose in modo discreto e le risposte di @john e @joe sono entrambe rilevanti. Ho incluso un link in basso che fornisce ulteriori indicazioni sul blocco dei motori di ricerca. L'unico modo in cui riesco a pensare di bloccare completamente il sito sarebbe quello di aggiungere una qualche forma di protezione con password davanti al sito che deve essere completata prima che il contenuto venga visualizzato.

Suggerimenti di SEOMoz su come non apparire nella ricerca


Grazie per aver aggiunto alla discussione. La protezione con password funziona bene per impedire la scansione, ma non impedisce l'indicizzazione. Poiché robots.txt fa un buon lavoro nel fermarlo, l'unico vantaggio della protezione con password è che impedirà a occhi indiscreti di trovarlo. Sfortunatamente, la maggior parte dei contenuti non è abbastanza sensibile da essere "protetta" e certamente non garantisce i problemi di usabilità che crea. [cont ...]
Kevin Peno,

Un'analogia che ho trovato più utile nella mia ricerca è stata un confronto con le rubriche telefoniche. Se i motori di ricerca sono rubriche telefoniche e chiedi di non essere elencato, allora puoi chiedere di non essere elencato, mai, e dovrebbero rispettarlo. Sfortunatamente, i motori di ricerca stanno agendo in modo più simile alle società alle quali altre società vendono contatti a loro volta dati a chiunque sia disposto a pagare / chiedere.
Kevin Peno,

@Kevin, capisco quello che stai dicendo, sfortunatamente, non penso che sarà possibile essere completamente rimosso con il modo in cui i motori di ricerca funzionano attualmente, il meglio che puoi sperare è solo un elenco di URL in quel caso.
Matthew Brookes,

Oh, lo capisco ora (post-ricerca). Inoltre, ti preghiamo di non prendere il mio commento alla tua risposta sotto qualsiasi aspetto negativo. Apprezzo la tua aggiunta all'argomento, stavo semplicemente rispondendo per aggiungere i contro dell'implementazione di una tale soluzione, oltre ad aggiungere un po 'di battute fuori tema suppongo. : P
Kevin Peno,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.