Robots.txt: devo impedire una pagina che non è collegata da nessuna parte?


12

Sul mio sito web ci sono alcune pagine che voglio che l'utente possa visitare solo se gli do l'URL.

Se non autorizzo le singole pagine robots.txt, saranno visibili da chiunque lo guardi.

La mia domanda è: se non li collegassi da nessuna parte, o almeno da qualsiasi pagina indicizzata, verrebbero comunque raggiunti dai crawler in qualche modo?

Risposte:


11

Non vuoi affatto che la pagina appaia nelle SERP ...

Non consentire in robots.txt. Aggiungi invece un meta tag noindex (o intestazione HTTP X-Robots-Tag) alle tue pagine.

Come suggerisce j0k, le tue pagine potrebbero essere trovate in qualche modo. Rapporti statistici, elenchi di directory, ecc ...

La disattivazione in robots.txt impedisce la ricerca per indicizzazione della pagina, ma potrebbe comunque essere indicizzata e potrebbe apparire come collegamento solo URL nei SERP. Qualcosa di simile a:

Collegamento URL solo nelle SERP di Google

Un metatag noindex impedisce la visualizzazione della pagina nei SERP, ma Google deve essere in grado di eseguire la scansione della pagina per vedere il metatag noindex, quindi non può essere vietato in robots.txt!

Se sulla pagina è presente qualcosa che non deve essere pubblicamente disponibile, le pagine devono essere dietro un qualche tipo di autenticazione.


Una cosa da tenere a mente è se questo è davvero qualcosa di riservato, quindi "nasconderlo" con un URL è una cattiva pratica a prescindere dal metodo scelto. L'uso dell'autenticazione corretta è davvero importante in un caso del genere.
John Mueller,

1
Inoltre, i pulsanti dei social media (Mi piace / Condividi / + 1 / vari segnalibri) recuperano anche il contenuto e possono visualizzare l'URL, il titolo e lo snippet in modo pubblico, anche se l'URL ha un noindex su di esso (o è vietato dai robot .testo). L'unico modo per impedirlo è utilizzare l'autenticazione.
John Mueller,

2

Beh, penso che tu abbia un buon crawler che legga il file robots.txt e segua la direttiva. E un altro che non segue la direttiva.

E come pensi di dare questo url? Tramite e-mail, usando Facebook o Twitter? Tutti questi servizi eseguono la scansione delle informazioni inviate. Gmail analizza l'email che ricevi per fornire annunci. Quindi, il tuo URL verrà in qualche modo sottoposto a scansione.

Alcune persone usano Google Toolbar (o qualunque altra barra degli strumenti del motore di ricerca). C'è un'opzione (selezionata per impostazione predefinita se ricordo bene) che consente alla barra degli strumenti di inviare tutti gli URL che visiti a Google. Questo è un altro modo per Google di vedere il web nascosto. Quindi, anche se hai detto alla persona di non condividere l'URL, implicitamente lo farà (grazie alla barra degli strumenti).

Penso che possiamo trovare molte altre possibilità.

Quindi potresti aggiungerlo a robots.txt ma fornire anche meta extra come noindex, nofollow, ecc.

modificare:

Il suggerimento di w3d su robots.txt mi sembra buono. Quindi non aggiungerlo a robots.txt e fornire il meta tag propre.


Li sto collegando tramite e-mail. Sì, avevo in programma di fornire un meta appropriato. Quindi il tuo suggerimento è di aggiungerli ai robot o no? Grazie
martjno,

Consiglierei di aggiungerlo a robots.txt. Ma il suggerimento di W3D mi ha cambiato idea. Non aggiungerlo ma fornisci il meta tag corretto.
j0k,

0

Oltre ai commenti sopra, raccomanderei anche l'autenticazione HTACCESS come minimo: in questo modo puoi dare alle persone una combinazione nome utente / password per la durata del loro diritto a vedere le pagine

Se c'è qualcosa con problemi di privacy, è necessario prendere in considerazione uno script di controllo di accesso adeguato.

Una pagina non protetta (non importa quanto ben nascosta possa essere) la renderà selvaggia.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.