Sito di sviluppo indicizzato da Google


8

Stavo sviluppando una nuova versione del nostro sito su un sottodominio ( dev.oursite.com) e il file robots.txt con l' Disallowha fatto sostituito a un certo punto, in modo che il sito ha ottenuto indicizzato da Google e altri motori di ricerca. Non sta mostrando risultati elevati o altro, ma ha tutti i contenuti duplicati e preferirei che non ci fosse.

Il sottodominio ora non c'è più e ho un 301 che reindirizza ogni pagina da dev.oursite.com/page-namea http://oursite.com/page-name.

C'è qualcos'altro che devo fare per rimuovere il sito di sviluppo dalla visualizzazione in Google? Alla fine scomparirà da solo?


4
Google ha una pagina di domande utili per questo: support.google.com/webmasters/bin/…
chrisjlee,

Risposte:


7

Controlla lo strumento di rimozione URL in Strumenti per i Webmaster di Google. Vorrei anche 404 pagine invece di reindirizzarle per rimuoverle più velocemente, in futuro oltre robots.txt potresti inserirle rel="canonical"per assicurarti che Google sappia che il sito di sviluppo è solo una copia del sito principale e non deve essere indicizzato.


3

Sono sempre preoccupato che i siti di sviluppo vengano indicizzati. Non mi fido di robots.txt o meta noindex, mentre li uso, proteggo anche con password i siti se non è scomodo. Ma un'altra opzione è quella di utilizzare .htaccess e negare l'accesso a tutti tranne che agli IP all'interno dell'azienda e per colleghi e sviluppatori. Aggiungi la loro classe C.


1
Questo è il modo migliore 403 tutti tranne una serie di indirizzi o blocchi di indirizzi. Il resto del mondo se ne va e solo chi ha bisogno di vederlo può farlo. Dopo il fatto per questa domanda, ma buono a sapersi per il futuro. Potrebbe essere necessario un sito di sviluppo accessibile privatamente anche dopo il lancio per le prove di aggiornamento, la programmazione personalizzata da sviluppatori di terze parti, ecc.
Fiasco Labs

1

Oltre alla risposta corretta fornita da Joshak, vorrei fornire un suggerimento su come impedire ciò.

Quello che ho fatto per risolvere esattamente lo stesso problema è forzare robot.txt nella definizione httpd di Apache del vhost. In questo modo non è possibile che il "non consentire" possa scomparire o essere modificato da qualsiasi codice nel sito Web in fase di sviluppo. Le definizioni dei miei vhost sono tutte simili a questa:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.