Il sito è stato violato, è necessario rimuovere tutti gli URL che iniziano con + da Google, utilizzare robots.txt?


15

La prego di farmi sapere come bloccare tali URL da robots.txtGooglebots per interrompere l'indicizzazione?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Il mio sito Web è stato violato, che ora è stato recuperato, ma l'hacker ha indicizzato 5000 URL in Google e ora ricevo l'errore 404 su collegamenti generati casualmente, soprattutto a partire /+dal collegamento sopra.

Mi chiedevo se esiste un modo rapido oltre a rimuovere manualmente questi URL dagli Strumenti per i Webmaster di Google?

Possiamo bloccare questo con robots.txtURL che iniziano con +segno?


2
Non c'è nulla di speciale nel +(più) percorso URL, è solo un personaggio come un altro.
MrWhite,

È possibile che Apache reindirizzi (in .htaccess) a un file o una directory a cui robots.txt proibisce l'accesso ai robot
Mawg dice di ripristinare Monica il

@Mawg Qual è il punto di farlo?
MrWhite,

Per tenere fuori robot ben educati?
Mawg dice di ripristinare Monica il

2
Indipendentemente dal problema con gli URL, potresti voler leggere Come posso gestire un server compromesso?
Jonas Schäfer,

Risposte:


30

Il mio sito Web è stato violato e ora recuperato, ma l'hacker ha indicizzato 5000 URL in Google e ora ricevo l'errore 404

Un 404 è probabilmente preferibile al blocco robots.txtse si desidera che questi URL vengano eliminati dai motori di ricerca (ad es. Google). Se blocchi la scansione, l'URL potrebbe comunque rimanere indicizzato. (Nota che robots.txtblocca principalmente la scansione , non l' indicizzazione .)

Se vuoi "accelerare" la deindicizzazione di questi URL, potresti forse servire un "410 andato" al posto del solito "404 non trovato". Puoi fare qualcosa di simile al seguente con mod_rewrite (Apache) nel tuo .htaccessfile root :

RewriteEngine On
RewriteRule ^\+ - [G]

14

Risponderò alla seconda domanda.

Mi chiedevo se esiste un modo rapido oltre a rimuovere manualmente questi URL dagli strumenti per i webmaster di Google?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google afferma esplicitamente che la rimozione tramite Google Search Console (il nuovo nome degli strumenti per i webmaster) è la più veloce.

Se l'hacker ha creato URL completamente nuovi e visibili all'utente, è possibile rimuovere queste pagine più rapidamente dai risultati di ricerca di Google utilizzando la funzione Rimuovi URL in Search Console. Questo è un passaggio del tutto facoltativo. Se elimini semplicemente le pagine e quindi configuri il tuo server per restituire un codice di stato 404, le pagine cadono naturalmente dall'indice di Google con il tempo.

Ma comprendono anche che ciò non è fattibile in alcuni casi:

La decisione di utilizzare la rimozione URL dipenderà probabilmente dal numero di pagine nuove e indesiderate create (troppe pagine potrebbero essere ingombranti da includere in Rimuovi URL), nonché dal potenziale danno che queste pagine potrebbero causare agli utenti. Per evitare che le pagine inviate tramite Rimozione URL vengano visualizzate nei risultati di ricerca, assicurarsi che le pagine siano configurate per restituire una risposta 404 File non trovato per gli URL indesiderati / rimossi.

Quindi, mentre puoi bloccare queste pagine in robots.txt, non stai eseguendo nessuno dei passaggi correttivi come spiegato da google.


4
User-Agent: *  
Disallow: /+

dovrebbe fare quello che vuoi. Dirà al robot di non richiedere tutti gli URL che iniziano con a +.


2

Se vuoi davvero usare robots.txt questa sarebbe una semplice risposta alla tua domanda. Inoltre ho incluso un link a dove è possibile leggere le specifiche su robots.txt.

User-agent: *
Disallow: /+

Leggi le specifiche di robots.txt

Un'altra alternativa potrebbe essere quella di utilizzare .htaccess per creare una regola di riscrittura (se usi Apache ecc.) Per catturarli e forse dire a Google un codice HTTP di ritorno migliore o semplicemente reindirizzare il traffico verso un'altra pagina.


2
Non è necessario l' *asterisco alla fine del percorso URL. Dovrebbe essere rimosso per la massima compatibilità del ragno. robots.txtè già la corrispondenza del prefisso, quindi /+*è la stessa /+dei robot che supportano i caratteri jolly e che per i robot che non supportano i caratteri jolly /+*non corrisponderanno affatto.
MrWhite,

Hai ragione, l'ho appena scritto sulla base della sua domanda su Googlebot. L'ho modificato per riflettere una migliore compatibilità con più bot.
davidbl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.