Come rimuovere migliaia di URL dalla cache di Google?


13

Google ha memorizzato nella cache migliaia di PDF dal mio sito Web che non dovrebbero essere pubblici. Ho aggiornato le intestazioni, ma devo rimuovere la cache Quick View esistente.

Lo strumento per i webmaster di Google mi consente di rimuoverli uno ad uno, tuttavia, questo chiaramente non è pratico data la quantità di file da rimuovere.

Qualcuno sa come posso rimuovere in batch i PDF dalla cache di Google? Idealmente, vorrei un modo per rimuovere tutto ciò che corrisponde a "site: mysite.com * .pdf"


3
La rapida ricerca su google indica che non è possibile rimuovere in batch utilizzando l'API di google, devi mettere insieme il tuo script che rimuove i collegamenti uno per uno

Risposte:


9

Sembra che tu abbia già capito come richiedere la rimozione di un singolo URL , che è ovviamente fuori discussione qui. Il secondo passaggio di tale processo consente anche di richiedere la rimozione di un'intera directory , se gli URL dei file sono prevedibili in quel particolare modo. (Se hai migliaia di PDF, spero che siano almeno in qualche modo organizzati.) In caso contrario, sfortunatamente sei praticamente fuori dalle opzioni.


2

Di recente ho avuto un hack che ha aggiunto diverse migliaia di pagine fasulle al mio sito.

Ho inviato una Sitemap corretta alla Console di ricerca di Google (precedentemente denominata Strumenti per i Webmaster) e ho trasformato tutti i link in 410, ma Google ne aveva ancora la maggior parte indicizzati.

Ho usato WebMaster Tools - Estensione di Chrome Bulk Removal URL per inviare automaticamente gli URL per la rimozione. È fondamentalmente uno script che prende un elenco degli URL e poi li invia per te, uno alla volta. Ci vorranno ore per inviarli tutti, ma almeno non dovrai farlo da solo. Ecco un articolo su come usarlo .

Puoi ottenere un elenco degli URL indicizzati da Google scaricando i dati direttamente dalla Search Console. Vai a Stato> Copertura indice e seleziona i risultati validi, quindi scorri verso il basso. Vedrai che Google ha indicizzato un sacco di URL che non sono presenti nella tua Sitemap. Puoi scaricare i primi 1000 risultati. C'è apparentemente un modo rotatorio per ottenerli tutti, non solo i primi mille, ma coinvolge le chiamate API da Excel. Ho solo aspettato qualche giorno tra ogni mille, mentre lentamente cadevano dall'indice.

Istantanea della copertura dell'indice di Google

Un altro percorso consiste nel fare in modo che un plug-in WP crei una sitemap, quindi filtra i PDF o qualunque sia il tuo target. Probabilmente dovrai fare un po 'di copia / incolla / elimina manualmente qui. Per sicurezza, ho scorrere lentamente il mio elenco di circa 2.700 URL di spam e cancellato gli URL legittimi. Ci sono voluti solo circa 20 minuti.

Se non si sta tentando di eseguire l'annullamento permanente di qualcosa, come lo spam, e invece si cerca di offuscare le risorse premium, è necessario utilizzare altri metodi per impedire l'indicizzazione di tali risorse, ad esempio un file di robot. Ma se si scopre che Google non ha ascoltato o hai lasciato cadere la palla, almeno ora puoi risolvere il problema e rimuoverlo dall'indice in pochi giorni.

Nella mia particolare circostanza, mi chiedo perché Google non abbia un pulsante della macchina del tempo, né annulla o reimposta. L'idea è che posso dire a Google che il sito è stato violato alcuni giorni fa, ma l'abbiamo riparato, quindi annulla l'ultimo x numero di giorni di scansione e indicizzazione. Ma sarebbe troppo facile.


1

Se i file "non dovrebbero essere pubblici", dovrebbero essere su Internet pubblico. Puoi rimuovere i file dagli elenchi di Google (tramite robots.txt e altri metodi), ma se i file sono ancora presenti, chiunque può comunque scaricarli.

Dovresti tenerli dietro un qualche tipo di autenticazione. Ad esempio, spostare i file dalla directory web pubblica e servirli da uno script che controlla se l'utente è valido per primo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.