Come posso ottenere un elenco di tutti i collegamenti indicizzati?


8

Sto cercando un modo per prendere tutti i link che ho indicizzato da Google ed esportarli in un file CSV. Recentemente ho avuto molte più pagine indicizzate da Google di quante ne abbia effettivamente e voglio trovare la provenienza di tutte queste pagine senza dover visualizzare ciascuna pagina dei risultati di ricerca.


Da dove hai ottenuto il numero di pagine indicizzate?
Mr White,

Webmaster di Google e sito di ricerca: domain.com
Lee,

2
L'unica cosa che direi è che i dati riportati in Strumenti per i Webmaster (Integrità> Stato indice> Totale indicizzato) saranno più precisi di quelli riportati da un sito: ricerca nel dominio.com. Un sito: la ricerca restituisce sempre una cifra molto più alta nella mia esperienza, ma se si passa attraverso le SERP, il numero effettivo di risultati è inferiore alla cifra "Informazioni sui risultati NNNN".
MrWhite,

Beh, quella pagina è stata la ragione per cui mi sono interessato a questo in primo luogo. In 3 mesi, il numero di pagine indicizzate è passato da 27.000 a 567.000 e voglio sapere perché.
Lee,

Risposte:


6

Sfortunatamente non c'è modo di ottenere un elenco completo di ogni pagina indicizzata in Google. Anche la soluzione di milo5b ti porterà solo al massimo a 1.000 URL.

Sembra che tu abbia dei problemi con i contenuti duplicati. In Strumenti per i Webmaster, seleziona Salute> Stato indice e ti mostrerà un totale cumulativo di pagine indicizzate nel tempo. Se il grafico fa un grande salto ad un certo punto, potresti essere in grado di capire se una modifica specifica sul tuo sito ha innescato il salto.

Puoi anche provare a utilizzare gli Strumenti per i Webmaster di Bing . Hanno un Index Explorer che potrebbe aiutarti a trovare gli URL. I ragni dei motori di ricerca sono abbastanza simili, quindi se Google ha trovato quei collegamenti, probabilmente anche Bing.

Pensavo che Bing avesse un modo per esportare la maggior parte dei suoi dati, ma non riesco a trovarli a colpo d'occhio. C'è un'API però, quindi potresti probabilmente usarla per estrarre tutto.


Grazie per il suggerimento Bing ma avevano solo 9.000 pagine indicizzate e sono abbastanza sicuro che non siano i collegamenti di cui avevo bisogno.
Lee,

8

Ho finito per analizzare la sottocartella problematica cercando il sito: domain.com/foo/bar/ ma nella mia ricerca ho trovato un metodo per ottenere i risultati della ricerca in un file Excel.

Apri un foglio di lavoro di Google Documenti e utilizza questa formula:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Otterrà solo i primi 100 risultati, ma è possibile riutilizzarli per ottenere i successivi 100. Basta cambiare la variabile iniziale:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Ciò fornirà solo fino a 1000 risultati, come menzionato in precedenza da DisgruntledGoat, ma la formula può essere modificata per fornire collegamenti da sottodirectory specifiche:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// citare")


Ottimo consiglio con Google Documenti. Mi chiedevo solo quale fosse il vero problema riguardo alle pagine indicizzate extra: erano contenuti duplicati?
MrWhite,

1
L'ho rintracciato in vBulletin, un software per forum che stiamo utilizzando. Hanno aggiunto una nuova funzionalità chiamata flusso di attività e aggiunta nella sezione utenti. Quindi ogni utente non avrebbe solo le pagine della propria attività sul proprio profilo, ma tutte le attività di ogni amico che hanno. In cima a Google stava indicizzando pagine di attività vuote perché vBulletin non restituiva un 404. Ho finito per non indicizzare l'intera sezione.
Lee,

importXML funziona correttamente solo con i vecchi Fogli che possono essere attivati ​​con questo link: g.co/oldsheets
i.amniels

2

È possibile scrivere uno script che analizza la SERP di Google (ad esempio PHP + Curl) e memorizzare ogni collegamento in un file CSV. Fai attenzione a fare in modo che il tuo script si comporti come un essere umano, perché Google potrebbe vietare il tuo IP dai risultati di ricerca per alcune ore se abusi di questo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.