Come posso ottenere Google per indicizzare i miei documenti PDF?


14

Stiamo riscontrando problemi nel far sì che Google indicizzi i file PDF nel nostro sito. Ci sono circa 50 PDF e una gamma di dimensioni da 20 KB a poco meno di due mega. Non sono protetti, possono essere letti in modo anonimo e all'interno di PDF Reader è possibile cercare il documento.

Sono elencati in SiteMap.xml. Posso anche guardare i log di IIS e vedere Googlebot che legge i file PDF, ma, tranne cinque, non sono mai inclusi nei risultati di ricerca.

Se faccio una filetye: pdf, vengono visualizzati solo cinque PDF. Se cerco un testo che conosco sia all'interno di un PDF, i PDF non vengono mai visualizzati (tranne i cinque che sono indicizzati).

Qualcuno ha idea del perché gli oltre 45+ documenti PDF non vengano inclusi nell'indice, anche se si trovano nella Sitemap e Googlebot li sta leggendo?


Stai specificando il tipo di contenuto per Google?
Chris Ballance,

Risposte:


4

tutti i pdf si trovano nello stesso punto? Una volta ho avuto il problema che una delle mie posizioni pdf era all'interno di una cartella che era stata esclusa da robots.txt. Invia la tua sitemap direttamente al sito dello strumento google-webmaster e potresti ottenere informazioni preziose sul perché i pdf non vengono visualizzati. nel mio caso google mi ha detto "ehi, questi 54 documenti pdf sono sulla tua Sitemap ma a causa delle restrizioni di robots.txt non possiamo indicizzarli". quindi è stato molto utile. ma attenzione a ciò che dice il commentatore, può volerci un po 'prima che appaiano queste informazioni.

Strumenti per i Webmaster di Google: https://www.google.com/webmasters/tools


Aggiungerò semplicemente che Strumenti per i Webmaster di Google non fornisce tutte le informazioni in tempo reale. È comunque una risorsa vitale.
Liam,

No, i PDF si trovano in diversi punti del sito. Ho controllato e nessuno di loro viene bloccato da robots.txt. Ho utilizzato Strumenti per i Webmaster e inviato Sitemap, e farò di tutto per farlo. Grazie per il tuo feedback Jim

1

Ci può essere un certo ritardo tra la lettura iniziale dei tuoi contenuti da parte di Google e la loro visualizzazione nell'indice. Di recente abbiamo rilanciato un sito, inviando sitemap a google all'avvio e sono state necessarie circa 3 settimane prima che le nuove pagine iniziassero a comparire nei risultati di ricerca.

Quanto tempo fa hai inviato questi PDF tramite la tua Sitemap?

(tranne i cinque che sono indicizzati)

Sembra che i tuoi PDF vengano indicizzati, ma ci vuole del tempo. Presumendo che non vi siano differenze nel modo in cui i PDF non indicizzati sono stati generati, quindi sospetto che l'aggiornamento dell'indice richieda solo un po 'di tempo.

In una leggera tangente, uno strumento utile a cui consiglierei di registrarmi è Google Webmaster : ti mostra la velocità di scansione, i problemi con il tuo sito, le Sitemap e l'indicizzazione entro un giorno circa dal Googlebot che colpisce il tuo sito. Potrebbe farti risparmiare un po 'di tempo passando attraverso i tuoi registri IIS.


Sono passate circa quattro settimane da quando abbiamo presentato la nostra sitemap. Ho appena notato che ieri sera ne hanno indicizzati altri quattro; quindi forse devo solo aspettare :)

Quando hai rilanciato il sito, se ci sono volute 3 settimane prima che le nuove pagine iniziassero a comparire nei risultati di ricerca, ciò non significa che per 3 settimane, la ricerca ha restituito risultati a pagine che non esistevano più nel tuo sito? questo non ha comportato molte condizioni di "pagina non trovata"?

Nella nostra situazione, il rilancio ha coinciso con il lancio di una nuova sezione, i vecchi collegamenti funzionavano ancora: le 3 settimane erano il momento in cui la nuova sezione doveva iniziare a comparire. Il tempo di attesa casuale può essere un po 'frustrante, va bene!
ConroyP,

0

I tuoi file PDF sono sottoposti a scansione OCR in modo che il testo sia selezionabile e ricercabile? Oppure i file PDF vengono scansionati senza OCR, nel qual caso il testo verrà archiviato come un'immagine di grandi dimensioni? Se il PDF è costituito da tutte le immagini, non credo che Google possa indicizzarlo (ancora). O ormai Google ha trovato le tue pagine?


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.