Come ottenere decine di milioni di pagine indicizzate dal bot di Google?


12

Attualmente stiamo sviluppando un sito che attualmente ha 8 milioni di pagine uniche che cresceranno immediatamente a circa 20 milioni e infine a circa 50 milioni o più.

Prima di criticare ... Sì, fornisce contenuti unici e utili. Elaboriamo continuamente dati non elaborati da record pubblici e eseguendo alcuni scrubbing di dati, rollup di entità e mappatura delle relazioni, siamo stati in grado di generare contenuti di qualità, sviluppando un sito abbastanza utile e anche unico, in parte a causa dell'ampiezza del dati.

Il suo PR è 0 (nuovo dominio, nessun link), e ci viene spiderato ad una velocità di circa 500 pagine al giorno, mettendoci a circa 30.000 pagine indicizzate finora. A questo ritmo, occorrerebbero oltre 400 anni per indicizzare tutti i nostri dati.

Ho due domande:

  1. Il tasso dell'indicizzazione è direttamente correlato al PR, e con questo intendo è abbastanza correlato che acquistando un vecchio dominio con un buon PR ci porterà a un tasso di indicizzazione praticabile (nelle vicinanze di 100.000 pagine al giorno).
  2. Esistono consulenti SEO specializzati nell'aiutare il processo di indicizzazione stesso. Altrimenti stiamo andando molto bene con la SEO, specialmente on- page, inoltre, la concorrenza per le nostre parole chiave "long-tail" è piuttosto bassa, quindi il nostro successo dipende principalmente dal numero di pagine indicizzate.

Il nostro principale concorrente ha raggiunto circa 20 mm di pagine indicizzate in poco più di un anno, insieme a una classifica di Alexa del 2000.

Qualità degne di nota che abbiamo messo in atto:

  • la velocità di download della pagina è abbastanza buona (250-500 ms)
  • nessun errore (nessun errore 404 o 500 durante il ragno)
  • utilizziamo gli strumenti per i webmaster di Google e effettuiamo l'accesso quotidianamente
  • URL amichevoli in atto
  • Ho paura di inviare sitemap. Alcuni post della community SEO suggeriscono un nuovo sito con milioni di pagine e nessuna PR è sospetta. C'è un video di Google di Matt Cutts che parla anche di una messa in scena di siti di grandi dimensioni , al fine di evitare un maggiore controllo (circa alle 2:30 nel video).

  • I collegamenti a siti cliccabili forniscono tutte le pagine, non più di quattro pagine di profondità e in genere non più di 250 (-ish) collegamenti interni su una pagina.
  • Il testo di ancoraggio per i collegamenti interni è logico e aggiunge gerarchicamente rilevanza ai dati nelle pagine dei dettagli.
  • In precedenza avevamo impostato la velocità di scansione al massimo sugli strumenti per i webmaster (solo circa una pagina ogni due secondi, max). Di recente l'ho riportato a "lascia decidere a Google" che è ciò che è consigliato.


6
Mi piacerebbe davvero vedere 50 milioni di pagine che forniscono contenuti utili unici. È interessante che Wikipedia manchi di tanta conoscenza rispetto al tuo sito oggi è solo 3,5 milioni di pagine [rif. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio,

3
:) Guardando oltre il sarcasmo ... non è il numero di pagine che rende Wikipedia una straordinaria fonte di conoscenza - chiaramente sì - più utile. Il nostro sito genera una pagina per ogni record di una persona e una pagina per ogni record di una società nel nostro database. Usiamo l'analisi dei dati e lo scrubbing per generare dinamicamente relazioni tra i partner commerciali, rappresentando graficamente una rete commerciale di persone e società collegate. Il numero di pagine è una funzione della quantità di dati che abbiamo. Renderlo rilevabile tramite la ricerca lo rende più utile a tutti. Grazie per il tuo commento.
Chris Adragna,

1
Ottieni più pagerank, ottenendo più link. Link alle tue pagine da pagine che hanno pagerank.
Alex Black,

Risposte:


20

Alcune potenziali strategie:

  • Strumenti per i Webmaster di Google ti consente di richiedere una frequenza di scansione maggiore. Prova a farlo se non l'hai già fatto.
  • Dai un'occhiata alla tua architettura di navigazione per vedere se non puoi migliorare l'accesso a più contenuti. Guardalo dal punto di vista di un utente: se per un utente è difficile trovare una specifica informazione, può essere difficile anche per i motori di ricerca.
  • Assicurati di non avere contenuti duplicati a causa di parametri URL incoerenti o di un uso improprio delle barre. Eliminando i contenuti duplicati, riduci il tempo che Googlebot impiega a eseguire la scansione di qualcosa che ha già indicizzato.
  • Usa i collegamenti ai contenuti correlati e i collegamenti in-site all'interno dei tuoi contenuti ogni volta che è possibile.
  • Randomizza alcuni dei tuoi link. Una barra laterale con contenuti interni casuali è un ottimo modello da usare.
  • Usa le date e altri microformati .
  • Usa i feed RSS ove possibile. I feed RSS funzioneranno più o meno come una Sitemap (in effetti, Strumenti per i Webmaster ti consente di inviare un feed come Sitemap).
  • Per quanto riguarda le Sitemap, vedi questa domanda .
  • Trova modi per ottenere link esterni ai tuoi contenuti. Ciò può accelerare il processo di indicizzazione. Se è appropriato per il tipo di contenuto, semplificare la condivisione socialmente o tramite e-mail ti aiuterà.
  • Fornire un'API per incentivare l'uso dei dati e i collegamenti esterni ai dati. È possibile disporre di un collegamento di attribuzione come requisito per l'utilizzo dei dati.
  • Abbraccia la comunità. Se raggiungi le persone giuste nel modo giusto, otterrai link esterni tramite blog e Twitter.
  • Cerca modi per creare una comunità attorno ai tuoi dati. Trova un modo per renderlo social. Le API, i mashup, i widget sociali aiutano tutti, ma anche un blog, vetrine di community, forum e meccaniche di gioco (vedi anche questo video ).
  • Dai la priorità al contenuto che hai indicizzato. Con così tanti dati, non tutti saranno assolutamente vitali. Prendi una decisione strategica su quale sia il contenuto più importante, ad esempio, sarà più popolare, avrà le migliori possibilità di ROI, sarà il più utile, ecc. E assicurati che il contenuto venga prima indicizzato.
  • Fai un'analisi dettagliata di ciò che il tuo concorrente sta facendo per ottenere il suo contenuto indicizzato. Guarda l'architettura del loro sito, la loro navigazione, i loro collegamenti esterni, ecc.

Infine, dovrei dirlo. SEO e indicizzazione sono solo piccole parti per la gestione di un sito aziendale. Non perdere la concentrazione sul ROI per il bene del SEO. Anche se hai molto traffico da Google, non importa se non puoi convertirlo. La SEO è importante, ma deve essere mantenuta in prospettiva.

Modifica :

Come aggiunta al tuo caso d'uso: potresti considerare di offrire recensioni o testimonianze per ogni persona o azienda. Inoltre, distribuire badge utente come StackOverflow potrebbe invogliare almeno alcune persone a collegarsi al proprio profilo sul proprio sito. Ciò incoraggerebbe alcuni collegamenti esterni alle tue pagine profonde, il che potrebbe significare ottenere indicizzati più rapidamente.


1
+1 - Ricorda sempre che la SEO è un microcosmo del problema maggiore della promozione degli affari; è anche il più semplice (almeno per le persone con una mentalità tecnica) in cui perdersi. Sempre più persone stanno guardando la TV in questo momento che in qualsiasi altro momento storico - a seconda di ciò che stai offrendo, la pubblicità televisiva potrebbe avere un ROI di PPC ...
danlefree l'

Buona idea sui microformati. Non è un proiettile d'argento, ma abbiamo un certo numero di posti in cui il markup semantico che utilizza gli standard in microformato potrebbe essere utile.
Chris Adragna,

1
Non so se alcuni microformati (diversi da un possibile timestamp) significherebbero essere indicizzati più rapidamente, ma potrebbero esserci altri vantaggi SEO nell'usarli. Per lo meno, semplifica la scansione delle pagine e può aiutare a far risaltare la tua voce sulla pagina dei risultati del motore di ricerca (a seconda del microformato).
Virtuosi Media,

5

Come ottenere decine di milioni di pagine indicizzate dal bot di Google?

Non accadrà dall'oggi al domani, tuttavia, ti garantisco che vedresti più spidering prima delle pagine se collegamenti in entrata a contenuti profondi (in particolare pagine sitemap o indici di directory che puntano a contenuti ancora più profondi) venivano aggiunti da siti altrettanto grandi che sono in giro da un po '.

Un dominio più vecchio sarà sufficiente per ottenere 100.000 pagine indicizzate al giorno?

Dubbio, a meno che tu non stia parlando di un dominio più vecchio che ha avuto una quantità significativa di attività su di esso (ad esempio contenuti accumulati e collegamenti in entrata) nel corso degli anni.

Esistono consulenti SEO specializzati nell'aiutare il processo di indicizzazione stesso.

Quando poni la domanda in questo modo, sono sicuro che troverai un sacco di SEO che proclamano ad alta voce "sì!" ma, alla fine, i suggerimenti di Virtuosi Media sono buoni consigli che riceverai da uno di essi (per non parlare dei consigli potenzialmente cattivi).

A quanto pare, dovresti considerare di utilizzare i canali di sviluppo commerciale e di pubbliche relazioni per costruire la classifica del tuo sito a questo punto: ottenere più collegamenti ai tuoi contenuti (preferibilmente collaborando con un sito esistente che offre contenuti con targeting regionale per collegarti al tuo contenuti suddivisi in aree geografiche, ad esempio), attirano più persone che navigano sul tuo sito (alcuni avranno installato la barra degli strumenti di Google in modo che il loro traffico possa funzionare verso il rilevamento di pagine) e, se possibile, fai parlare la tua attività nelle notizie o nelle community delle persone che ne hanno bisogno (se prevedi di addebitare determinati servizi, considera la pubblicità di un periodo di prova gratuito per attirare l'interesse).


3

Ci sono due possibili opzioni che conosco che potrebbero essere di aiuto.

Uno: un piccolo trucco che ho provato con un sito Web con tre milioni di pagine che ha funzionato sorprendentemente bene è stato ciò che il mio collega ha coniato un ciclo di scansione. Potrebbe essere necessario manipolare un po 'l'idea per adattarla al tuo sito.

Fondamentalmente abbiamo impostato un giorno in cui non pensavamo che avremmo ricevuto molto traffico (natale) e abbiamo letteralmente copiato un elenco di ogni singolo link sul nostro sito e incollato ognuno in un file php che è stato chiamato su ogni singola pagina web. (Il file php della barra laterale)

Abbiamo quindi proseguito per andare alla console di ricerca di google (precedentemente strumenti per i webmaster di google) e abbiamo detto a google di recuperare un url e eseguire la scansione di ogni singolo link su quella pagina url.

Dal momento che hai così tanti link e le pagine che contengono anche molti link, google fa un po 'di loop e scansiona il sito in modo molto più veloce. All'inizio ero scettico ma ha funzionato come un incantesimo.

Prima di farlo devi assicurarti di avere una configurazione del database estremamente efficiente e un server molto potente, altrimenti potrebbe sovraccaricare il server o danneggiare il tuo SEO a causa dei tempi di caricamento della pagina lenti.

Se questa non è un'opzione per te, puoi sempre guardare le API della console cloud di Google. Hanno un'API della console di ricerca in modo da poter scrivere uno script per aggiungere ogni pagina Web come istanza del proprio sito Web nella console di ricerca o per far sì che Google recuperi tutti i tuoi URL.

Le API possono complicarsi molto rapidamente ma sono uno strumento straordinario se usate correttamente.

In bocca al lupo!


1
Collegare le tue pagine insieme è un'ottima strategia per farle scansionare tutte. Molto meglio di provare a fare affidamento su una sitemap XML. Tuttavia, lascerei sempre quei collegamenti al posto piuttosto che solo il giorno di Natale. Non appena annulli i link, Google noterà i collegamenti persi delle pagine e smetterà di indicizzarli.
Stephen Ostermiller

2

Giocare al sistema non è mai una buona idea se gestisci un'azienda legittima che apprezza la sua reputazione online. Inoltre, se il tuo sito fornisce davvero valore, più è lungo (suppongo tu stia facendo una qualche forma di marketing?) Più accumuleranno backlink, quindi il tuo PR aumenterà e la tua velocità di scansione aumenterà.

Inoltre, se hai una buona struttura di link sul tuo sito (tutte le tue pagine sono rilevabili in un numero ragionevole di clic / link), devi solo inviare gli indici principali tramite sitemap. Una volta che tali pagine sono indicizzate da Google, verranno sottoposte a scansione da Google e Google indicizzerà il resto delle pagine da solo.


+1 RE: giocare al sistema - anche se penso che dovremmo notare che ci sono molte alternative ai giochi del sistema che consentono a un webmaster di generare backlink legittimi (che saranno utili ai visitatori) al suo sito.
danlefree l'

@danlefree: Sicuramente. Mi riferivo solo all'acquisto di nomi di dominio scaduti per ottenere il loro traffico / PR residuo. Ma se puoi pubblicizzare il tuo sito, inviare comunicati stampa a pubblicazioni commerciali, siti di recensioni di applicazioni, ecc., Questi sono ottimi modi per generare backlink legittimi.
Lèse majesté,

2

Una cosa che noto con gli strumenti per i webmaster di Google è che iniziano consentendo una velocità di scansione massima di circa due richieste al secondo. Quindi circa una settimana dopo, se scoprono che si accede spesso al sito Web, ti permetteranno di aumentare il limite.

Gestisco un sito Web che ospita oltre 500.000 immagini originali e, a volte, il mio limite massimo è di 10 richieste al secondo perché ricevo almeno da 700 a 1000 visite al giorno, se non di più.

Pertanto, ciò che potresti voler fare è verificare con gli strumenti per i webmaster ogni settimana per vedere se puoi aumentare il limite di scansione. Quando modifichi il limite di scansione, Google lo ripristinerà alle loro impostazioni preferite dopo che è trascorso un determinato giorno (che l'interfaccia ti mostrerà). Quindi quel giorno, aumenta di nuovo il limite.


2

Ho avuto esperienza di questo tipo di sito. Ho gestito una directory di articoli molti anni fa e la percentuale di pagine indicizzate e, soprattutto, le prestazioni effettive erano praticamente direttamente correlate al numero di domini di riferimento, ovvero al numero di siti Web unici collegati. Un grande sito con milioni di pagine ha bisogno di diverse 1.000 domini ragionevoli che si collegano per funzionare a pieno titolo.

Di sicuro non succederà dall'oggi al domani, ma costruisci 5-10 buoni collegamenti al giorno in cui inizierà a succedere, quindi sarai in grado di generare entrate e usarlo per pagare un vestito SEO professionale per costruire collegamenti per te.

Attualmente sto costruendo un sito ricco di informazioni simili, ai suoi primi tempi, ma ho lo stesso problema con circa 4 milioni di pagine di contenuti con una velocità di scansione di 700-1.000 pagine al giorno.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.