Qualcuno sa come Google o Yahoo eseguono ricerche di parole chiave rispetto a quantità molto enormi di dati? Che tipo di database o tecnologie impiegano per questo?
Ci vogliono pochi millisecondi, ma hanno più di un miliardo di pagine indicizzate.
Qualcuno sa come Google o Yahoo eseguono ricerche di parole chiave rispetto a quantità molto enormi di dati? Che tipo di database o tecnologie impiegano per questo?
Ci vogliono pochi millisecondi, ma hanno più di un miliardo di pagine indicizzate.
Risposte:
Sono sicuro che c'è una combinazione di cose:
molti di essi: i dati vengono distribuiti e replicati su molti nodi e diversi data center
Piccioni .
Il cuore della tecnologia di ricerca di Google è PigeonRank ™ , un sistema di classificazione delle pagine Web sviluppato dai fondatori di Google Larry Page e Sergey Brin presso la Stanford University:
Basandosi sul lavoro rivoluzionario di BF Skinner, Page e Brin hanno ragionato sul fatto che i cluster di piccioni (PC) a basso costo potrebbero essere utilizzati per calcolare il valore relativo delle pagine Web più velocemente rispetto agli editor umani o agli algoritmi basati su macchine. E mentre Google ha dozzine di ingegneri che lavorano quotidianamente per migliorare ogni aspetto del nostro servizio, PigeonRank continua a fornire le basi per tutti i nostri strumenti di ricerca web.
Perché PigeonRank ™ di Google brevettato funziona così bene
Il successo di PigeonRank si basa principalmente sulla trainabilità superiore del piccione domestico (Columba livia) e sulla sua capacità unica di riconoscere gli oggetti indipendentemente dall'orientamento spaziale. Il comune piccione grigio può facilmente distinguere tra gli elementi che mostrano solo le minime differenze, un'abilità che gli consente di selezionare siti Web pertinenti tra migliaia di pagine simili.
Raccogliendo stormi di piccioni in densi ammassi, Google è in grado di elaborare query di ricerca a velocità superiori ai motori di ricerca tradizionali, che in genere si basano su rapaci, galline che rimuginano o uccelli acquatici a movimento lento per fare le loro classifiche di pertinenza.
Quando una query di ricerca viene inviata a Google, viene indirizzata a una cooperativa di dati in cui i monitor visualizzano le pagine dei risultati a velocità incredibile . Quando un risultato rilevante viene osservato da uno dei piccioni nel cluster, colpisce una barra d'acciaio rivestita di gomma con il suo becco, che assegna alla pagina un valore PigeonRank di uno. Per ogni puntata , PigeonRank aumenta . Le pagine che ricevono il maggior numero di puntate vengono restituite nella parte superiore della pagina dei risultati dell'utente con gli altri risultati visualizzati in ordine di beccata.
È importante tenere a mente un paio di cose su google:
Il loro DB è la BigTable proprietaria , progettata su misura da GOOGLE per soddisfare esattamente le loro esigenze
Il loro DB proprietario è costruito sopra il loro file system proprietario - Google File System - questo è stato progettato, sempre da GOOGLE , per essere facilmente espandibile usando l'hardware comune delle materie prime. Come ha detto Aaron nella sua risposta, hanno un gran numero di server medi invece di un piccolo numero di server molto potenti.
Memorizzano singole tabelle su più macchine come un modo per rendere più rapido l'accesso: il loro software sa quali dati sono su quale macchina e invece di schiacciare un disco per localizzarlo può andare direttamente al server con le informazioni pertinenti.
Google non utilizza la tradizionale tecnologia di database relazionale. Ha sviluppato una propria tecnologia, un grande tavolo e una mappa ridotta. I documenti di ricerca originali sono qui: Big Table e Map / Reduce . Interessante anche la tabella delle stringhe SSTable, ordinata .
Una tecnologia simile è ora utilizzata in hadoop e nei database NoSQL .
Leggi " In The Plex: come Google pensa, lavora e modella le nostre vite " di Steven Levy . Questo libro è una lettura affascinante di tutto ciò che Google discute ad alto livello della tecnologia e dell'ingegneria alla base della ricerca. Aaron lo riassume molto bene nella sua risposta e il libro di Levy ti darà qualche dettaglio in più su come lo fanno.