Quali tecnologie di database utilizzano i grandi motori di ricerca? [chiuso]

32

Qualcuno sa come Google o Yahoo eseguono ricerche di parole chiave rispetto a quantità molto enormi di dati? Che tipo di database o tecnologie impiegano per questo?

Ci vogliono pochi millisecondi, ma hanno più di un miliardo di pagine indicizzate.

database-design full-text-search

— rkosegi
fonte

C'è una domanda simile su Stack Overflow: stackoverflow.com/questions/362956/…

— splattne

21

Sono sicuro che c'è una combinazione di cose:

hardware serio
molti di essi: i dati vengono distribuiti e replicati su molti nodi e diversi data center
- (in realtà nel caso di Google almeno credo che abbiano migliaia e migliaia di server davvero di fascia bassa)
molti dei risultati delle query comuni sono memorizzati nella cache, si noti come prepopolano potenziali ricerche di cose che si sa di non aver mai cercato prima; stanno predicendo ciò che potresti cercare e sperando di avere già il tuo risultato pre-calcolato e memorizzato nella cache da qualche parte. In molti casi lo fanno - non ci sono molte ricerche che potresti trovare su Google oggi che non sono state chieste da qualcuno prima di te. Quando ottengono una nuova frase di ricerca, probabilmente usano qualcosa come la ricerca a testo libero e mi aspetto che le parole chiave vengano estratte semanticamente quando una pagina viene sottoposta a scansione per la prima volta anziché cercare di trovare parole chiave nel documento dopo averle cercate . Ovviamente devono invalidare periodicamente quelle cache, ricalcolare il ranking delle pagine,

— Aaron Bertrand
fonte

34

Piccioni .

Il cuore della tecnologia di ricerca di Google è PigeonRank ™ , un sistema di classificazione delle pagine Web sviluppato dai fondatori di Google Larry Page e Sergey Brin presso la Stanford University:

inserisci qui la descrizione dell'immagine

Basandosi sul lavoro rivoluzionario di BF Skinner, Page e Brin hanno ragionato sul fatto che i cluster di piccioni (PC) a basso costo potrebbero essere utilizzati per calcolare il valore relativo delle pagine Web più velocemente rispetto agli editor umani o agli algoritmi basati su macchine. E mentre Google ha dozzine di ingegneri che lavorano quotidianamente per migliorare ogni aspetto del nostro servizio, PigeonRank continua a fornire le basi per tutti i nostri strumenti di ricerca web.

Perché PigeonRank ™ di Google brevettato funziona così bene

Il successo di PigeonRank si basa principalmente sulla trainabilità superiore del piccione domestico (Columba livia) e sulla sua capacità unica di riconoscere gli oggetti indipendentemente dall'orientamento spaziale. Il comune piccione grigio può facilmente distinguere tra gli elementi che mostrano solo le minime differenze, un'abilità che gli consente di selezionare siti Web pertinenti tra migliaia di pagine simili.

Raccogliendo stormi di piccioni in densi ammassi, Google è in grado di elaborare query di ricerca a velocità superiori ai motori di ricerca tradizionali, che in genere si basano su rapaci, galline che rimuginano o uccelli acquatici a movimento lento per fare le loro classifiche di pertinenza.

Quando una query di ricerca viene inviata a Google, viene indirizzata a una cooperativa di dati in cui i monitor visualizzano le pagine dei risultati a velocità incredibile . Quando un risultato rilevante viene osservato da uno dei piccioni nel cluster, colpisce una barra d'acciaio rivestita di gomma con il suo becco, che assegna alla pagina un valore PigeonRank di uno. Per ogni puntata , PigeonRank aumenta . Le pagine che ricevono il maggior numero di puntate vengono restituite nella parte superiore della pagina dei risultati dell'utente con gli altri risultati visualizzati in ordine di beccata.

— ypercubeᵀᴹ
fonte

6

Nota: questa pagina è stata pubblicata per il primo di aprile - 2002

— dr jimbob,

19

È importante tenere a mente un paio di cose su google:

Il loro DB è la BigTable proprietaria , progettata su misura da GOOGLE per soddisfare esattamente le loro esigenze
Il loro DB proprietario è costruito sopra il loro file system proprietario - Google File System - questo è stato progettato, sempre da GOOGLE , per essere facilmente espandibile usando l'hardware comune delle materie prime. Come ha detto Aaron nella sua risposta, hanno un gran numero di server medi invece di un piccolo numero di server molto potenti.

Memorizzano singole tabelle su più macchine come un modo per rendere più rapido l'accesso: il loro software sa quali dati sono su quale macchina e invece di schiacciare un disco per localizzarlo può andare direttamente al server con le informazioni pertinenti.

— JNK
fonte

11

Google non utilizza la tradizionale tecnologia di database relazionale. Ha sviluppato una propria tecnologia, un grande tavolo e una mappa ridotta. I documenti di ricerca originali sono qui: Big Table e Map / Reduce . Interessante anche la tabella delle stringhe SSTable, ordinata .

Una tecnologia simile è ora utilizzata in hadoop e nei database NoSQL .

— Nim Chimpsky
fonte

9

Leggi " In The Plex: come Google pensa, lavora e modella le nostre vite " di Steven Levy . Questo libro è una lettura affascinante di tutto ciò che Google discute ad alto livello della tecnologia e dell'ingegneria alla base della ricerca. Aaron lo riassume molto bene nella sua risposta e il libro di Levy ti darà qualche dettaglio in più su come lo fanno.

— Todd Everett
fonte