Quali tecnologie di database utilizzano i grandi motori di ricerca? [chiuso]


Risposte:


21

Sono sicuro che c'è una combinazione di cose:

  • hardware serio
  • molti di essi: i dati vengono distribuiti e replicati su molti nodi e diversi data center

    • (in realtà nel caso di Google almeno credo che abbiano migliaia e migliaia di server davvero di fascia bassa)
  • molti dei risultati delle query comuni sono memorizzati nella cache, si noti come prepopolano potenziali ricerche di cose che si sa di non aver mai cercato prima; stanno predicendo ciò che potresti cercare e sperando di avere già il tuo risultato pre-calcolato e memorizzato nella cache da qualche parte. In molti casi lo fanno - non ci sono molte ricerche che potresti trovare su Google oggi che non sono state chieste da qualcuno prima di te. Quando ottengono una nuova frase di ricerca, probabilmente usano qualcosa come la ricerca a testo libero e mi aspetto che le parole chiave vengano estratte semanticamente quando una pagina viene sottoposta a scansione per la prima volta anziché cercare di trovare parole chiave nel documento dopo averle cercate . Ovviamente devono invalidare periodicamente quelle cache, ricalcolare il ranking delle pagine,

34

Piccioni .

Il cuore della tecnologia di ricerca di Google è PigeonRank ™ , un sistema di classificazione delle pagine Web sviluppato dai fondatori di Google Larry Page e Sergey Brin presso la Stanford University:

inserisci qui la descrizione dell'immagine

Basandosi sul lavoro rivoluzionario di BF Skinner, Page e Brin hanno ragionato sul fatto che i cluster di piccioni (PC) a basso costo potrebbero essere utilizzati per calcolare il valore relativo delle pagine Web più velocemente rispetto agli editor umani o agli algoritmi basati su macchine. E mentre Google ha dozzine di ingegneri che lavorano quotidianamente per migliorare ogni aspetto del nostro servizio, PigeonRank continua a fornire le basi per tutti i nostri strumenti di ricerca web.

Perché PigeonRank ™ di Google brevettato funziona così bene

Il successo di PigeonRank si basa principalmente sulla trainabilità superiore del piccione domestico (Columba livia) e sulla sua capacità unica di riconoscere gli oggetti indipendentemente dall'orientamento spaziale. Il comune piccione grigio può facilmente distinguere tra gli elementi che mostrano solo le minime differenze, un'abilità che gli consente di selezionare siti Web pertinenti tra migliaia di pagine simili.

Raccogliendo stormi di piccioni in densi ammassi, Google è in grado di elaborare query di ricerca a velocità superiori ai motori di ricerca tradizionali, che in genere si basano su rapaci, galline che rimuginano o uccelli acquatici a movimento lento per fare le loro classifiche di pertinenza.

Quando una query di ricerca viene inviata a Google, viene indirizzata a una cooperativa di dati in cui i monitor visualizzano le pagine dei risultati a velocità incredibile . Quando un risultato rilevante viene osservato da uno dei piccioni nel cluster, colpisce una barra d'acciaio rivestita di gomma con il suo becco, che assegna alla pagina un valore PigeonRank di uno. Per ogni puntata , PigeonRank aumenta . Le pagine che ricevono il maggior numero di puntate vengono restituite nella parte superiore della pagina dei risultati dell'utente con gli altri risultati visualizzati in ordine di beccata.


6
Nota: questa pagina è stata pubblicata per il primo di aprile - 2002
dr jimbob,

19

È importante tenere a mente un paio di cose su google:

  • Il loro DB è la BigTable proprietaria , progettata su misura da GOOGLE per soddisfare esattamente le loro esigenze

  • Il loro DB proprietario è costruito sopra il loro file system proprietario - Google File System - questo è stato progettato, sempre da GOOGLE , per essere facilmente espandibile usando l'hardware comune delle materie prime. Come ha detto Aaron nella sua risposta, hanno un gran numero di server medi invece di un piccolo numero di server molto potenti.

Memorizzano singole tabelle su più macchine come un modo per rendere più rapido l'accesso: il loro software sa quali dati sono su quale macchina e invece di schiacciare un disco per localizzarlo può andare direttamente al server con le informazioni pertinenti.



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.