1388

Quale algoritmo di hashing è il migliore per unicità e velocità? Esempi (buoni) usi includono dizionari hash.

So che ci sono cose come SHA-256 e simili, ma questi algoritmi sono progettati per essere sicuri , il che di solito significa che sono più lenti degli algoritmi che sono meno unici . Voglio un algoritmo di hash progettato per essere veloce, ma rimanere abbastanza unico per evitare collisioni.

algorithms hashing

— Earlz
fonte

9

Per quale scopo, sicurezza o altro?

— Orbling del

19

@Orbling, per l'implementazione di un dizionario hash. Quindi le collisioni dovrebbero essere ridotte al minimo, ma non ha alcuno scopo di sicurezza.

— Earlz,

4

Nota che dovrai aspettarti almeno alcune collisioni nella tua tabella hash, altrimenti la tabella dovrà essere enorme per essere in grado di gestire anche un numero relativamente piccolo di chiavi ...

— Dean Harding,

19

Ottimo post! Potresti anche controllare xxHash di Yann Collet (creatore o LZ4), che è due volte più veloce di Murmur? Pagina iniziale: code.google.com/p/xxhash Ulteriori informazioni: fastcompression.blogspot.fr/2012/04/…

24

@zvrba Dipende dall'algoritmo. bcrypt è progettato per essere lento.

— Izkata,

2461

Ho testato alcuni algoritmi diversi, misurando la velocità e il numero di collisioni.

Ho usato tre diversi set di chiavi:

Un elenco di 216.553 parole inglesi (in minuscolo)
I numeri "1"per "216553"(pensa ai codici postali e come un hash scadente ha rimosso msn.com )
216.553 GUID "casuali" (ovvero uuid di tipo 4 )

Per ciascun corpus, è stato registrato il numero di collisioni e il tempo medio impiegato per l'hash.

Ho testato:

DJB2
DJB2a (variante usando xoranziché +)
FNV-1 (32 bit)
FNV-1a (32 bit)
SDBM
CRC32
Murmur2 (32 bit)
SuperFastHash

risultati

Ogni risultato contiene il tempo di hash medio e il numero di collisioni

Hash           Lowercase      Random UUID  Numbers
=============  =============  ===========  ==============
Murmur            145 ns      259 ns          92 ns
                    6 collis    5 collis       0 collis
FNV-1a            152 ns      504 ns          86 ns
                    4 collis    4 collis       0 collis
FNV-1             184 ns      730 ns          92 ns
                    1 collis    5 collis       0 collis▪
DBJ2a             158 ns      443 ns          91 ns
                    5 collis    6 collis       0 collis▪▪▪
DJB2              156 ns      437 ns          93 ns
                    7 collis    6 collis       0 collis▪▪▪
SDBM              148 ns      484 ns          90 ns
                    4 collis    6 collis       0 collis**
SuperFastHash     164 ns      344 ns         118 ns
                   85 collis    4 collis   18742 collis
CRC32             250 ns      946 ns         130 ns
                    2 collis    0 collis       0 collis
LoseLose          338 ns        -             -
               215178 collis

Note :

L' algoritmo LoseLose (dove hash = hash + carattere) è davvero orribile . Tutto si scontra negli stessi 1.375 secchi
SuperFastHash è veloce, con cose che sembrano piuttosto sparse; per mia bontà il numero di collisioni. Spero che il tizio che l'ha portato abbia sbagliato qualcosa; è piuttosto male
CRC32 è abbastanza buono . Più lento e una tabella di ricerca 1k

Le collisioni avvengono effettivamente?

Sì. Ho iniziato a scrivere il mio programma di test per vedere se si verificano effettivamente collisioni di hash e non sono solo un costrutto teorico. Succedono davvero:

Collisioni FNV-1

creamwove si scontra con quists

Collisioni FNV-1a

costarring si scontra con liquid
declinate si scontra con macallums
altarage si scontra con zinke
altarages si scontra con zinkes

Collisioni Murmur2

cataract si scontra con periti
roquette si scontra con skivie
shawl si scontra con stormbound
dowlases si scontra con tramontane
cricketings si scontra con twanger
longans si scontra con whigs

Collisioni DJB2

hetairas si scontra con mentioner
heliotropes si scontra con neurospora
depravement si scontra con serafins
stylist si scontra con subgenera
joyful si scontra con synaphea
redescribed si scontra con urites
dram si scontra con vivency

Collisioni DJB2a

haggadot si scontra con loathsomenesses
adorablenesses si scontra con rentability
playwright si scontra con snush
playwrighting si scontra con snushing
treponematoses si scontra con waterbeds

Collisioni CRC32

codding si scontra con gnu
exhibiters si scontra con schlager

Collisioni SuperFastHash

dahabiah si scontra con drapability
encharm si scontra con enclave
grahams si scontra con gramary
... taglia 79 collisioni ...
night si scontra con vigil
nights si scontra con vigils
finks si scontra con vinic

Randomnessification

L'altra misura soggettiva è la distribuzione casuale degli hash. La mappatura delle tabelle hash risultanti mostra la distribuzione uniforme dei dati. Tutte le funzioni hash mostrano una buona distribuzione quando si mappa la tabella in modo lineare: