Perché scegliamo 44.1 kHz come frequenza di campionamento di registrazione?


21

Le orecchie delle persone possono sentire il suono le cui frequenze vanno da 20 Hz a 20 kHz. Basato sul teorema di Nyquist, la velocità di registrazione dovrebbe essere di almeno 40 kHz. È la ragione per scegliere 44.1 kHz?


4
È stato scelto per la compatibilità con i frame rate video. Vedi en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
endolith

Frequenze superiori a circa 12-15k aggiungono poco o nessun valore. La maggior parte delle persone con più di 40 anni avrà poco utile al di sopra di quel livello.
Chris Heath,

Risposte:


32

È vero che, come ogni convenzione, la scelta di 44.1 kHz è una specie di incidente storico. Ci sono alcune altre ragioni storiche.

Naturalmente, la frequenza di campionamento deve superare i 40 kHz se si desidera un audio di alta qualità con una larghezza di banda di 20 kHz.

Si è discusso di renderlo a 48.0 kHz (era ben congruente con 24 fotogrammi / secondo film e gli apparenti 30 fotogrammi / secondo nella TV nordamericana), ma data la dimensione fisica di 120 mm, c'era un limite a quanti dati il Il CD potrebbe contenere, e dato che era necessario uno schema di rilevamento e correzione degli errori e che richiede una certa ridondanza nei dati, la quantità di dati logici che il CD potrebbe archiviare (circa 700 MB) è circa la metà della quantità di dati fisici. Alla luce di tutto ciò, al ritmo di 48 kHz, ci è stato detto che non poteva contenere tutto il nono di Beethoven, ma che poteva contenere l'intero nono su un disco a un ritmo leggermente più lento. Quindi 48 kHz sono fuori.

Tuttavia, perché 44.1 e non 44.0 o 45.0 kHz o qualche bel numero di round?

Allora, alla fine degli anni '70, esisteva un prodotto chiamato Sony F1, progettato per registrare audio digitale su nastro video prontamente disponibile (Betamax, non VHS). Quello era a 44.1 kHz (o più precisamente 44.056 kHz). In questo modo sarebbe facile trasferire le registrazioni, senza ricampionamento e interpolazione, dalla F1 al CD o nella direzione opposta.

La mia comprensione di come ci arriva è che la velocità di scansione orizzontale della TV NTSC era di 15,750 kHz e 44,1 kHz è esattamente 2,8 volte quella. Non sono del tutto sicuro, ma credo che ciò significhi che puoi avere tre coppie di campioni stereo per linea orizzontale, e per ogni 5 linee, dove normalmente avresti 15 campioni, ci sono 14 campioni più un campione aggiuntivo per alcuni controllo di parità o ridondanza in F1. 14 campioni per 5 linee equivalgono a 2,8 campioni per linea orizzontale e con 15.750 linee al secondo, che risulta essere 44.100 campioni al secondo.

Ora, da quando è stata introdotta la TV a colori, hanno dovuto ridurre leggermente la velocità della linea orizzontale a 15734 linee al secondo. Tale regolazione porta a 44.056 campioni al secondo nella Sony F1.


8

Guarda ad esempio http://www1.cs.columbia.edu/~hgs/audio/44.1.html . È necessario utilizzare una frequenza di campionamento superiore a 40 kHz a causa dei filtri anti-aliasing. Dovresti avere un po 'di riserva in frequenza per prevenire la distorsione del segnale dovuta alla pendenza di risposta del filtro. Il valore effettivo di 44,1 kHz è stato suggerito da Sony corp quando lo standard di registrazione audio era in discussione nel 1979. Hanno usato questa frequenza ampiamente per quel momento.

Quindi è generalmente una ragione storica.


6

Nel passaggio ai formati digitali, l'audio veniva archiviato in una forma d'onda pseudo-video che poteva essere vista in bianco o nero (che rappresenta il formato binario).

La frequenza di campo e la struttura utilizzate dallo standard televisivo sono le seguenti per i video a 60 Hz: 245 linee per campo (escluse le prime 35 linee cancellate). Con tre campioni per riga che produce 60 x 245 x 3 = 44100 = 44,1 KHz.

Questa convenzione è stata successivamente utilizzata per il formato CD, a causa di problemi di compatibilità delle apparecchiature (la prima apparecchiatura utilizzata per produrre master CD utilizzati per la replica di CD era basata su video).

Fonte: The Art of Sound Reproduction, p. 228


se questo è ciò che fa la F1, devo dire "sto corretto". supponevo che la F1 stesse usando le righe vuote.
Robert Bristow-Johnson,

ciao, ho appena letto che "la codifica a colori NTSC viene utilizzata con il segnale televisivo System M, che consiste in 30 / 1.001 (circa 29,97) fotogrammi di video interlacciati al secondo. Ogni fotogramma è composto da due campi, ciascuno composto da 262,5 linee di scansione, per un totale di 525 linee di scansione. 483 linee di scansione compongono il raster visibile. Il resto (l'intervallo di soppressione verticale) consente la sincronizzazione verticale e la traccia. "
così anche 490 linee usano alcune delle righe vuote (originali NTSC).
robert bristow-johnson,

0

Sembra che il limite di ascolto per gli umani potrebbe essere molto più alto di 20kHz se guardato da una prospettiva di risoluzione temporale "dinamica" piuttosto che dalle tipiche onde sinusoidali statiche. Interessanti anche i commenti sul margine tra 20kHz e 22 kHz per il filtro di ricostruzione. In realtà c'è stato un lavoro molto interessante di Peter Craven sul filtro ottimizzato nel dominio del tempo che sostiene almeno 96kHz per la riproduzione hi-fi.

Pawel


bene, c'è un modo per scoprirlo. si chiama Blind AB Testing . non è necessario essere Double-Blind (ma normalmente lo è). e il test AB è migliore del test ABX secondo me.
robert bristow-johnson,

0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Il teorema di campionamento di Nyquist-Shannon afferma che la frequenza di campionamento deve essere maggiore del doppio della frequenza massima che si desidera riprodurre. Poiché l'intervallo dell'udito umano è compreso tra circa 20 Hz e 20.000 Hz, la frequenza di campionamento doveva essere superiore a 40 kHz.

Inoltre, i segnali devono essere filtrati passa-basso prima del campionamento per evitare l'aliasing. Mentre un filtro passa basso ideale passerebbe perfettamente frequenze inferiori a 20 kHz (senza attenuarle) e taglierebbe perfettamente le frequenze sopra 20 kHz, tale filtro ideale è teoricamente impossibile (è non causale), quindi in pratica è necessaria una banda di transizione, dove le frequenze sono parzialmente attenuate. Più ampia è questa banda di transizione, più facile ed economico è realizzare un filtro anti-aliasing. La frequenza di campionamento di 44,1 kHz consente una banda di transizione di 2,05 kHz.

Inoltre, 44.100 è il prodotto dei quadrati dei primi quattro numeri primi (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) e quindi ha molti piccoli fattori utili.


quindi se cambiamo il nostro tempo unitario dal secondo al "farg" , che è 1.001 di secondo, che cosa fa questo al 44100 e ai suoi molti piccoli fattori utili?
robert bristow-johnson,

-2

Cerca [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone per la descrizione. Un teorema chiamato teorema di campionamento di Nyquist afferma che per campionare un segnale di X Hz senza una significativa perdita di qualità, è necessario campionare a 2 volte la frequenza. Il limite dell'udito umano è di circa 20 kHz, che quindi richiede una frequenza di campionamento di circa 40 KHz. Ecco perché i CD vengono campionati a 44Khz. cioè ogni secondo di registrazione su un CD contiene 44.000 misurazioni della più alta frequenza possibile contenuta nella registrazione.


Beh, non proprio per quello ...
Jojek

In parte è per questo. è raro che un essere umano ascolti oltre i 20k, quindi una gamma di audiofili è ragionevolmente leggermente superiore ai 40kHz, ovvero 42, 43, 44. se fai esplodere qualcuno con enormi onde sinusoidali a 22k, solo un bambino ha la possibilità di ascoltarlo. i pipistrelli sono 115kHz e alcuni delfini sono a 150kHz, tranne che in acqua, che suona più chiaro. Metti alla prova la tua percezione delle alte frequenze online con le registrazioni ... ad esempio qui audiocheck.net/audiotests_frequencycheckhigh.php
com.prehensible
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.