Se gli umani possono ascoltare solo suoni con frequenza fino a 20 kHz, perché l'audio della musica viene campionato a 44,1 kHz?


60

Ho letto in alcuni punti che la musica è per lo più campionata a 44,1 kHz mentre possiamo ascoltare solo fino a 20 kHz. Perché è?


1
I giovani possono ascoltare frequenze più alte. Altre tecniche di registrazione utilizzano fino a 48 kHz.
Thorbjørn Ravn Andersen,

15
Teorema di Nyquist: hai bisogno di due campioni per ogni swing per dire la frequenza di un'onda.
matematico

Poiché i processori sono più veloci, la memoria è economica, ma i buoni filtri analogici sono ancora difficili, anche le frequenze di campionamento anche più elevate possono avere un senso (96 o 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen Penso che 48 kHz sia comune perché è divisibile in 24, 25 e 30 fps utilizzati nella produzione video. 24 non va uniformemente nel 44100. Questo è ciò che cita Wikipedia.
Nick T

4
@SohamDe Questo perché se si campiona un segnale audio da 20 kHz esattamente a 20 kHz, non si udirebbe nulla . Immaginalo, un'onda sinusoidale che raggiunge il picco ogni 1 / 20.000 di secondo. Bene, se lo campionate alla stessa identica frequenza, campionereste solo i picchi (o nodi, o qualunque sia il livello in cui vi capita di campionarlo). Quindi, quando si ricrea il segnale dal digitale, tutto ciò che si ottiene è una linea piatta. Questo concetto si chiama aliasing e lo rende in modo che sia necessario campionare almeno il doppio della frequenza massima che si desidera poter ascoltare. 44 100 Hz è conveniente perché è divisibile per una potenza di 2.
MichaelK

Risposte:


89
  1. La frequenza di campionamento di un segnale reale deve essere maggiore del doppio della larghezza di banda del segnale. L'audio inizia praticamente a 0 Hz, quindi la frequenza più alta presente nell'audio registrato a 44,1 kHz è 22,05 kHz (larghezza di banda 22,05 kHz).
  2. I filtri per brickwall perfetti sono matematicamente impossibili, quindi non possiamo semplicemente tagliare perfettamente le frequenze sopra i 20 kHz. L'ulteriore 2 kHz è per il roll-off dei filtri; è "spazio di manovra" in cui l'audio può essere alias a causa di filtri imperfetti, ma non riusciamo a sentirlo.
  3. Il valore specifico di 44,1 kHz era compatibile con i frame rate video PAL e NTSC utilizzati all'epoca.

Si noti che la logica è pubblicata in molti luoghi: Wikipedia: perché 44,1 kHz?


9
Ciao, sono davvero d'accordo con la tua risposta, ma la cosa "... due volte la più alta frequenza" morde molto presto i principianti, perché Nyquist riguarda la larghezza di banda, non la frequenza più alta; Sono andato avanti e ho leggermente modificato la tua risposta. Si prega di verificare se va bene con te.
Marcus Müller,

2
@Ruslan: Wikipedia è abbastanza brava a riguardo.
jojek

2
@BrianDrummond Quindi modificarlo?
endolith

3
@MarcusMüller il principiante che viene morso da "Nyqvist è la massima frequenza consentita" verrà comunque morso, aliasando gli artefatti ... Successivamente, capiranno anche come qualsiasi intervallo di frequenze della larghezza di banda viene demodulato in uno tra e . 0Δf0Δf=fs/2
circa il

1
Uno potrebbe non essere in grado di dire la differenza tra un suono di 19.999,9 Hz con dieci armoniche o un suono di 20.000,1 Hz con nove se si sentissero separatamente, ma ciò non significa che una transizione tra i due non sarebbe udibile. Avere un filtro con un taglio più graduale eviterebbe tali problemi.
supercat

72

44.100 è stato scelto da Sony perché è il prodotto dei quadrati dei primi quattro numeri primi. Questo lo rende divisibile per molti altri numeri interi , che è una proprietà utile nel campionamento digitale.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Come hai notato, 44100 è anche appena al di sopra del limite dell'udito umano raddoppiato. La parte appena sopra offre ai filtri un certo margine di manovra, rendendoli quindi meno costosi (meno chip scartati).

Come Russell sottolinea nei commenti, il divisibile per molti altri numeri interi ha avuto un beneficio immediato al momento della scelta della frequenza di campionamento. I primi audio digitali sono stati registrati su supporti di registrazione video analogici esistenti che supportavano, a seconda della regione, le specifiche video NTSC o PAL . NTSC e PAL avevano tassi di linee per campo e campi al secondo diversi, il cui LCM (insieme ai campioni per linea) è 44100 .


12
La scelta non era semplicemente quella di ottenere molti fattori primi, ma in particolare di fare buon uso delle apparecchiature di registrazione video NTSC e PAL per archiviare master digitali. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove

3
@RussellBorogove: grazie. Secondo il collegamento Wiki, 44100 è l'LCM delle frequenze di campionamento delle frequenze delle funzioni video NTSC e PAL . Questa è una conseguenza abbastanza diretta dell'essere un numero con così tanti fattori, e credo che tu abbia ragione che il cavallo ha guidato il carrello su questa specifica.
dotancohen

1
Divisibile per molti numeri, ma non per 8 :)
Bogdan Alexandru,

(Wikipedia afferma che una varietà di tassi da 40,5 a 46,8 kHz avrebbe soddisfatto questi criteri e 44,1 kHz è stato scelto per fornire una banda di transizione per il filtro antiliasing)
endolith

2
@BogdanAlexandru Inoltre non divisibile per 1 ms Frame USB: D
endolith

13

La frequenza di Nyquist è superiore al doppio del limite di banda di un segnale in banda base che si desidera acquisire senza ambiguità (ad es. Aliasing).

Effettua il campionamento a una frequenza inferiore rispetto al doppio di 20kHz e non sarai in grado di distinguere tra frequenze molto alte e molto basse solo osservando i campioni, a causa dell'aliasing.

Aggiunto: si noti che qualsiasi segnale a lunghezza finita ha un supporto infinito nel dominio della frequenza, quindi non è strettamente limitato. Questo è un altro motivo per cui è necessario campionare qualsiasi sorgente audio non infinita un po 'al di sopra del doppio degli spettri di frequenza più alta (in un segnale in banda base) per evitare un aliasing significativo (al di là delle ragioni del roll-off di transizione del filtro finito).


Ciao, sono davvero d'accordo con la tua risposta, ma la cosa "... due volte la più alta frequenza" morde molto presto i principianti, perché Nyquist riguarda la larghezza di banda, non la frequenza più alta; Sono andato avanti e ho leggermente modificato la tua risposta. Si prega di verificare se va bene con te.
Marcus Müller,

6
@ MarcusMüller, poiché i "principianti" del campionamento iniziano con i segnali di campionamento della banda di base e non i segnali di banda passante, si tratta in realtà della frequenza più alta (a volte chiamata "bandlimit") e non della larghezza di banda (che ha un'ulteriore ambiguità rispetto a un lato o a due lati larghezza di banda).
robert bristow-johnson

@ robertbristow-johnson non hanno guardato a quell'ambiguità. hm; Mi piace l'approccio bandlimit!
Marcus Müller,

3
BfS2B±BBfS>2B

10

2×20=40

Ciò di cui hai bisogno in teoria non è ciò che è richiesto in pratica. Questo segue la citazione (attribuita a molti):

In teoria non c'è differenza tra teoria e pratica. In pratica c'è.

Non sono un esperto di audio, ma sono stato addestrato da persone di campionamento / compressione audio di alta qualità. La mia conoscenza potrebbe essere arrugginita, prenderla con cautela.

In primo luogo, la teoria del campionamento standard funziona con alcuni presupposti: sistemi lineari e invarianza temporale. Quindi, in teoria, è noto che un fenomeno di bandlimited continuo può essere campionato a circa il doppio della larghezza di banda (o il doppio della frequenza massima per i segnali in banda base) senza perdita. Il "tasso di Nyquist" è spesso definito come:

la frequenza minima alla quale un segnale può essere campionato senza introdurre errori

Questa è la parte di analisi del "teorema del campionamento". Il "può essere" è importante. C'è una parte di sintesi: il segnale continuo " può essere ricostruito" analogamente usando i cardinali. Questa non è l'unica tecnica e non tiene conto del prefiltro passa-basso, non lineare (come quantizzazione, saturazione) e altri fattori di variazione del tempo.

L'udito umano non è un argomento semplice. È accettato che gli umani sentano frequenze da 20 Hz a 20.000 Hz. Ma limiti così precisi in Hertz non sono una caratteristica della natura per tutti gli umani. Una graduale perdita di sensibilità alle frequenze più alte è frequente con l'età. Dall'altro lato:

In condizioni ideali di laboratorio, gli esseri umani possono sentire suoni a partire da 12 Hz e fino a 28 kHz, sebbene la soglia aumenti drasticamente a 15 kHz negli adulti

L'udito non è lineare: ci sono soglie di audizione e sofferenza . Non è invariante nel tempo. Ci sono effetti di mascheramento sia nel tempo che nella frequenza.

2.2×22×32×52×72

2×2044.1

Esistono altre opzioni: il formato DAT, ad esempio, è stato rilasciato con campionamento a 48 kHz, con una conversione inizialmente difficile. 96 kHz è discusso rispetto alla quantizzazione (o profondità di bit) in Quale frequenza di campionamento e profondità di bit dovrei usare? Questo è un argomento controverso, vedi 24 bit 48kHz contro 24 bit 96kHz . Ad esempio, puoi controllare le frequenze di campionamento di Audacity .


2
1. La risposta alla domanda è che il teorema di Nyquist detta> 40kHz, non> 20kHz. 2. Né l'udito umano né il formato CD sono limitati a 20Hz nella fascia bassa. Qualsiasi organo a canne abbastanza grande può produrre un tono a 16Hz e il CD può riprodurlo facilmente. Alcuni organi scendono a 8Hz, che inizia a essere percepito come vibrazioni individuali, ma che può essere riprodotto anche da un CD.
user207421

Sono d'accordo con il tuo commento, ad eccezione di "dettami" (questa è una condizione "if"). Potresti indicare dove mi sono discostato?
Laurent Duval,

1
Ho solo un supplemento alla risposta di @LaurentDuval. Discorso, musica e suono in generale sono segnali non stazionari. Sebbene questi siano effettivamente limitati dalla banda, ma non sappiamo ancora come l'orecchio umano stia trasducendo il segnale del tempo continuo verso i nervi che facilitano la nostra percezione del suono. Si sostiene spesso che alcune persone abbiano "orecchie d'oro" e possano distinguere tra registrazioni a 44,1 kHz e 96 kHz. Inoltre, devo ancora confermare quanto segue, sembra che frequenze di campionamento più elevate favoriscano la percezione di segnali aggiuntivi, come la localizzazione in registrazioni binaurali.
Neeks

0

Perché è esattamente 44,1 kHz è già stata data risposta - ma per concentrarsi sull'aspetto della tua domanda relativa al limite della percezione umana, la ragione è abbastanza semplice.

La risoluzione nel tempo deve essere abbastanza buona da essere in grado di generare tutte le possibili forme d'onda fino al limite percepibile. Secondo il teorema del campionamento , la risoluzione deve essere tale che la frequenza di campionamento sia almeno il doppio di questa frequenza. Intuitivamente, alla massima frequenza, sono necessari almeno 2 punti per rappresentare il massimo e il minimo del segnale, dando a questa onda quadra Ascii-art:

_   _
 |_| |_

-1

Al fine di riprodurre fedelmente un segnale, più veloce è la frequenza di campionamento, meglio è. È stato scelto ~ 40 kHz, perché era una bassa frequenza di campionamento per cui la maggior parte delle persone non è in grado di dire la differenza (quando ricostruita). Quando fu introdotto il campionamento audio, la memoria e l'archiviazione erano costose e frequenze di campionamento più elevate non erano possibili a buon mercato.

Al doppio del limite superiore dell'udito umano due campioni per ciclo è una ricostruzione molto scadente, anche se soddisfa i criteri di Nyquist per i segnali di campionamento, un semplice grafico che rappresenta un'onda sinusoidale con due campioni per ciclo mostrerà quanto sono poveri due campioni per ciclo nel riprodurre una forma d'onda. Puoi letteralmente trasformare un'onda sinusoidale in onda quadra; è una buona cosa a 20 kHz nessuno può dirlo. Scommetto che un cane potrebbe però.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.