Ci sono vantaggi matematici per frequenze di campionamento più elevate?


18

Dato che la maggior parte delle persone non può comunque ascoltare così tante frequenze sopra i 20kHz, non ho mai capito gli argomenti esatti per l'utilizzo di frequenze di campionamento superiori a 48kHz. A 48kHz, capisco che è più semplice costruire un filtro passa-basso con un po 'di larghezza di banda maggiore per rimuovere l'aliasing, ma non capisco perché qualcuno voglia registrare a 96kHz.

Per i progetti che sono strettamente digitali, ovvero che usano la pura sintesi digitale e non registrano alcun materiale che verrebbe convertito da analogico -> digitale, c'è qualche vantaggio nell'utilizzare frequenze di campionamento superiori a 44,1 kHz?

Per tutto il resto, c'è qualche vantaggio nell'usare 96kHz? È utile in seguito applicare un particolare tipo di operazione DSP? O è puramente un effetto placebo per l'orecchio?

Nota: ci sono altre domande qui che chiedono quali frequenze di campionamento usare per vari tipi di progetti di registrazione, ma qui sto chiedendo fatti concreti reali per qualsiasi motivo matematico o relativo al DSP che supporti l'uso di frequenze di campionamento più alte.

Risposte:


19

Uso sempre doppie frequenze di campionamento, se possibile, per due motivi importanti.

Primo motivo: eliminare le caratteristiche del filtro anti-imaging quando si lavora con fonti sonore analogiche. Che cos'è un filtro anti-imaging?

Diciamo che sto registrando su 44100 Hz.
Se registrassi un'onda sinusoidale inferiore a 10 KHz, potresti vedere chiaramente l'onda sinusoidale quando traccia i valori del campione in un grafico.
Se campiono un'onda sinusoidale di 0 dB FS con una frequenza di 22,5 KHz, i campioni leggono 1 e -1 alternativamente.

Ora, ecco il problema. Se registri un'onda sinusoidale di 0 dB FS con una frequenza di 30 KHz e tracciamo i campioni, ogni campione impiega più di mezzo periodo di seno e, se si riproducono i campioni, restituirebbe un'onda sinusoidale di 11 KHz. (Se non mi credi, fai un semplice disegno.) Questo comportamento è chiamato "effetto di imaging".

Ciò significa che prima di campionare il segnale, dobbiamo essere sicuri che NON ci siano frequenze presenti al di sopra della cosiddetta "frequenza di nyquist" (che è la metà della frequenza di campionamento). Quando si usano fonti sonore digitali che forniscono i loro suoni già campionati, questo non è un grosso problema, dal momento che a volte possono essere programmati in modo da non generare mai un segnale superiore alla metà della frequenza di campionamento, oppure possono filtrare tutto usando una fase lineare filtro brickwall che non ha alcun effetto sul resto.

Ma, se si sta campionando il segnale da una sorgente analogica, questo filtro viene eseguito prima che il segnale venga campionato. L'unico modo per filtrare il suono analogico è usando un circuito elettronico. E poiché si suppone che il filtro abbia una curva molto ripida, influenzerà le frequenze all'interno dell'intervallo udibile , anche se il filtro non è stato progettato per questo. Ora ci sono alcuni buoni filtri all'interno dei convertitori A / D, quindi il problema è minimo, ma diventa relativamente irritante ascoltare quando si lavora diversi giorni su audio a 44.1 KHz, rispetto all'utilizzo di 96KHz. Il filtro che verrà applicato quando si riconduce il 96 da 96 a 44.1 è ovviamente un filtro digitale ed è probabilmente di qualità molto migliore. E, viene applicato solo quando hai completamente finito tutto il lavoro, quindi non ti disturberà.

Secondo motivo: sbarazzarsi delle caratteristiche del segnale dithering.

Quando registri con una risoluzione di 24 bit e prevedi di avere il tuo master a 16 bit, avrai bisogno di un segnale di dithering per mascherare gli errori di arrotondamento. Ora il rumore non è una cosa carina da avere nella registrazione e mentre il rumore a banda larga è il migliore per mascherare gli errori di arrotondamento, la modellazione del rumore può essere un grande miglioramento applicato al segnale di dithering per renderlo meno inquietante. Ora, se la registrazione è stata effettuata utilizzando 96 KHz, è possibile modellare la maggior parte del segnale di dithering su frequenze superiori a 24 KHz, quindi nessuno li sentirà. Il rumore di dithering alla fine della registrazione viene finalmente filtrato, al momento ricampionando il progetto a 44,1 KHz.

Quindi, linee di fondo: è utile quando si registrano cose analogiche:

  • Sì, sicuramente. Hai meno disturbi dal filtro anti-imaging e meno disturbi dal segnale di dithering se usato con un'adeguata modellatura del rumore.

È utile quando lavoro con le cose digitali che sono arrivate direttamente dal mio softsynth?

  • Sì, è ancora utile se prevedi di lavorare con 24 bit e masterizzalo fino a 16 bit. Puoi guadagnare molto con il rumore che modella il segnale di dithering.

"poiché a volte possono essere semplicemente programmati per non generare mai un segnale superiore alla metà della frequenza di campionamento" Sicuramente vero, comunque: "oppure possono filtrare tutto usando un filtro brickwall a fase lineare che non ha alcun effetto sul resto" Non lo sono certo che è possibile. Al fine di filtrare gli ultrasuoni da un'onda generata digitalmente, in primo luogo è necessario generarlo con una frequenza di campionamento più elevata (che sarebbe comunque alias, ma non tanto nella banda udibile). Non è possibile filtrare le frequenze che sono già aliasate.
endolith,

3
"Ora, se la registrazione è stata effettuata utilizzando 96 KHz, è possibile modellare la maggior parte del segnale di dithering su frequenze superiori a 24 KHz, quindi nessuno li sentirà. Il rumore di dithering è alla fine della registrazione infine filtrato, nel momento in cui si esegue il downsample il tuo progetto torna a 44.1 KHz. " Non penso che sia giusto. Se filtrate tutto il dithering, allora il vostro output non ha più il dithering? Tornerà ad avere una distorsione di quantizzazione?
endolith,

Per il primo commento: hai assolutamente ragione. Penso che ciò che intendevo dire è che quando stai usando un effetto digitale, puoi aspettarti che la gamma di frequenza del suo output sia curata. Detto in questo modo, se l'output risulta alias in primo luogo, aumentando la propria frequenza di campionamento non cambierà questo. Quanto al tuo secondo commento: interessante; dipende totalmente dai filtri utilizzati pre-downsampling. Se il rumore fosse ripreso, ovviamente maschererebbe il rumore di quantizzazione, ma non sembrerebbe esattamente lo stesso. Penso che modellerei il mio rumore attorno alla frequenza finale di nyquist.
The Pellmeister,

1
Alcuni tipi di operazioni possono trasformare componenti di frequenza superiori a 24 KHz in componenti di frequenza inferiori a 20 KHz e viceversa. Se l'audio non viene mantenuto a una frequenza di campionamento superiore tra la prima e l'ultima operazione di questo tipo, la perdita di informazioni negli stadi intermedi può avere un effetto udibile sull'uscita finale.
supercat,

12

Per i progetti che sono strettamente digitali, ovvero che usano la pura sintesi digitale e non registrano alcun materiale che verrebbe convertito da analogico -> digitale, c'è qualche vantaggio nell'utilizzare frequenze di campionamento superiori a 44,1 kHz?

Sì. Qualche esempio:

Creazione di frequenze che non vuoi

Aliasing dalla sintesi digitale

Molti generatori di onde quadre / dente di sega / triangolo sono scritti in modo ingenuo, in quanto producono un numero infinito di armoniche, che sono alias e suonano chiaramente male . ( non..., +1, +1, +1, +1, −1, −1, −1, −1, ... è un'onda quadra corretta e le armoniche con alias producono suoni di sintonizzazione radio in sottofondo durante il portamento.)

Se la frequenza di campionamento è più alta, questo effetto si riduce, poiché la frequenza di aliasing è più lontana dalla banda audio.

Ovviamente sarebbe meglio se il generatore fosse scritto in un modo che elimini completamente l'aliasing , ma non puoi sempre controllarlo come utente. Anche quelli ben scritti sono generalmente dei compromessi, con aliasing "ridotto" , non completamente a banda larga, quindi una frequenza di campionamento più elevata aiuta ancora.

Aliasing dalla distorsione digitale

Allo stesso modo, quando si utilizza qualsiasi tipo di distorsione digitale non lineare, produce un numero infinito di armoniche o prodotti di intermodulazione . Quelli che verrebbero prodotti al di sopra della frequenza di Nyquist vengono in realtà riportati nella gamma udibile.

Anche se teoricamente è possibile distorcere in modo illimitato , non è comune per i programmatori di plugin farlo effettivamente. Ogni plug-in di distorsione per chitarra che ho testato ha un alias, anche l'elaborazione a 96 kHz.

Non sono sicuro di quanto sia praticamente un problema. Molte cose causano piccole quantità di distorsione, come un compressore o la dissolvenza del volume, ma la quantità è già trascurabile, quindi la quantità con alias è ancora più trascurabile. Per una forte distorsione, le frequenze con alias potrebbero anche non essere evidenti perché sono sepolte nel rumore. Indipendentemente da ciò, una frequenza di campionamento più elevata contribuirà a ridurre al minimo eventuali effetti dannosi.

La mancanza di frequenze che si fa volere

Un'altra possibile preoccupazione è che le frequenze ultrasoniche sintetizzate potrebbero essere utili in seguito nell'elaborazione, anche se non è possibile ascoltarle direttamente nella registrazione:

Spostamento di frequenza dai cambiamenti di tempo

Se ricampiona un'onda per rallentarla, come in un riproduttore di suoni, quelle frequenze ultrasoniche diventeranno frequenze udibili. Se li avessi filtrati per evitare l'aliasing alla frequenza di campionamento inferiore, il suono rallentato mancherebbe la fascia alta.

Distorsione / Modulazione

Come detto prima, la distorsione creerà nuove frequenze di intermodulazione in posizioni di somma e differenza dalle frequenze nella registrazione originale. Questa volta, siamo preoccupati per le frequenze udibili desiderabili prodotte dalla distorsione / modulazione delle frequenze ultrasoniche (non correlate all'aliasing). Se quelle frequenze ultrasoniche non sono nella registrazione prima della distorsione, all'uscita mancheranno le frequenze udibili che producono e non emulerà esattamente un effetto analogico equivalente.

Ancora una volta, non sono sicuro che questo sia praticamente un problema, ma è almeno plausibile e una frequenza di campionamento più elevata che include l'ecografia lo migliorerà.

In generale, lavorare a frequenze di campionamento più elevate offre "margine" per prevenire problemi con effetti e cose che potrebbero non essere implementati correttamente. Come fotocopiare una fotocopia, migliore è la qualità di ogni copia, minore sarà il degrado nel prodotto finale.

Inutile per la riproduzione

Questo non vuol dire che frequenze di campionamento più elevate siano una buona idea per la riproduzione del mix finito. Loro non sono. Come descritto sopra, la distorsione degli ultrasuoni può produrre un suono udibile e gli altoparlanti sono la cosa meno lineare nella catena audio, quindi si desidera eliminare qualsiasi ultrasuono dal mix finale per evitare che venga distorto dall'altoparlante.

Non vi è alcun vantaggio a frequenze di campionamento più elevate per la riproduzione di musica; dovrebbero essere utilizzati solo nelle fasi di registrazione ed elaborazione. Vedi 24/192 download di musica ... e perché non hanno senso .


1
+1 per menzionare generatori di onde quadre non corretti. Inoltre, lo stesso si può dire per le onde a dente di sega e triangolari ...
Visualizza nome

Il sovracampionamento digitale a una frequenza di 96 KHz o superiore è spesso utile per la riproduzione poiché l'uscita audio può essere facilmente mantenuta libera da qualsiasi contenuto indesiderato nell'intervallo da 22 KHz a 48 KHz. Costruire un filtro analogico per uccidere qualsiasi cosa su 48Khz senza danneggiare nulla al di sotto di 22Khz è molto più facile che costruirne uno fino a uccidere tutto sopra 26Khz senza far nulla sotto 22Khz. Se l'audio verrà convertito in 96Khz per la riproduzione e uno lo avrà a 96Khz, si potrebbe anche tenerlo a 96Khz piuttosto che convertirlo e convertirlo.
supercat,

@supercat Questo è per la registrazione, non per la riproduzione. È facile creare un filtro digitale super ripido per rimuovere tutto sopra i 20 kHz prima della riproduzione. Realizzare un filtro analogico per rimuovere gli ultrasuoni prima del campionamento è difficile / costoso, motivo per cui gli ADC utilizzano il sovracampionamento a frequenze molto più elevate (MHz) e quindi utilizzano i filtri digitali per rimuovere gli ultrasuoni e riconvertirli a una frequenza normale come 96 kHz.
Endolith,

5

Avere margine per gli effetti è una ragione teoricamente (e praticamente) valida per avere una frequenza di campionamento più alta rispetto al doppio del limite dell'udito umano.

La ragione di ciò è facilmente visualizzabile confrontandola con l'editing delle immagini: se hai solo un'immagine di 800x600 px con uno scatto complessivo di un muro di mattoni ad alto contrasto, reti da pesca, tessuti a strisce o altre texture ad alto contrasto finemente distanziate, puoi solo ruotare 45 ° si moltiplica senza provocare un effetto moiré e sfocare i dettagli. Con l'audio, le distorsioni che si verificano con l'editing hanno termini diversi, ma si applicano gli stessi principi del teorema di campionamento di Nyquist-Shannon. L'aliasing è un termine più comunemente usato di "effetto di imaging", nel caso in cui il suono campionato abbia un contenuto di frequenza superiore alla metà della frequenza di campionamento (chiamata frequenza di Nyquist).

In pratica, come già spiegato da Pelle ten Cate, non è possibile ottenere un filtro passa basso per muro di mattoni, ma sul taglio è sempre presente un certo gradiente (pendenza).

Un altro buon motivo per registrare con frequenze di campionamento più elevate è quello di ottenere un'immagine stereo più precisa, poiché l'udito umano si basa in gran parte su piccole differenze di tempo (circa 5-20 ms, e fisicamente si tratta di differenze di fase) tra le orecchie per localizzare le fonti sonore. Anche le teste "ombra" e altri aspetti giocano un ruolo.

Con la frequenza di campionamento del CD audio di 44100 Hz, ciascun campione rappresenta 22,6 microsecondi e, ad esempio, un periodo di una frequenza di 882 Hz ha 50 campioni. Inoltre, un ritardo piuttosto lungo di un ritardo di 20 ms dura 50 campioni. Quindi, solo 25 campioni a quella frequenza media significano una cancellazione di fase di 180 °.

Pertanto, la frequenza di campionamento di 44,1 KHz è abbastanza buona, ma in realtà non ha molto margine per il montaggio.

Un'altra cosa da tenere a mente è l'uso del dithering (proprio come nel fotoritocco) per prevenire il rumore di quantizzazione. E poi mi chiederai, dovrei usare la quantizzazione a 24 bit invece di 16 bit ...?


È stato dimostrato che gli ultrasuoni hanno ancora un effetto sulla nostra percezione stereo anche se non possiamo sentirlo consapevolmente?
endolith,

1
No, l'effetto delle differenze di tempo interaurali sull'immagine stereo ha più effetto sulle basse frequenze (inferiori a 1500 Hz), dove la distanza delle orecchie è inferiore alla lunghezza d'onda, quindi c'è una differenza di fase. Su frequenze più alte, la differenza nel livello del suono ha più effetto sulla localizzazione del suono. Vedi: en.wikipedia.org/wiki/Interaural_time_difference#Duplex_theory
peterhil,

4

Un altro buon motivo per utilizzare una frequenza di campionamento più elevata è aggirare le carenze delle implementazioni dei plugin. Molti writer di plug-in non tengono correttamente conto degli effetti di espansione della larghezza di banda delle operazioni di segnale non lineari e, di conseguenza, è possibile ottenere effetti di aliasing prima di lasciare la casella.

Ad esempio, un compressore è fondamentalmente un amplificatore controllato in tensione ... moltiplica un segnale (il segnale audio) per un altro segnale (il guadagno). La moltiplicazione di 2 segnali è anche nota come modulazione ad anello o eterodinamica; ha l'effetto di produrre segnali di somma e differenza dei 2 ingressi. Se si moltiplica un seno da 15 kHz per un seno da 10 kHz, si ottiene un segnale di uscita con un componente da 5 kHz e 25 kHz. Se il guadagno del tuo compressore ha un attacco molto veloce e il segnale di ingresso ha una larghezza di banda ampia, il segnale del componente "somma" potrebbe facilmente superare il limite Fs / 2 su base transitoria, con conseguente junk a bassa frequenza alias spurio nella tua uscita segnale.

La vera soluzione è che il plug-in deve essere implementato usando il sovracampionamento internamente, ma se non riesci a ottenerlo la cosa migliore da fare è eseguire il sistema con un Fs il più alto possibile. Non avrai alcun contenuto audio reale nella stratosfera ma sei protetto da alcuni plugin che superano il limite.


2

Per quello che vale, la logica matematica, almeno per le esigenze del mondo dell'audio, è generalmente descritta dal teorema di campionamento di Nyquist-Shannon , a volte indicato semplicemente come teorema di Nyquist, che in un linguaggio di base afferma semplicemente che riprodurre completamente un forma d'onda con una frequenza massima n Hz, sono necessari 2n campioni al secondo.


1
Sì, ma Nyquist-Shannon utilizza filtri brickwall, che sono fisicamente impossibili.
endolith,

1

Quando si registra con più tracce, credo che la profondità di bit sia più importante della frequenza di campionamento.

Quindi, ad esempio, 24 bit sarebbe meglio di 16 bit. Questo ha a che fare con il modo in cui le tue tracce sono mischiate insieme e qualcosa chiamato "errori di arrotondamento" quando non ci sono bit sufficienti.

La maggior parte dell'hardware e del software ora può supportare facilmente 96k e 24 bit, quindi non è necessario accontentarsi di meno.

Detto questo, puoi ovviamente effettuare una registrazione di alta qualità utilizzando apparecchiature 16 / 44.1 precedenti.

Si tratta più del talento che dell'attrezzatura.


2
Sebbene ciò non sia "falso", lavorare con 24 bit introduce lo svantaggio che devi usare il dithering se vuoi tornare a 16 bit. Il rumore di dithering può essere ridotto enormemente se applicato a un segnale a 96 KHz quando si utilizza la modellazione del rumore. (vedi altra risposta per i dettagli)
The Pellmeister,

1
Tutto il software audio professionale funziona internamente con virgola mobile a 32 o 64 bit durante il mix, indipendentemente dalla profondità di bit utilizzata durante la registrazione.
circa il

3
@PelletenCate se lavori con 16 bit, sei già fregato, perché aggiungi rumore di quantizzazione ad ogni passaggio di editing non banale. Questo è molto sbagliato implicando che lavorare con 24 o più bit introduce tale inconveniente.
Visualizza nome

L'ho fatto +1. Non dovrei descriverlo come un inconveniente, perché non lo è. Devo tuttavia dire che sia un rumore di quantizzazione sia un rumore di dithering non sagomato sono udibili su un mix 44/16. Il mio punto è che passando a 24 bit ti dai l'opportunità di cambiare un problema (rumore di quantizzazione) per un altro (rumore di dithering) che può essere effettivamente ridotto registrando con una frequenza di campionamento più alta.
The Pellmeister,

0

"... fatti reali e concreti per qualsiasi motivo matematico o relativo al DSP a supporto dell'uso di frequenze di campionamento più elevate.".

I cosiddetti fatti reali provengono da veri ingegneri audio, c'è la possibilità di trovarne diversi qui, ma è probabilmente più veloce cercare su Internet articoli scritti da veri ingegneri. Chiedere qui significa che ti accontenti di noi, non sono un ingegnere audio ma posso usare gli strumenti di ricerca.

Qualcosa da considerare è il rumore di fondo. Altre risposte menzionano come si potrebbe aggiungere rumore e menzionare l'errore di dithering e di quantizzazione, ma la più vicina a qualsiasi altra risposta arrivata menzionando il pavimento era questa notizia: "... le frequenze con alias potrebbero anche non essere evidenti perché sono sepolte nel rumore. ".

Se stai registrando in un cantiere, in una stazione ferroviaria o in un cantiere navale, puoi essere a buon mercato e registrare a 44.1 se non stai cercando la perfezione, altrimenti, proprio come il video è 4: 2: 2 e non 4: 2: 0, quindi è per Audio più bit ma non più di 32 (per te, internamente nel software più di 32) e frequenza di campionamento più alta ma non più di 96kHz (di nuovo, per te, usa internamente software e hardware che opera a una frequenza di campionamento più alta).

Prova questi articoli per iniziare a cercare i consigli dell'ingegnere: non visiteresti legale. stackexchange per informazioni critiche, quindi impara a imparare, in definitiva è quanto ti importa, quanto il tuo pubblico si preoccupa, il tuo livello di abilità e cosa puoi permetterti.

Perché 88.2 - http://www.soundonsound.com/sound-advice/q-why-882khz-best-sample-rate-recording

Perché 24/96? - http://www.premiersoundfactory.com/modules/pico/content0035.html

Molti posti su Internet, compresi corsi online gratuiti.

La versione breve è sì, c'è una ragione ed è un dato difficile: non lanciare errori all'inizio e sperare di eliminarli in seguito, non vorresti che qualcuno parlasse mentre stai cercando di registrare o estranei che corrono attraverso lo Shot - eppure ci sono video che hanno sia questo che molti pollici in su.

L'hacking da ricordare è quello di registrare ad alta voce senza tagliare a tassi elevati che puoi permetterti (tempo, spazio di archiviazione, abilità, denaro e tipo di input (IE: Cantiere), pubblico) e tagliare le sfumature più silenziose con la rimozione del rumore per eliminare il schifosa quantizzazione e rumore di dithering (che potresti non aver mai notato fino a quando non ne abbiamo parlato).

[Scritto con l'intento di essere una risposta semplice senza errori concreti e non destinato a offendere gli appassionati di audio o gli ingegneri audio professionisti]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.