Perché l'audio del telefono viene campionato a 8 kHz?


8

Quando abbiamo deciso di campionare il telefono a kHz? È sempre stato così? Perché l'abbiamo fatto? Perché i bit rate più alti non possono essere trasferiti così velocemente? E questi motivi contano ancora? E se no, perché non esiste ancora un nuovo standard? È vero che kHz è la frequenza di campionamento più bassa possibile per trasferire il parlato comprensibile?88

Sto cercando di trovare fonti per questo, ma non sembrano esserci molte informazioni al riguardo.


2
Non è sempre stato così, perché le linee telefoniche erano del tutto analogiche.
Simon B,

2
in effetti, potrebbero essere ancora del tutto analogici per le chiamate locali all'interno dello stesso scambio. ma non lo so. ma anche quando erano analogici, c'erano limiti di larghezza di banda e la "qualità della voce" era il criterio sufficiente.
Robert Bristow-Johnson,

Solo così non ci confondiamo ... e un Baud rate e bit rate di aggiornamento non sono gli stessi .. Baud è "Bits at Unit Density". Baud è la velocità di segnalazione, i bit sono la velocità di informazione. quindi se la tua velocità BAUD è di 1200 baud e stai passando 4 bit per ciclo di clock stai eseguendo 4800 bit al secondo .. Avevamo modem DSP che erano in grado di passare 150Kb / s su una linea telefonica analogica ma la tecnica di modulazione era molto sofisticata e usato ovunque da 256 a 512 toni audio per spostare i dati lungo il tubo .. oltre a equalizzare la linea e rimuovere il ritardo .. Ricordo di aver visto alcuni modem che w
Keith

Ah l'ho trovato ... US Robotics ha realizzato un modem BAUD 2400 chiamato Sportster HST v92. era 2400 Baud ma passava 21.600 bit al secondo. Quindi c'erano 2400 modem BAUD sul mercato a metà degli anni '90
Keith

Risposte:


4

Se qualcuno si preoccupa di scavare, penso che troveranno che prima che Bell Telephone iniziasse a multiplexare le linee vocali, ha fatto molte ricerche sul contenuto di frequenza della voce umana. Inizialmente utilizzavano gruppi di test per sviluppare l'unità audio bel e la distribuzione della potenza della voce, nonché la sensibilità dell'orecchio umano a varie frequenze. Hanno sviluppato una caratteristica di passaggio di banda che ha raggiunto un picco di circa 2,1 KHz e rotolato al di sotto di 300 e oltre 3000 HZ. Ciò ha dato una buona voce dal suono umano se fatto correttamente. Tutto ciò era analogico.
La radio AM lo ha esteso a 5 KHz per includere musica accettabile per la maggior parte delle persone quando eravamo giovani e avevamo buone orecchie. I trasformatori flyback televisivi sono stati progettati per funzionare a ~ 17,5 KHz perché c'era un numero magico per la riproduzione delle immaginie la maggior parte della gente non poteva sentire il lamento . La radio a banda laterale singola fu commercializzata negli anni '60 e necessitava di frequenze di taglio molto nette. Ho usato radio con filtri a 2.1 e 3.1 KHz. 2.1 aveva alcune caratteristiche di Paperino. 3.1 suonava bene, sempre con orecchie giovani. La banda passante audio è stata aumentata a 20 KHZ o meglio con FM perché le frequenze portanti più elevate potrebbero gestire una larghezza di banda più elevata per una migliore riproduzione musicale . Impilare alcuni xilofoni o campane o altri strumenti acuti e possono ottenere abbastanza energia armonica nelle frequenze più alte. OTOH, come lo stato, molte persone non riescono a sentirlo.

La linea di fondo è che chiunque affermi di aver bisogno di una larghezza di banda di 20 KHz per la voce non sta prestando attenzione. 3 KHz lo farà, 5 ti darà un margine. Se non suona bene, allora il problema è qualcosa di diverso dalla larghezza di banda.

Quando si stava sviluppando il segnale digitale, la gente che sapeva ha capito che, non importa quanto fosse strana una forma d'onda, poteva essere scomposta in una serie di onde sinusoidali. La miscelazione armonica di quelle onde ha prodotto il tipico schema spikey di voce o musica. Infine, Nyquist ha condotto ricerche sulla frequenza di campionamento digitale necessaria per riprodurre un'onda sinusoidale a una determinata frequenza. Si scopre che ci vogliono 2 campioni per creare un'onda sinusoidale, quindi la frequenza più alta che verrà riprodotta è la metà della frequenza di campionamento. Volete 5 KHz di audio quindi campionate a 10 KHz. Va bene per la voce. Volete musica con una fedeltà più alta di quella che la maggior parte della gente può ascoltare e poi campionare a 40 KHz o giù di lì per ottenere 20+ KHz.

Un altro bocconcino è il campionamento rispetto al bitrate. Se campionate ad una data frequenza, moltiplicatelo per la lunghezza della parola otterrete il bitrate minimo necessario per produrre il segnale desiderato. Ridurre il bitrate e la dimensione della parola campione verrà tagliata per soddisfare la nuova velocità in bit a una determinata frequenza di campionamento. Questa è tutta la codifica "lossless". Tutto questo è dalla memoria e dal tentativo di trovare i dati correnti. È lì se qualcuno cerca citazioni. Non mi preoccuperò perché sto diventando troppo vecchio per preoccuparmi. Mi sono appena stancato di affrontare molti ovvi problemi mitici quando mi sono interessato a fare qualche acquisizione audio.


5

Si pensava che offrisse un buon compromesso tra qualità e larghezza di banda. In realtà un singolo segnale vocale occupa 8 kHz, non 8 kbps, di larghezza di banda. Ogni campione è quantizzato in 8 bit, producendo una velocità di 64 kbps che viene utilizzata universalmente.

Ulteriori letture:


3
Quando il segnale vocale viene campionato a 8 khz, si presume che la sua larghezza di banda sia inferiore a 4 khz e non a 8 khz. Anche il risultante bitrate di PCM a 64 kbps può essere ridotto con le tecniche DPCM e ADPCM fino a 32 kbps o 16 kbps ogni volta che è richiesta efficienza.
Fat32,

Questo è vero. Non solo, è garantito che occupi meno di 4 kHz attraverso il filtro passa-basso. Altrimenti si verifica l'aliasing.
Emre,

quindi suppongo che dovresti rivedere la tua risposta dicendo "In realtà un singolo segnale vocale occupa 8 kHz, non 8 kbps, di larghezza di banda". Un segnale vocale può occupare l'intero spettro di 20-20 khz, ma solo i primi 4khz vengono rilevati in trasmissione.
Fat32,

Penso che intendevi dire che l'orecchio umano può discernere le frequenze in quell'intervallo? È un problema diverso.
Emre,

2

Un altro motivo è che, prima della trasmissione del segnale digitale, l'audio del telefono era modulato analogicamente in un canale a banda stretta in modo che più chiamate telefoniche potessero essere inviate su un singolo collegamento analogico (relè RF e microonde, ecc.) dapprima essere filtrato passa-basso per restringere la larghezza di banda richiesta per ciascun canale in modo da impacchettare il maggior numero di canali su una pipe analogica (ma anche in questi giorni, in una brutta giornata, si potrebbe sentire una qualsiasi telefonata adiacente come sfondo rumore). Poiché le persone si sono abituate alle chiamate interurbane prive di frequenze superiori a 3,5 kHz o giù di lì, questa larghezza di banda è diventata commercialmente accettabile anche per le chiamate locali.

Tuttavia, per le prime comunicazioni di esplorazione spaziale sono state utilizzate larghezze di banda ancora più strette, quindi 3,5 kHz potrebbero non essere il minimo per un parlato comprensibile.


1

Per chiarire un sacco di idee sbagliate.

Innanzitutto, non è mai esistito un modem "baud" a 56k. Baud riguarda il cambiamento di stato ed è stato raggiunto il massimo a 1200 baud. Qualsiasi cosa oltre quella richiedeva una codifica più sofisticata.

In secondo luogo, l'udito umano percepisce non solo i toni fondamentali, ma anche molti ordini di contenuto armonico molto al di sopra e al di là dei fondamentali. Quando viene rimosso quel contenuto armonico, l'audio suona meno naturale e piacevole. L'audio con risoluzione più alta (di 8 KHz) è sia più comprensibile che più piacevole per l'orecchio.

Terzo, Nyquist lavora all'interno di un dominio temporale fisso. Se si inizia a campionare nel momento esatto di un picco o depressione, è necessario solo raddoppiare la frequenza di campionamento della frequenza. Tuttavia, nel mondo reale i punti di campionamento possono verificarsi a qualsiasi offset casuale nel tempo al picco o minimo, quindi richiedono una frequenza di campionamento più elevata. Ad esempio, se campionate un'onda sinusoidale e il momento del campione si verifica esattamente con uno sfasamento di 90 gradi dall'inizio dell'onda, i vostri dati suggeriranno una linea retta anziché un'onda. Per i toni fondamentali questo è fondamentale. Per il contenuto armonico, è più bello avere, con rendimenti decrescenti vicino all'estremità superiore dell'intervallo udibile. Nyquist applicato all'elaborazione audio è uno dei teoremi più male interpretati là fuori.


Hai un riferimento per l'affermazione di nessun modem superiore a 1200 baud? Credo che l'affermazione sia errata. Inoltre, per quello che vale, il paragrafo sul campionamento è sbagliato. Quando si campiona un'onda sinusoidale, qualsiasi frequenza di campionamento maggiore del doppio della frequenza sinusoidale è sufficiente, indipendentemente dalla fase.
MBaz,

0

Come altri hanno già detto, 4kHz è standard, perché naturalmente dove la voce umana è fonte1 fonte2 . Ho trovato questo articolo che menziona frequenze fondamentali sono molto più bassi 85Hz-300Hz articolo . Se questo funziona o meno nella pratica, non posso dirlo con certezza. ma vale la pena provare


0

Il sistema telefonico analogico aveva un filtro a muro a 3,9 KHz. Ciò ha trasmesso tutte le informazioni necessarie per il parlato comprensibile e ha consentito il confezionamento della larghezza di banda. Molte persone hanno subito il lavaggio del cervello nel pensare alle larghezze di banda necessarie. Le larghezze di banda di 20-20.000 Hz sono ottime per la musica, ma completamente inutili per riprodurre il linguaggio umano.

Qualcuno può chiedere a Nyquist come abbiamo inviato i segnali fax 56 KBaud su linee analogiche con filtri a muro da 3,9 KHz. Qualcuno ricorda i fax?

La nota più alta di un piano è 4186 Hz. La gamma di frequenza delle voci umane è inferiore a circa 1000 Hz. La C centrale su un piano è di circa 262 Hz, solo per dare una prospettiva alle cose.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.