Quale modello matematico dell'audio può rendere possibile il pitch shifting di singole note nella polifonia (timbricamente complessa)?


24

La mia domanda è: quale modello matematico del suono polifonico può rendere possibile il cambiamento (cioè il pitch shifting) di singole note musicali in una registrazione audio multi-voice-in-single-channel di uno strumento musicale acustico polifonico? "Cambiando le note nell'audio polifonico", intendo fare qualcosa come modificare il suono con la cosiddetta funzione " Accesso diretto alle note " nel software Melodyne della celebre.

Secondo Wikipedia , ciò che Melodyne usa per modellare il segnale audio di una melodia a linea singola suonata su uno strumento musicale acustico (e quindi timbricamente complesso) è qualcosa di simile a ciò che Henning Thielemann descrive nel suo articolo intitolato " Districare la fase e il tempo nei suoni monofonici ". Non trovo alcun riferimento a modelli di segnali audio di strumenti musicali polifonici; secondo un'intervista su Youtube di Peter Neubacker (trascritta di seguito), la funzione di Melodyne per gestire l'editing dell'audio polifonico richiede un approccio diverso da quello descritto da Thielemann.

Un indizio di un'altra clip di YouTube è che il modello di Neubacker funziona meglio con la registrazione audio di un tipo di strumento (ovvero solo pianoforte, solo chitarra, solo archi, solo fiati, ecc.). Un altro indizio è l'ennesimo clip che mostra la capacità non solo di spostare l'altezza di una nota, ma anche il tempo (iniziale e finale) di essa.


Di seguito è riportata la trascrizione del video di YouTube in cui si afferma che "i materiali polifonici richiedono un approccio diverso" (nel caso in cui non si abbia il tempo di guardarlo dalle 22:00).

  • La domanda da cui è nata Melodyne: come posso ottenere un suono da una forma tridimensionale come questa [gesticolando con la pietra in mano]? In tal modo, il suono può quindi essere liberato dalla sua dipendenza dal tempo continuo? Questa scultura è in realtà ciò che è emerso da questo ... È un pezzo di plastica .... Questo è stato derivato direttamente da dati musicali. Questo oggetto [sta pizzicando una nota sul liuto] questa nota. È meglio visualizzato come questo, da sinistra a destra. Il tempo scorre in questa direzione [gesticolando da sinistra a destra]. E questa è l'ampiezza [gesticolano grandi e piccoli con il pollice opposto al dito]. Se lo giro, rappresenta ... il timbro di questo suono in una determinata istanza. Puoi vedere molto chiaramente qui una struttura [che punta alla sezione trasversale nella parte inferiore della scultura] che è in qualche modo triangolare; questo perché in questo suono,

    Poiché Melodyne non esisteva ancora e stavo semplicemente sperimentando la traduzione del suono in questa forma, ho lavorato per quasi un anno con questo suono. ... Conosco questo suono dentro e fuori e a memoria. Ciò fornisce anche una buona illustrazione del suono locale. Posso, non solo riprodurre il suono [clic del mouse], ma posso anche inserire il suono di qualsiasi punto e spostarlo attraverso di esso lentamente o velocemente come mi pare. Posso persino soffermarmi sul suono, o spostarmi avanti e indietro, quindi se esamino un posto qui ... lo aggiri. ... Dieci anni fa era nuovo.

    Recentemente è stato aggiunto dna (accesso diretto alla nota). Con esso, posso anche modificare la musica polifonica. In altre parole, posso modificare singole note che suonano contemporaneamente, come ad esempio una registrazione di chitarra. Se ora suono un piccolo accordo [selezionando Poly -> Separate Notes sullo schermo], vediamo qui le 3 note che ho appena suonato come entità separate. Ascoltiamo di nuovo [il computer suona accordi minori]. E ora, come se spostando il dito su un tasto più alto, posso sollevare questa nota [trascinando una nota sullo schermo verso l'alto; il computer suona accordi importanti]. Per l'audio diviso, posso isolare questa nota e ora posso spostarla su o giù a piacimento, a qualsiasi tonalità che mi piace.

    Perché in precedenza nessuno era in grado di isolare i singoli toni all'interno di materiali complessi in questo modo? Onestamente non lo so. Nella scienza, la tendenza naturale è iniziare con qualcosa di semplice, un'onda sinusoidale per esempio, o singole note, e analizzarlo prima, solo per scoprire quando il materiale diventa più complesso, o deve essere trattato nella sua interezza, che il sistema non funziona Il mio approccio è diverso. In realtà comincio con segnali complessi, ed è solo quando voglio esaminare qualcosa in dettaglio che torno a quelli più semplici, ma prima devo avere un'impressione generale di ciò che sta realmente accadendo nella realtà.

    Il segreto sta forse in questo rotolo? Heheh, questo è in realtà un gabinetto. La domanda originariamente sollevata dalla pietra era come posso tradurre un dato suono in una forma tridimensionale. Qui, ho organizzato gli individui campionando i valori del suono, indicati qui da uno due tre e così, in una spirale. E si scopre che se si interpolano tra i punti [gesticolando attraverso la spirale], emerge un paesaggio che rappresenta anche le singole sezioni trasversali del suono [gesticolando sezioni trasversali della scultura].

    Quanti anni ha il rotolo? 12 anni. Quindi quell'idea è la fonte di Melodyne, di tutto ciò che abbiamo visto oggi ...? Sì, ma questo modo di arrotolare il suono non sarebbe più utile per i materiali polifonici, il che richiede un approccio diverso.


Non c'è tempo, ma potresti voler leggere alcuni dei lavori di Bill Sethares sulla consonanza . Proverò a digerire il tuo post e risponderò in modo più completo nei prossimi giorni.
Peter K.

Non sono sicuro di quale sia la domanda. Isolando singole note e "avvolgimento il suono" mi fa pensare di avvolgere uno spettro in una spirale in modo che le armoniche di una linea nota con l'altro: nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html
endolith

Risposte:


12

TL; DR? Google Scholar per la separazione parziale armonica .


Un buon punto di partenza sarebbero le tecniche di modellazione sinusoidale che separano il segnale in componenti seno + rumore (deterministici e stocastici). La componente deterministica, composta da seni, può essere riassestata in modo convincente:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

I seni vengono sottratti dal segnale e rimane la parte rumorosa / stocastica.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

La parte stocastica viene sintetizzata inserendo il rumore attraverso un filtro che modella il rumore. Alcuni altri lo hanno esteso a un modello seni + rumore + transitori che aiuta a preservare le caratteristiche stocastiche transitorie nel tempo.

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

Una volta che hai i parametri sinusoidali di un segnale, è possibile separare i seni delle note sovrapposte cercando rapporti armonici e raggruppando per inizio, ecc. Il tracciamento parziale produce molti risultati su Google Scholar.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

Modelli , polinomi e Macaulay-Quatieri nascosti sono alcuni dei metodi. Sono sconcertato nel separare gli avanzi stocastici in due note. Non so come Melodyne risolva questo problema.


5

L'approccio utilizzato in melodyne richiede 2 operazioni separate nel dominio della frequenza. In primo luogo, le tecniche di trascrizione polifonica sono utilizzate per raggruppare componenti di frequenza (da una trasformazione di frequenza standard) dell'audio polifonico in attivazioni di note. In altre parole, raggruppare sottoinsiemi armonici in base alle attivazioni di nota più probabili. Vedi la mia risposta al post "Inverso riconoscimento degli accordi polifonici" su questo forum per riferimenti e modelli matematici.

La seconda operazione è quella del pitch shifting del dominio della frequenza dei sottoinsiemi armonici estratti sopra. Non ne sono certo, ma garantirei quasi che Melodyne utilizzi un approccio vocoder di fase per raggiungere questo obiettivo. Puoi anche eseguire lo stretching del tempo usando questa tecnica . Usiamo tecniche simili a queste in Riffstation e funzionano abbastanza bene.


3

Una possibilità potrebbe essere l'analisi / la ri-sintesi usando un approccio di abbinamento del modello statistico. Se conosci o puoi ragionevolmente indovinare il mix di strumenti coinvolti e hai modelli (inclusi transitori iniziali, spettro più evoluzione spettrale, ecc.) Per i suoni dello strumento per tutte le note attese, potresti provare una corrispondenza statistica di un gran numero di accordi sani combinazioni che utilizzano i modelli di suono del modello per stimare le combinazioni polifoniche più probabili. Molto probabilmente si tratterebbe di una ricerca intensamente computazionale per i minimi globali, dove potrebbero essere utili varie tecniche di ricerca simili all'IA. Potresti quindi prendere le varie probabilità degli accordi individuali e quindi usare le teorie delle decisioni per scegliere le sequenze polifoniche più probabili nel tempo.

Quindi prendi le note stimate e ri-sintetizzale alla tonalità e durata prescelte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.