Le risposte di Robert e Bey danno parte della storia (cioè i momenti tendono ad essere considerati come proprietà di base delle distribuzioni, e la deviazione standard convenzionalmente è definita in termini del secondo momento centrale piuttosto che il contrario), ma la misura in cui quelli le cose sono davvero fondamentali dipende in parte da ciò che intendiamo con il termine.
Non ci sarebbero problemi insormontabili, ad esempio, se le nostre convenzioni andassero dall'altra parte - non c'è nulla che ci fermi a definire convenzionalmente qualche altra sequenza di quantità al posto dei soliti momenti, diciamo per p = 1 , 2 , 3 , . . . (notare che μE[ ( X- μ )p]1 / pp = 1 , 2 , 3 , . . .μsi adatta sia alla sequenza dei momenti che a questo come al primo termine) e quindi alla definizione dei momenti - e di tutti i tipi di calcoli in relazione ai momenti - in termini di essi. Si noti che queste quantità sono tutte misurate nelle unità originali, il che è un vantaggio nel corso dei momenti (che sono in -esima potenza delle unità originali e quindi più difficili da interpretare). Ciò renderebbe la deviazione standard della popolazione la quantità e la varianza definite in termini di essa.p
Tuttavia, renderebbe quantità come la funzione di generazione del momento (o qualche equivalente relativa alle nuove quantità sopra definite) piuttosto meno "naturali", il che renderebbe le cose un po 'più imbarazzanti (ma alcune convenzioni sono un po' così). Ci sono alcune proprietà convenienti dell'MGF che non sarebbero altrettanto comode.
Più semplice, a mio avviso (ma correlato ad esso), è che ci sono un certo numero di proprietà di base della varianza che sono più convenienti quando scritte come proprietà della varianza rispetto a quando scritte come proprietà della deviazione standard (ad esempio la varianza delle somme di indipendenti variabili casuali è la somma delle varianze).
Questa additività è una proprietà che non è condivisa da altre misure di dispersione e ha una serie di conseguenze importanti.
[Esistono relazioni simili tra gli altri cumulanti, quindi questo è un senso in cui potremmo voler definire le cose in relazione ai momenti più in generale.]
Tutte queste ragioni sono probabilmente convenzioni o convenienza, ma in una certa misura è una questione di punti di vista (ad esempio, da alcuni punti di vista i momenti sono quantità piuttosto importanti, da altri non sono poi così importanti). Può darsi che il bit "a livello profondo" non intenda implicare altro che quello di Kjetil "quando sviluppa la teoria".
Sono d'accordo con il punto di Kjetil che hai sollevato nella tua domanda; in una certa misura questa risposta è solo una discussione ondulata su di essa.