Che cosa significa "normalizzazione" e come verificare che un campione o una distribuzione siano normalizzati?


18

Ho una domanda in cui si chiede di verificare se la distribuzione uniforme ( Uniform(a,b) ) è normalizzata.

  1. Per uno, cosa significa normalizzare qualsiasi distribuzione?
  2. E due, come possiamo verificare se una distribuzione è normalizzata o no?

Capisco calcolando

Xmeansd
otteniamodatinormalizzati, ma qui ci viene chiesto di verificare se unadistribuzioneè normalizzata o meno.

3
Ciò che significa normalizzare una distribuzione non è così semplice (e di solito non è la distribuzione stessa a essere normalizzata, ma la variabile casuale). Ad esempio, nel caso della divisa, alcune persone possono significare "linearmente ricalcolate in modo da ottenere un'uniforme standard" (cioè per ottenere e b = 1 ) ... mentre un'altra persona potrebbe significare "lineare riscalato in modo per ottenere media 0 e sd 1 ". Per l'uniforme, di solito presumo il primo, ma come vedi da una risposta di seguito, altre persone potrebbero pensare che significhi qualcos'altro. L'opzione migliore è chiedere alla persona che usa il termine di essere meno ambigua. a=0b=1
Glen_b

1
I termini più convenzionali sono standardizzati (per ottenere una media di zero e SD di uno) e normalizzati (per portare l'intervallo all'intervallo o per ridimensionare una norma vettoriale su 1 ). Quindi la reespressione X ( X - media ) / S D è una standardizzazione mentre moltiplica una densità f per una costante C per rendere - C f ( x ) d x =[0,1]1X(X-significare)/SDfC è unanormalizzazione, perchéf ( x ) d x è lanorma L 1 di f . -Cf(X)dX=1f(X)dXL1f
whuber

Anche chiesto su math.SE.
Dilip Sarwate,

1
Per favore non fare il cross-post , @Ada. Questo è contro la politica SE. Se pubblichi un Q su 1 sito e pensi che dovresti averlo pubblicato su un altro, contrassegna il tuo Q e chiedi ai moderatori di migrarlo per te.
gung - Ripristina Monica

Risposte:


33

Sfortunatamente, i termini sono usati in modo diverso in campi diversi, da persone diverse all'interno dello stesso campo, ecc., Quindi non sono sicuro di come si possa rispondere qui per te. Dovresti assicurarti di conoscere la definizione che il tuo istruttore / il libro di testo usa per "normalizzato". Tuttavia, ecco alcune definizioni comuni:

Centrato: Standardizzato: X - media

Xmean
Normalizzato:X-min(X)
Xmeansd
normalizzazionein questo senso ridimensiona i dati all'intervallo unitario. La standardizzazionetrasforma i tuoi dati inpunteggiz, come osserva @Jeff. E lacentraturarende la media dei tuoi dati uguale a0.
Xmin(X)max(X)min(X)
z0

Vale la pena riconoscere qui che tutte e tre queste sono trasformazioni lineari ; come tale, non cambiano la forma della tua distribuzione . Cioè, a volte le persone chiamano la trasformazione -score "normalizzante" e credono, a causa dell'associazione di z -scores con la distribuzione normale, che ciò ha reso i loro dati normalmente distribuiti. Non è così (come osserva anche @Jeff, e come si potrebbe dire tracciando i dati prima e dopo). Se sei interessato, puoi cambiare la forma dei tuoi dati usando , ad esempio, la famiglia di trasformazioni Box-Cox . zz

Per quanto riguarda il modo in cui è possibile verificare queste trasformazioni, dipende da cosa si intende esattamente. Se significano semplicemente verificare che il codice sia stato eseguito correttamente, è possibile controllare mezzi, SD, minimi e massimi.


1
Φ-1(F(X))

4

Usando la formula che hai fornito su ogni punteggio nel tuo campione, li stai convertendo tutti in punteggi z .

0 e la deviazione standard è 1, hai fatto tutto correttamente.

Lo scopo è quello di mettere tutto in unità rispetto alla deviazione standard del campione. Questo può essere utile per una varietà di scopi, come il confronto di due diversi set di dati che sono stati assegnati utilizzando unità diverse (centimetri e pollici, forse).

È importante non confondersi con la domanda se una distribuzione è normale , ovvero se si avvicina a una distribuzione gaussiana .


quindi per verificare se la distribuzione Uniform è stata normalizzata o no sarebbe equivalente a dire E (X) = 0 e Var (X) = 1 dove X ~ Uniform (a, b)?

2
i dati non devono nemmeno provenire da una distribuzione uniforme, possono provenire da qualsiasi distribuzione. inoltre, questo è vero solo usando la formula che hai fornito; i dati possono essere normalizzati in modi diversi dall'uso dei punteggi z. per esempio, si dice che i punteggi del QI siano normalizzati con un punteggio di 100 e una deviazione standard di 15.
Jeff

1

Dopo aver consultato l'AT, la domanda che si poneva era se

f(x)dx=1

where f(x) in this case is the density of the uniform(a,b).


2
The terminology to use here is that the probability density function of the distribution is normalized. Because this reflects the axiomatic fact that the total probability must equal 1, asking whether any distribution itself is normalized (in this sense) always has the same trivial answer: of course.
whuber

This is what we are asked to verify. f(x) doesn't really have to be a pdf, and it can be any non-negative function. For any non-negative function where the above doesn't satisfy, we can always multiply by a normalizing constant
Ada

1
Not always. For instance, let f(x)=ex, una funzione non negativa definita su tutti i numeri reali: non esiste una costante normalizzante. Ma quando ti viene detto, come nella tua domanda, che "così e così è il PDF per tale e tale distribuzione", allora non c'è nulla da verificare: per definizione si integra con l'unità.
whuber

Non è vera alcuna funzione non negativa in cui possiamo far sì che soddisfi la condizione di cui sopra anche se moltiplichiamo per una costante normalizzante.
Ada,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.