Come normalizzare i dati di distribuzione sconosciuta

12

Sto cercando di trovare la distribuzione caratteristica più appropriata di dati di misure ripetute di un certo tipo.

In sostanza, nel mio ramo della geologia, usiamo spesso la datazione radiometrica di minerali da campioni (pezzi di roccia) per scoprire quanto tempo fa è accaduto un evento (la roccia si è raffreddata al di sotto di una soglia di temperatura). In genere, verranno eseguite diverse (3-10) misurazioni da ciascun campione. Quindi, vengono prese la media e la deviazione standard . Questa è geologia, quindi le età di raffreddamento dei campioni possono scalare da a anni, a seconda della situazione. $\mu$ $\sigma$ $10^5$ $10^9$

Tuttavia, ho motivo di credere che le misurazioni non siano gaussiane: i "valori anomali", dichiarati arbitrariamente, o attraverso alcuni criteri come il criterio di Peirce [Ross, 2003] o il test Q di Dixon [Dean e Dixon, 1951] , sono abbastanza comune (diciamo, 1 su 30) e questi sono quasi sempre più vecchi, indicando che queste misurazioni sono tipicamente distorte a destra. Ci sono ragioni ben note per questo a che fare con le impurità mineralogiche.

Età media e mediana del campione. La linea rossa indica media = mediana. Notare i vecchi mezzi causati da misurazioni oblique.

Pertanto, se riesco a trovare una migliore distribuzione, che incorpora code e inclinazione elevate, penso che possiamo costruire parametri di posizione e scala più significativi e non dover rinunciare agli outlier così rapidamente. Vale a dire se si può dimostrare che questi tipi di misurazioni sono lognormali, o log-Laplaciani, o qualsiasi altra cosa, allora si possono usare misure più appropriate di massima probabilità rispetto a e , che sono non robuste e forse distorte nel caso di dati sistematicamente distorti. $\mu$ $\sigma$

Mi chiedo quale sia il modo migliore per farlo. Finora, ho un database con circa 600 campioni e 2-10 (circa) replicano le misurazioni per campione. Ho provato a normalizzare i campioni dividendo ciascuno per la media o la mediana e quindi guardando gli istogrammi dei dati normalizzati. Ciò produce risultati ragionevoli e sembra indicare che i dati sono tipicamente log-Laplaciani:

inserisci qui la descrizione dell'immagine

Tuttavia, non sono sicuro se questo è il modo appropriato di procedere, o se ci sono avvertimenti di cui non sono a conoscenza, che potrebbero influenzare i miei risultati in modo che sembrino così. Qualcuno ha esperienza con questo genere di cose e conosce le migliori pratiche?

— Cossatot
fonte

4

Dato che "normalizzare" è usato per significare diverse cose in contesti come questo, esattamente cosa intendi con "normalizzare"? Quali informazioni stai cercando di ottenere dai dati?

— Glen_b -Restate Monica

1

@Glen_b: Con 'Normalizza' intendo semplicemente ridimensionare le cose in base alla mediana (o alla media) tutte le età misurate di un campione in base alla mediana (o alla media o qualsiasi altra cosa). Esistono prove sperimentali che la dispersione nei campioni aumenta linearmente con l'età. Quello che desidero dai dati è vedere se questo tipo di misurazione è meglio caratterizzato da una distribuzione normale, log-normale, o beta o qualunque, in modo che la posizione e la scala più accurate possano essere derivate, o L1 vs. La regressione di L2 è giustificata, ecc. In questo post chiedo come posso prendere i dati che ho descritto e indagare su questo.

— Cossatot,

1

Non ho esperienza in questo campo, ma i tuoi grafici e il pensiero che hai messo in questo aspetto sembrano buoni. Potresti averlo già visto, ma l'articolo di Wikipedia su Log-Laplace si collega a un bel documento, che non affronta direttamente la tua domanda, ma potrebbe avere alcuni spunti interessanti: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf

— Wayne,

Non sono sicuro di aver capito completamente, ma forse il bootstrap potrebbe aiutare? Se si recupera la varianza ecc. Della propria distribuzione utilizzando i metodi di bootstrap, è possibile utilizzare le informazioni recuperate per normalizzare i dati. en.wikipedia.org/wiki/Bootstrapping_(statistics)

— 123

1

Hai considerato di prendere la media delle (3-10) misurazioni da ciascun campione? Puoi quindi lavorare con la distribuzione risultante, che approssima la distribuzione t, che approssimerà la distribuzione normale per n maggiore?

— Michael P
fonte

1

Non penso che stai usando normalizzare per significare ciò che normalmente significa, che in genere è qualcosa come normalizzare la media e / o la varianza e / o lo sbiancamento, per esempio.

Penso che quello che stai cercando di fare sia trovare una reparameterizzazione non lineare e / o funzionalità che ti consentano di utilizzare modelli lineari sui tuoi dati.

Questo non è banale e non ha una risposta semplice. Ecco perché ai data scientist vengono pagati molti soldi ;-)

Un modo relativamente semplice per creare funzionalità non lineari consiste nell'utilizzare una rete neurale feed-forward, in cui il numero di strati e il numero di neuroni per strato controllano la capacità della rete di generare funzionalità. Maggiore capacità => più non linearità, più adattamento. Capacità inferiore => maggiore linearità, maggiore inclinazione, minore varianza.

Un altro metodo che ti dà un po 'più di controllo è usare le spline.

Infine, potresti creare tali funzionalità a mano, che penso sia quello che stai cercando di fare, ma poi non esiste una semplice risposta "scatola nera": dovrai analizzare attentamente i dati, cercare schemi e così via .

— Hugh Perkins
fonte

Normalizzare ha diversi significati in matematica e scienze; dichiarare che quello che significa personalmente più familiare è standard è ciò che la maggior parte delle persone è tentata di fare, ma non si laverà con gli altri. Più seriamente, questo inizia sull'argomento ma poi svanisce. Dov'è l'indicazione di interesse per i modelli non lineari? Reti neurali? Spline? Che cosa hanno a che fare questi con l'identificazione di una distribuzione o famiglia di distribuzioni, qual è la domanda? Non riesco a vedere la connessione, quindi consiglio di tagliare ciò che non è rilevante o di espanderlo per mostrare come è rilevante.

— Nick Cox,

1

Puoi provare a usare la famiglia della distribuzione di Johnson (SL, SU, SB, SN) che sono distribuzioni di probabilità a quattro parametri. Ogni distribuzione rappresenta la trasformazione alla distribuzione normale.

— tacca
fonte