Converti la distribuzione di Poisson in distribuzione normale


10

Ho principalmente un background di informatica ma ora sto cercando di insegnarmi le statistiche di base. Ho alcuni dati che penso abbiano una distribuzione di Poisson

inserisci qui la descrizione dell'immagine

Ho due domande:

  1. Questa è una distribuzione Poisson?
  2. In secondo luogo, è possibile convertirlo in una distribuzione normale?

Qualsiasi aiuto sarebbe apprezzato. Grazie mille


3
1. No, una distribuzione di Poisson ha generalmente una modalità in prossimità del suo parametro, e quindi abbinarla con una distribuzione di Poisson significherebbe un valore molto piccolo per il parametro. 2. Sì e no. Cosa vorresti fare con una distribuzione normale?
Dilip Sarwate,

Sto cercando di inserire questi dati in una regressione logistica. Sono stato portato a credere che i dati normalmente distribuiti producano risultati molto migliori
Abhi,

Risposte:


11

1) Ciò che è raffigurato sembra essere (raggruppato) dati continui disegnati come un grafico a barre.

Si può concludere in modo abbastanza sicuro che si tratta non è una distribuzione di Poisson.

Una variabile casuale di Poisson assume valori 0, 1, 2, ... e ha il picco più alto su 0 solo quando la media è inferiore a 1. Viene utilizzata per i dati di conteggio; se hai disegnato un grafico simile dei dati di Poisson, potrebbe apparire come i grafici di seguito:

inserisci qui la descrizione dell'immagine

Il primo è un Poisson che mostra un'asimmetria simile alla tua. Puoi vedere che la sua media è piuttosto piccola (circa 0,6).

Il secondo è un Poisson che ha un significato simile (in una ipotesi molto approssimativa) al tuo. Come vedi, sembra piuttosto simmetrico.

Puoi avere l'asimmetria o la media grande, ma non entrambi allo stesso tempo.

2) (i) Non è possibile rendere normali i dati discreti -

Con i dati raggruppati, utilizzando qualsiasi trasformazione a incremento monotonico, tutti i valori di un gruppo verranno spostati nella stessa posizione, quindi il gruppo più basso avrà comunque il picco più alto, vedere la trama di seguito. Nel primo grafico, spostiamo le posizioni dei valori x per far corrispondere da vicino un normale cdf:

inserisci qui la descrizione dell'immagine

Nel secondo diagramma, vediamo la funzione di probabilità dopo la trasformazione. Non possiamo davvero raggiungere qualcosa di simile alla normalità perché è sia discreto che inclinato; il grande salto del primo gruppo rimarrà un grande salto, non importa se lo spingi a sinistra oa destra.

(ii) I dati obliqui continui potrebbero essere trasformati per apparire ragionevolmente normali. Se hai valori grezzi (non raggruppati) e non sono molto discreti, puoi eventualmente fare qualcosa, ma anche allora spesso quando le persone cercano di trasformare i loro dati è o non necessario o il loro problema sottostante può essere risolto in un modo diverso (generalmente migliore) . A volte la trasformazione è una buona scelta, ma di solito viene eseguita per ragioni non molto buone.

Quindi ... perché vuoi trasformarlo?


Grazie Glen per la risposta molto dettagliata. Spiega molti concetti. Sto cercando di inserire questi dati in un modello di regressione logistica. Ho pensato (non sono così sicuro ora) che i dati normalmente distribuiti producono risultati molto migliori. Che cosa mi consiglia?
Abhi,

1
Questa è la variabile indipendente (una variabile )? Cosa intendi con "risultati migliori" in questo contesto? x
Glen_b -Restate Monica

@Glen_b Grazie mille per la meravigliosa risposta. Sono anche un esperto di informatica e mi sono bloccato in questa domanda: stats.stackexchange.com/questions/408232/… Per favore fatemi sapere cosa ne pensate. Aspetto tue notizie. Grazie ancora :) :)
EmJ

Per favore non usare i commenti per cercare di reclutare persone per rispondere alle tue domande. Ho già visto la tua domanda.
Glen_b

0

Pubblicare informazioni più divertenti per i posteri.

C'è un post precedente che discute un problema simile riguardante l'uso dei dati di conteggio come variabile indipendente per le regressioni logistiche.

Ecco qui:

L'uso dei dati di conteggio come variabile indipendente viola alcune delle assunzioni GLM?

Come ha detto Glen se stai semplicemente cercando di prevedere un risultato dicotomico, è possibile che tu sia in grado di utilizzare i dati di conteggio non trasformati come componente diretto del tuo modello di regressione logistica. Tuttavia, una nota di cautela: quando una variabile indipendente (IV) è sia distribuita in modo anomalo che si estende su molti ordini di grandezza utilizzando i valori grezzi, si possono ottenere punti altamente influenti, che a loro volta possono influenzare il modello. In questo caso può essere utile eseguire una trasformazione ai tuoi IV per ottenere un modello più robusto.

Trasformazioni come la radice quadrata o il log possono aumentare la relazione tra IV e odds ratio. Ad esempio, se le variazioni in X di tre interi ordini di grandezza (lontano dal valore mediano X) corrispondessero a una semplice variazione di 0,1 della probabilità che si verifichi Y (lontano da 0,5), allora è abbastanza sicuro supporre che qualsiasi discrepanza tra i modelli sarà portare a una distorsione significativa a causa dell'estrema leva da valori X anomali.

Per illustrare ulteriormente, immaginiamo di voler utilizzare il rating Scoville di vari peperoncini (dominio [X] = {0, 3,2 milioni}) per prevedere la probabilità che una persona classifichi il peperone come "scomodo" (intervallo [Y] = {1 = si, 0 = no}) dopo aver mangiato un pepe con il corrispondente punteggio X.

https://en.wikipedia.org/wiki/Scoville_scale

Se guardi il grafico delle valutazioni di Scoville puoi vedere che una trasformazione del registro delle valutazioni di Scoville non elaborate ti darebbe un'approssimazione più vicina alle valutazioni soggettive (1-10) di ciascun peperoncino.

Quindi, in questo caso, se volessimo realizzare un modello più robusto che catturi la vera relazione tra i rating di Scoville grezzi e il rating di calore soggettivo, potremmo eseguire una trasformazione logaritmica sui valori X. In questo modo riduciamo l'impatto del dominio X eccessivamente grande, "restringendo" efficacemente la distanza tra i valori che differiscono per ordini di grandezza, e di conseguenza riducendo il peso di eventuali valori anomali X (ad esempio quelli intolleranti alla capsaicina e / o mostri pazzi di spezie! !!) hanno sulle nostre previsioni.

Spero che questo aggiunga qualche contesto divertente!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.