Come selezionare la soluzione migliore senza dati eccessivi? Modellazione di una distribuzione bimodale con N funzioni normali, ecc


11

Ho una distribuzione ovviamente bimodale di valori, che cerco di adattare. I dati possono essere adattati bene con 2 funzioni normali (bimodali) o con 3 funzioni normali. Inoltre, esiste un motivo fisico plausibile per adattare i dati con 3.

Più parametri vengono introdotti, più perfetta sarà la misura, come con abbastanza costanti, si può " adattarsi a un elefante ".

Ecco la distribuzione, adatta alla somma di 3 curve normali (gaussiane):

Distribuzione con

Questi sono i dati per ogni adattamento. Non sono sicuro di quale test dovrei applicare qui per determinare l'adattamento. I dati sono composti da 91 punti.

1 funzione normale:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • Test F.: 0,3092

2 funzioni normali:

  • RSS: 0.010939
  • X ^ 2: 0.053896
  • Test F.: 0.97101

3 funzioni normali:

  • RSS: 0.00536
  • X ^ 2: 0.02794
  • Test F.: 0.99249

Qual è il test statistico corretto che può essere applicato per determinare quale di questi 3 attacchi è il migliore? Ovviamente, la normale funzione 1 è inadeguata. Quindi, come posso discriminare tra 2 e 3?

Per aggiungere, lo sto facendo principalmente con Excel e un po 'di Python; Non ho ancora familiarità con R o altri linguaggi statistici.


Mi è stato suggerito di usare il Chi quadrato ridotto X ^ 2 / (Nn-1) dove N è il numero di punti dati e n è il numero di parametri adattati. Tuttavia la piccola pentalty (+/- 3) relativa al numero di punti dati (91) non sembra intuitivamente una penalità particolarmente accentuata per l'aggiunta di un altro gaussiano.
MurphysLab

Potresti voler controllare questa risposta (nel caso in cui deciderai di seguire il Rpercorso). Alcuni criteri di selezione del modello sono menzionati in questa risposta . Infine, potresti prendere in considerazione i metodi di ensemble , che ho trattato brevemente in questa risposta , che contiene anche un collegamento a informazioni incentrate su Python. Puoi trovare maggiori dettagli sulla selezione del modello e la media in questa risposta .
Aleksandr Blekh,

Risposte:


5

Ecco due modi in cui potresti affrontare il problema di selezionare la tua distribuzione:

  1. Per il confronto tra modelli, utilizzare una misura che penalizzi il modello in base al numero di parametri. I criteri informativi lo fanno. Utilizzare un criterio di informazione per scegliere quale modello conservare, scegliere il modello con il criterio di informazione più basso (ad esempio AIC). La regola empirica per confrontare se una differenza in AIC è significativa è se la differenza in AIC è maggiore di 2 (questo non è un test di ipotesi formale, vedere Test della differenza in AIC di due modelli non nidificati ).

    2K-2ln(L)KLL ( θ | x ) = P r ( x | θ ) Pr ( x | θ ) x θL=maxθL(θ|X)L(θ|X)=Pr(X|θ)Pr(X|θ)Xθ

  2. Se si desidera un test di ipotesi formale, è possibile procedere in almeno due modi. Probabilmente quello più semplice è quello di adattare le vostre distribuzioni usando parte del vostro campione e di verificare se le distribuzioni dei residui sono significativamente diverse usando un test Chi-quadrato o Kolgomorov-Smirnov sul resto dei dati. In questo modo non si utilizzano gli stessi dati per adattarsi e testare il modello di cui AndrewM ha parlato nei commenti.

    È inoltre possibile eseguire un test del rapporto di verosimiglianza con un adeguamento alla distribuzione nulla. Una versione di questo è descritta in Lo Y. et al. (2013) "Test del numero di componenti nella miscela normale." Biometrika ma non ho accesso all'articolo, quindi non posso fornirti maggiori dettagli su come farlo esattamente.

    In ogni caso, se il test non è significativo, mantieni la distribuzione con il minor numero di parametri, se è significativo scegli quello con il maggior numero di parametri.


@Momo grazie, l'ho modificato e aggiunto l'equazione per AIC
Chris Novak il

Non sono sicuro al 100%, ma l'AIC standard potrebbe non funzionare come previsto nei modelli di miscela in quanto diverse configurazioni delle miscele potrebbero produrre lo stesso modello.
Cagdas Ozgenc,

Quello che volevo dire è che puoi scambiare i 2 gaussiani (impostando la media / varianza di 1 ° al 2 ° e 2 ° al 1 ° e anche per i wights della miscela) e ottenere comunque lo stesso modello. Per quanto ne so, AIC non funziona come previsto in tali situazioni.
Cagdas Ozgenc,

1
@CagdasOzgenc Vedo il tuo punto, ma sembra che AIC e BIC standard si siano dimostrati adeguati per la selezione dei modelli in modelli di miscele gaussiane, vedi ad esempio il documento projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak

1
χ2χ2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.