Verifica di un picco statisticamente significativo


14

Ho un set di dati, e x . Vorrei testare la seguente ipotesi: c'è un picco in y ; cioè come x aumenta, y prima aumenta e poi diminuisce.yxyxy

La mia prima idea è stata quella di montare e x 2 in una reflex. Cioè, se trovo che il coefficiente prima di x è significativamente positivo e il coefficiente prima di x 2 è significativamente negativo, allora ho il supporto per l'ipotesi. Tuttavia, questo controlla solo un tipo di relazione (quadratica) e potrebbe non necessariamente catturare l'esistenza del picco.xx2xx2

Poi ho pensato di trovare , una tale regione di (valori ordinati di) x , che b è tra e , altre due regioni di che contengono almeno tanti punti quanti b , e che ¯ y b > ¯ y a e ¯ y b > ¯ y c in modo significativo. Se l'ipotesi è vera, dovremmo aspettarci molte di queste regioni b . Pertanto, se il numero di b è sufficientemente elevato, dovrebbe esserci un supporto per l'ipotesi.bxba xcxbyb¯>ya¯yb¯>yc¯bb

Pensi che io sia sulla buona strada per trovare un test adatto alla mia ipotesi? O sto inventando la ruota e esiste un metodo consolidato per questo problema? Apprezzerò molto il tuo contributo.

AGGIORNARE. La mia variabile dipendente è count (numero intero non negativo).y


Fa variano senza problemi con x ? In tal caso, puoi provare a montare un modello che include un modello più fluido (ad esempio un GAM) e quindi calcolare i primi derivati ​​del modello più uniforme e il loro intervallo di confidenza. Se la derivata sta significando aumentare, allora signif diminuendo hai una risposta. yx
Ripristina Monica - G. Simpson,

Risposte:


6

Stavo pensando anche all'idea di lisciatura. Ma c'è un'intera area chiamata metodologia della superficie di risposta che cerca picchi nei dati rumorosi (coinvolge principalmente l'uso di adattamenti quadratici locali ai dati) e c'era un famoso documento che ricordo con "Bump hunting" nel titolo. Ecco alcuni link a libri sulla metodologia della superficie di risposta. I libri di Ray Myer sono particolarmente ben scritti. Proverò a trovare la carta da caccia.

Metodologia della superficie di risposta: ottimizzazione di processi e prodotti mediante esperimenti progettati

Metodologia della superficie di risposta e argomenti correlati

Metodologia della superficie di risposta

Empirical Model-Building e superfici di risposta

Sebbene non sia l'articolo che stavo cercando, ecco un articolo molto rilevante di Jerry Friedman e Nick Fisher che tratta di queste idee applicate a dati ad alta dimensione.

Ecco un articolo con alcuni commenti online.

Quindi spero che almeno apprezzerai la mia risposta. Penso che le tue idee siano buone e sulla buona strada, ma sì, penso che potresti reinventare la ruota e spero che tu e gli altri vedrete questi eccellenti riferimenti.


3
Non ero tra i downvoter, ma le risposte sui siti SE dovrebbero essere più di un collegamento ai contenuti. Riassumendo il contenuto o fornendo una risposta di riepilogo, sarebbe quindi meglio collegarsi al contenuto per ulteriori dettagli.
Ripristina Monica - G. Simpson,

2
Sto votando questo perché (1) presenta una buona idea; (2) ha alcuni commenti; e (3) è supportato da alcuni collegamenti scelti con cura, incluso materiale liberamente disponibile. Sì, sembra tipicamente brutto, perché i collegamenti potrebbero essere formattati in modo più gradevole: ma spero che le persone non stiano soppesando pesantemente quell'aspetto delle risposte nelle loro decisioni di voto!
whuber

1
@whuber Sono d'accordo dopo essere stato in grado di leggerlo chiaramente grazie alla bella formattazione di Procastinator. +1 pure. Penso che ci sia abbastanza sintesi qui e alcuni argomenti sono quasi troppo complessi per qualcosa di più dell'idea fondamentale e un riferimento per ulteriori letture.
Erik

5
@MichaelChernick Si noti che non era una critica da me, solo offrendo un motivo per cui la gente avrebbe potuto giù votato. Non sarei d'accordo con loro se questo fosse il motivo perché penso che la tua risposta sia perfetta, specialmente con PRIM; Stavo solo consultando il mio Hastie et al (2009) su ciò che diceva su PRIM. Potresti voler aggiungere quel link alla risposta in quanto vi sono due sezioni su PRIM e il PDF è disponibile gratuitamente.
Ripristina Monica - G. Simpson,

1
@Nikita Qual è l'ipotesi statistica formale che vuoi testare? Per prima cosa devi trovare le vette, che è una grande parte di questo. Stai testando che il picco non è solo il risultato del rumore? Non sono sicuro di quale letteratura ci sia per risolvere questo problema, ma il mio pensiero sarebbe che potresti adattare una regressione polinomiale ai dati (forse un quadratico a livello locale). Da quello avresti una stima della varianza residua. Il significato statistico del termine quadratico sarebbe un test per il significato del picco.
Michael R. Chernick,

1

Anche se non hai risposto alla mia domanda, se la mia ipotesi è giusta stai cercando un test del rumore bianco che ammonta nel dominio della frequenza per mostrare che lo spettro è piatto. Quindi potrebbe essere utilizzato il test periodogramma di Fisher che in questo riferimento è chiamato kappa di Fisher. Vedi il link

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

Anche il test di Bartlett è menzionato nel riferimento. Ora rifiutare l'ipotesi nulla equivale a trovare un picco significativo nel periodogramma. Ciò significherebbe che esiste una componente periodica nelle serie temporali.

Poiché il test è nel dominio della frequenza e coinvolge le ordinate del periodogramma, le ordinate hanno una distribuzione chi quadro 2 sotto l'ipotesi nulla e sono indipendenti. Questa distribuzione speciale si verifica solo a causa della trasformazione nel dominio della frequenza. Se x fosse il tempo, questo non funzionerebbe nel dominio del tempo o in generale la distribuzione per ys non sarebbe chi quadrato indipendente.

m


Più chiedo su questo sito Web, più imparo =), questa volta sui test del rumore bianco e sulla necessità per me di fornire informazioni sufficienti nelle mie domande. Mi dispiace di non aver risposto prontamente alla tua domanda in precedenza. Penso che i test del rumore bianco per i residui sarebbero adatti quando gli errori sono normalmente distribuiti, ma la mia variabile dipendenteyè in realtà contare. Quindi non mi aspetto di vedere rumore bianco nei residui in ogni caso. Oppure mi sfugge qualcosa?
Nikita Samoylov il

Quindi y sono i dati di conteggio e cos'è xa variabile esplicativa continua? I miei precedenti suggerimenti probabilmente non funzionano in quel caso, ma c'è molta letteratura recente sui modelli di conteggio. Quindi, se puoi essere un po 'più specifico sui dati e sul problema, forse posso indicare una soluzione.
Michael R. Chernick il

Sì, y è conte, Xè continuo (ma non negativo). Non sono sicuro di quali altre informazioni sarebbero importanti.
Nikita Samoylov,

Non sono sicuro se questo aiuterà o meno, ma Cameron e Trivedi hanno pubblicato un libro sui modelli di regressione del conteggio e hanno una seconda edizione in uscita nel 2013. Ecco un link con alcune informazioni: cameron.econ.ucdavis.edu/racd/count .html
Michael R. Chernick il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.