Ho una domanda metodologica generale. Potrebbe aver ricevuto risposta prima, ma non sono in grado di individuare il thread pertinente. Apprezzerò i puntatori a possibili duplicati.
( Eccone uno eccellente, ma senza risposta. Anche questo è simile nello spirito, anche con una risposta, ma quest'ultimo è troppo specifico dal mio punto di vista. Anche questo è vicino, scoperto dopo aver pubblicato la domanda.)
Il tema è come fare un'inferenza statistica valida quando il modello formulato prima di vedere i dati non riesce a descrivere adeguatamente il processo di generazione dei dati . La domanda è molto generale, ma offrirò un esempio particolare per illustrare il punto. Tuttavia, mi aspetto che le risposte si focalizzino sulla questione metodologica generale piuttosto che sulla nitidezza dei dettagli del particolare esempio.
Considera un esempio concreto: in un'impostazione di serie temporali, presumo che il processo di generazione dei dati sia con . Mi propongo di verificare l'ipotesi sull'argomento che . Lo scrivo in termini di modello per ottenere una controparte statistica praticabile della mia ipotesi sull'argomento, e questo è Fin qui tutto bene. Ma quando osservo i dati, scopro che il modello non li descrive adeguatamente. Diciamo che esiste una tendenza lineare, quindi il vero processo di generazione dei dati è con
Come posso fare un'inferenza statistica valida sulla mia ipotesi sull'argomento ?
Se uso il modello originale, i suoi presupposti vengono violati e lo stimatore di non ha la buona distribuzione che altrimenti farebbe. Pertanto, non posso verificare l'ipotesi usando il test .
Se, visti i dati, passo dal modello a e cambio la mia ipotesi statistica da a , le ipotesi del modello sono soddisfatte e io ottiene uno stimatore ben educato di e può testare senza difficoltà usando il test . Tuttavia, il passaggio da a
è informato dal set di dati su cui desidero verificare l'ipotesi. Ciò rende la distribuzione dello stimatore (e quindi anche l'inferenza) subordinata alla modifica del modello sottostante, dovuta ai dati osservati. Chiaramente, l'introduzione di tale condizionamento non è soddisfacente.
C'è una buona via d'uscita? (Se non frequentatore, forse qualche alternativa bayesiana?)