A parte Durbin-Watson, quali test di ipotesi possono produrre risultati inconcludenti?


10

La statistica del test di Durbin-Watson può trovarsi in una regione inconcludente, dove non è possibile né rifiutare né rifiutare l'ipotesi nulla (in questo caso, di autocorrelazione zero).

Quali altri test statistici possono produrre risultati "inconcludenti"?

Esiste una spiegazione generale (agitando la mano va bene) per quale motivo questa serie di test non è in grado di prendere una decisione binaria di "rifiuto" / "non rifiuto"?

Sarebbe un vantaggio se qualcuno potesse menzionare le implicazioni teoriche della decisione come parte della sua risposta a quest'ultima domanda - la presenza di una categoria aggiuntiva di (in) conclusione significa che dobbiamo considerare i costi di Tipo I e Tipo II errori in un modo più sofisticato?


2
Un po 'fuori tema, ma i test randomizzati hanno un tale sapore. Per alcuni valori dei dati, è necessario randomizzare oltre l'accettazione e il rifiuto.
Christoph Hanck,

@ChristophHanck grazie, è stata una connessione interessante che non avrei notato. Non quello che intendevo, ma stavo mantenendo la domanda volutamente vaga nella speranza che fosse un problema generale - a seconda della risposta (o delle risposte) potrei concentrare la sua attenzione in seguito.
Silverfish,

Risposte:


10

L' articolo di Wikipedia spiega che la distribuzione della statistica test sotto l'ipotesi nulla dipende dalla matrice di progettazione, la particolare configurazione dei valori predittivi utilizzati nella regressione. Durbin & Watson hanno calcolato limiti inferiori per la statistica del test in base alla quale il test per l'autocorrelazione positiva deve rifiutare, a determinati livelli di significatività, per qualsiasi matrice di progettazione e limiti superiori per i quali il test non deve rifiutare per qualsiasi matrice di progettazione. La "regione inconcludente" è semplicemente la regione in cui dovresti calcolare i valori critici esatti, tenendo conto della tua matrice di progettazione, per ottenere una risposta definitiva.

Una situazione analoga sarebbe quella di eseguire un test t a un solo campione quando si conosce solo la statistica t, e non la dimensione del campione : 1.645 e 6.31 (corrispondente a infiniti gradi di libertà e solo uno) sarebbe i limiti per un test di dimensioni 0,05.

Per quanto riguarda la teoria delle decisioni, hai una nuova fonte di incertezza da tenere in considerazione oltre alla variazione del campionamento, ma non vedo perché non dovrebbe essere applicato allo stesso modo delle ipotesi nulle composte. Sei nella stessa situazione di qualcuno con un parametro di disturbo sconosciuto, indipendentemente da come ci sei arrivato; quindi se devi prendere una decisione di rifiuto / trattenimento controllando l'errore di Tipo I su tutte le possibilità, respingi in modo conservativo (cioè quando la statistica di Durbin-Watson è sotto il limite inferiore o la statistica di t è superiore a 6.31).

† O forse hai perso i tuoi tavoli; ma può ricordare alcuni valori critici per un gaussiano standard e la formula per la funzione quantile di Cauchy.


(+1) Grazie. Sapevo che questo era il caso del test Durbin-Watson (avrei dovuto menzionarlo nella mia domanda in realtà), ma mi chiedevo se questo fosse un esempio di un fenomeno più generale e, in tal caso, se funzionassero essenzialmente allo stesso modo. La mia ipotesi era che potesse accadere, ad esempio, quando si eseguono determinati test mentre si ha accesso solo ai dati di riepilogo (non necessariamente in una regressione), ma DW è l'unico caso che ricordo di aver visto compilati e tabulati i valori critici superiore e inferiore . Se hai qualche idea su come posso indirizzare meglio la domanda sarebbe molto gradito.
Silverfish,

La prima domanda è un po 'vaga ("Quali altri test statistici [...]?"), Ma non credo che potresti chiarirla senza rispondere alla seconda ("Esiste una spiegazione generale [...]?") te stesso - nel complesso penso che vada bene così com'è.
Scortchi - Ripristina Monica

7

Un altro esempio di test con risultati probabilmente inconcludenti è un test binomiale per una proporzione quando è disponibile solo la proporzione, non la dimensione del campione. Questo non è del tutto irrealistico: spesso vediamo o ascoltiamo affermazioni scarsamente riportate del modulo "Il 73% delle persone concorda sul fatto che ..." e così via, dove il denominatore non è disponibile.

Supponiamo ad esempio che conosciamo solo la proporzione del campione arrotondata correttamente alla percentuale intera più vicina e desideriamo testare contro al livello .H 1 : π 0,5 α = 0,05H0:π=0.5H1:π0.5α=0.05

p=5%1195%α=0.05

p=49%

p=50%H0

p=0%p=50%p=5%p=0%p=100%p=16%Pr(X3)0.00221<0.025p=17%Pr(X1)0.109>0.025p=16%p=18%Pr(X2)0.0327>0.025p=19%il campione meno significativo possibile sono 3 successi in 19 prove con quindi questo è di nuovo significativo.Pr(X3)0.0106<0.025

In effetti è la percentuale arrotondata più alta inferiore al 50% per essere inequivocabilmente significativa al livello del 5% (il suo valore p più alto sarebbe per 4 successi in 17 prove ed è solo significativo), mentre è il risultato non zero più basso che è inconcludente (perché potrebbe corrispondere a 1 successo in 8 prove). Come si può vedere dagli esempi sopra, ciò che accade in mezzo è più complicato! Il grafico sotto ha una linea rossa a : i punti sotto la linea sono inequivocabilmente significativi ma quelli sopra di essa sono inconcludenti. Lo schema dei valori di p è tale che non ci saranno limiti inferiori e superiori singoli sulla percentuale osservata affinché i risultati siano inequivocabilmente significativi.p=24%p=13%α=0.05

Valore p minimo significativo del test binomiale con dimensione del campione sconosciuta

Codice R.

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Il codice di arrotondamento viene estratto da questa domanda StackOverflow .)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.