Test di equivalenza per dati non normali?


9

Ho alcuni dati che non posso necessariamente supporre siano tratti da normali distribuzioni e vorrei condurre test di equivalenza tra gruppi. Per i dati normali, esistono tecniche come TOST (due test t unilaterali). Esiste qualcosa di analogo a TOST per i dati non normali?


1
Non ho familiarità con TOST, ma stai cercando Mann-Whitney? Questo è un test non parametrico (nel senso che non vengono fatte ipotesi sulle distribuzioni) che può fornire la prova che due gruppi provengono da distribuzioni diverse.
Nick Sabbe,

1
Sto cercando un test in cui l'ipotesi nulla sia che ci sia una differenza, e l'ipotesi alternativa è che non c'è (quasi) nessuna differenza.
Ryan C. Thompson,

Per piccoli campioni, puoi dare un'occhiata alle risposte in stats.stackexchange.com/questions/49782/… . Per campioni più grandi, l'approccio classico con i test t va bene grazie al Teorema del limite centrale.
Michael M,

3
Nulla nella frase "Due prove unilaterali" - né la logica sottostante implica la teoria normale. Dovrebbe essere perfettamente possibile adattarlo a un'alternativa di spostamento di posizione con una distribuzione non normale. Ma attenzione: in molti casi con dati non normali ciò che si desidera veramente è un tipo di test di equivalenza a spostamento di scala , e con altri tipi di dati, invece qualcos'altro. Sapere cosa è necessario dipende davvero da cosa stai misurando e da quale problema stai risolvendo. Invece di provare a spingere il piolo in un foro rotondo, vale la pena esaminarlo.
Glen_b

Risposte:


8

La logica di TOST impiegata per le statistiche di test t e z di tipo Wald (rispettivamente e , rispettivamente) può essere applicata alle approssimazioni z per test non parametrici come il segno , firma la classifica e classifica la somma delle prove. Per semplicità presumo che l'equivalenza sia espressa simmetricamente con un solo termine, ma estendere la mia risposta a termini di equivalenza asimmetrici è semplice.θ/sθθ/σθ

Un problema che si pone quando si fa questo è che se si è abituati ad esprimere il termine di equivalenza (diciamo, ) nelle stesse unità di , allora il termine di equivalenza deve essere espresso in unità del segno particolare, rango firmato, o statistica della somma dei ranghi, che è sia astrusa, e dipendente N .Δθ

Tuttavia, si possono anche esprimere termini di equivalenza TOST in unità della statistica del test stesso. Consideralo in TOST, se , quindi e . Se lasciamo , allora e . (Le statistiche qui espresse sono entrambe valutate nella coda destra : e .) Utilizzando le unità di zz=θ/σθz1=(Δθ)/σθz2=(θ+Δ)/σθε=Δ/σθz1=εzz2=z+εp 1 = P ( Z > z 1 ) p 2 = P (p1=P(Z>z1)p2=P(Z>z2) la distribuzione per definire la soglia di equivalenza / pertinenza può essere preferibile per i test non parametrici, poiché l'alternativa definisce la soglia in unità di ranghi firmati o somme di rango, che può essere sostanzialmente insignificante per i ricercatori e difficile da interpretare.

Se riconosciamo che (per intervalli di equivalenza simmetrici) non è possibile rifiutare alcuna ipotesi nulla TOST quando , allora potremmo procedere a prendere decisioni sulla dimensione appropriata del termine di equivalenza di conseguenza. Ad esempio .εz1αε=z1α+0.5

Questo approccio è stato implementato con opzioni per la correzione della continuità, ecc. Nel pacchetto tost per Stata (che ora include implementazioni TOST specifiche per i test Shapiro-Wilk e Shapiro-Francia), a cui è possibile accedere digitando Stata:

Modifica: perché la logica di TOST è solida e le formazioni di test di equivalenza sono state applicate ai test omnibus, sono stato convinto che la mia soluzione fosse basata su un profondo fraintendimento delle statistiche approssimative per i test di Shapiro-Wilk e Shapiro-Francia


3

Non è un TOST di per sé, ma il test di Komolgorov-Smirnov consente di testare il significato della differenza tra una distribuzione del campione e una seconda distribuzione di riferimento che è possibile specificare. Puoi usare questo test per escludere un tipo specifico di diversa distribuzione, ma non diverse distribuzioni in generale (almeno, non senza controllare l'inflazione degli errori attraverso i test di tutte le possibili alternative ... se questo è in qualche modo possibile). L'ipotesi alternativa per ogni test rimarrà l'ipotesi "catch-all" meno specifica, come al solito.

Se puoi accontentarti di un test delle differenze distributive tra due gruppi in cui l'ipotesi nulla è che i due gruppi siano distribuiti in modo equivalente, puoi usare il test di Komolgorov-Smirnov per confrontare la distribuzione di un gruppo con quella di un altro gruppo. Questo è probabilmente l'approccio convenzionale: ignora le differenze se non sono statisticamente significative e giustifica questa decisione con una statistica di prova.

In ogni caso, potresti voler considerare alcuni problemi più profondi derivanti dall'approccio "tutto o niente" al rifiuto di un'ipotesi nulla. Uno di questi problemi è molto popolare qui su Cross Validated: "I test sulla normalità sono" sostanzialmente inutili "? " Alla gente piace rispondere alle domande sui test di normalità con una domanda: "Perché vuoi testarlo?" L'intenzione, presumo, è generalmente di invalidare il motivo del test, che alla fine può portare nella giusta direzione. L'essenza di risposte utili alla domanda che ho collegato qui sembra essere la seguente:

  1. Se sei preoccupato per le violazioni delle ipotesi di test parametrici, dovresti semplicemente trovare un test non parametrico che non fa invece ipotesi distributive. Non verificare se è necessario utilizzare il test non parametrico; usalo e basta!
  2. Dovresti sostituire la domanda "La mia distribuzione è significativamente non normale?" con "Quanto è normale la mia distribuzione e in che modo ciò influirà sulle mie analisi di interesse?" Ad esempio, i test relativi alla tendenza centrale (in particolare coinvolgendo i mezzi) possono essere più sensibili all'asimmetria che alla curtosi, e viceversa per i test relativi alla (co) varianza. Tuttavia, ci sono solide alternative per la maggior parte degli scopi analitici che non sono molto sensibili a nessuno dei due tipi di non-normalità.

Se desideri ancora proseguire un test di equivalenza, ecco un'altra popolare discussione su Cross Validated che prevede test di equivalenza.


1
Il test di equivalenza è ben stabilito e si fraintendono le sue ipotesi nulle, che sono generalmente della forma H . Questa è un'ipotesi di intervallo che può tradurre, ad esempio, in due test unilaterali (TOST): H , o H . Se uno rifiuta H & H , allora devi concludere che , cioè che i tuoi gruppi sono equivalenti nell'intervallo . 0:|θθ0|Δ01:θθ0Δ01:θθ0Δ0102Δ<θθ0<Δ[Δ,Δ]
Alexis,

Giusto; Probabilmente ero un po 'fuorviante. Ho rimosso le parti a cui sembri obiettare. Tuttavia, penso che tu abbia formulato un po 'troppo forte il tuo commento. Nonostante il fatto che il dicotomico fail to/ rejectapproccio forzato sia ben definito, la maggior parte dei campioni non può precludere completamente la possibilità che il nulla sia vero. C'è quasi sempre qualche possibilità di errore di rifiuto falso se si insiste sul rifiuto, che di solito non è letteralmente necessario. Questo era probabilmente il punto più importante che intendevo sollevare inizialmente. Spero che ora sia un po 'più chiaro senza le cose cancellate
Nick Stauner,

2
Bene, a mio avviso, la forza dei test di equivalenza (ad es. H ) deriva dalla loro combinazione con i test familiari per la differenza (ad es. H ). Dai un'occhiata: (1) Rifiuta H e non rifiuta H , concludi la differenza rilevante ; (2) Non rifiutare H & Rifiuta H , concludere l' equivalenza (per ); (3) Rifiuta H e Rifiuta H , concludi una banale differenza (cioè è lì, ma non ti interessa); e (4) Non rifiutare H e Non rifiutare H+ 0 + 0 - 0 + 0 - 0 Δ + 0 - 0 + 0 - 000+0+00+0Δ0+00+0, concludere prove di indeterminatezza _ / _ sottodimensionate . Aggiunge energia all'analisi.
Alexis,

Naturalmente, i problemi di sensibilità e specificità, PPV e NPV non scompaiono.
Alexis,

-1

L'equivalenza non è mai qualcosa che possiamo testare . Pensa all'ipotesi: vs . La teoria NHST ci dice che, sotto lo zero, possiamo scegliere qualsiasi cosa sotto che si adatta meglio ai dati. Ciò significa che possiamo quasi sempre avvicinarci arbitrariamente alla distribuzione. Ad esempio, se voglio provare , il modello di probabilità che consente distribuzioni separate di e sarà sempre più probabile sotto il null, una violazione delle ipotesi di test critici. Anche se il campioneH 1 : f x = f y H 0 f x ~ N (0,1) f x f y X=Y f y f xH0:fxfyH1:fx=fyH0fxN(0,1)f^xf^yX=Yallo stesso modo, posso ottenere un rapporto di probabilità che è arbitrariamente vicino a 1 con .fyfx

Se si conosce un modello di probabilità adatto per i dati, è possibile utilizzare un criterio di informazioni penalizzate per classificare i modelli alternativi. Un modo è usare i BIC dei due modelli di probabilità (quello stimato sotto e . Ho usato un modello di probabilità normale, ma puoi facilmente ottenere un BIC da qualsiasi tipo della procedura di massima verosimiglianza, sia a mano che usando il GLM. Questo post Stackoverflow diventa estremamente grintoso per adattarsi alle distribuzioni. Un esempio di ciò è qui:H 1H0H1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

> mean(p)
[1] 0.034

p qui è la proporzione di volte in cui il BIC del modello null (modelli separati) è migliore (inferiore) rispetto al modello alternativo (modello equivalente). Ciò è notevolmente vicino al livello nominale di 0,05 test statistici.

D'altra parte se prendiamo:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

dà:

> mean(p)
[1] 0.437

Come nel caso dell'NHST, esistono sottili problemi di potenza e tassi di errore falsi positivi che dovrebbero essere esplorati con la simulazione prima di trarre conclusioni definitive.

Penso che un metodo simile (forse più generale) stia usando le statistiche bayesiane per confrontare il posteriore stimato in entrambi i modelli di probabilità.


2
AdamO sembra che tu stia confondendo "test di uguaglianza" con "test di equivalenza". Esiste una letteratura solida e vecchia di decenni nei metodi e nell'applicazione di quest'ultimo.
Alexis,

1
Vedi, ad esempio, Wellek, S. (2010). Verifica delle ipotesi statistiche di equivalenza e non inferiorità . Chapman and Hall / CRC Press, seconda edizione.
Alexis,

@Alexis hmm, purtroppo non abbiamo accesso a una biblioteca. Stai dicendo che l'equivalenza è la stessa della non inferiorità nella misura in cui le stime che si trovano all'interno di un margine sono considerate equivalenti?
AdamO,

1
Non del tutto: la non inferiorità è un test unilaterale per stabilire se un nuovo trattamento non ha prestazioni peggiori rispetto ad alcuni standard meno una minima differenza rilevante specificata a priori . I test di equivalenza sono test dell'ipotesi nulla secondo cui due (o più) quantità sono diverse, in entrambe le direzioni, da più di una minima differenza rilevante specificata a priori . Alcuni documenti fondamentali:
Alexis,

Schuirmann, DA (1987). Un confronto tra la procedura dei due test unilaterali e l'approccio energetico per valutare l'equivalenza della biodisponibilità media . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.