L'LSD di Fisher è così grave come si dice?


22

Quando eseguiamo esperimenti (su campioni di piccole dimensioni (di solito la dimensione del campione per gruppo di trattamento è di circa 7 ~ 8)) su due gruppi, utilizziamo un test t per verificare la differenza. Tuttavia, quando eseguiamo un ANOVA (ovviamente per più di due gruppi), usiamo qualcosa sulla falsariga di Bonferroni (LSD / # di confronti a coppie) o di Tukey come post hoc, e come studente, sono stato avvisato di utilizzando la differenza meno significativa di Fisher (LSD).

Il fatto è che l'LSD è simile al t-test a coppie (ho ragione?), E quindi l'unica cosa che non tiene conto è che stiamo facendo confronti multipli. Quanto è importante quando si tratta con diciamo 6 gruppi, se ANOVA è di per sé significativo?

O in altre parole, c'è qualche motivo scientifico / statistico per usare un LSD di Fisher?


1
Potresti chiarire chi sono " loro " e includere esempi di ciò che dicono? (Quanto male dicono che sia? Cerchiamo chiaramente di cosa stiamo discutendo qui.) Ho visto alcune critiche all'LSD, alcune giustificate, ma non so di aver visto quello che hai visto, né che ciò che ho visto richiederebbe abbastanza la caratterizzazione che hai lì.
Glen_b

+1 se sei venuto qui cercando di capire quale sito di scambio di stack parla di Timothy Learys LSD
PW Kad

@Glen_b Si riferiscono a scienziati nelle scienze biomediche. Le parole del mio professore erano, per citare "Usa Bonferroni o Tukey. Usa l'LSD solo nella disperazione. Se ciò non aiuta, usa l'altro LSD :)"
Rover Eye,

Risposte:


10

L'LSD di Fisher è in effetti una serie di test t a coppie, con ogni test che utilizza l'errore quadratico medio del significativo ANOVA come stima della varianza aggregata (e prendendo naturalmente i gradi di libertà associati). Il fatto che l'ANOVA sia significativo è un ulteriore vincolo di questo test.

Limita il tasso di errore familiare alfa solo nel caso speciale di 3 gruppi. Howell ha una spiegazione molto buona e relativamente semplice di come lo fa nel capitolo 16 del suo libro Fundamental Statistics for the Behavioral Sciences, ottava edizione, David C. Howell .

Sopra 3 gruppi l'alfa si gonfia rapidamente (come notato sopra da @Alexis). Non è certamente appropriato per 6 gruppi. Credo che sia questa limitata applicabilità a indurre la maggior parte delle persone a suggerire di ignorarla come opzione.


18

Quanto sono importanti i confronti multipli quando si ha a che fare con 6 gruppi? Bene ... con sei gruppi hai a che fare con un massimo di possibili confronti post hoc a coppie. Lascerò che l'inestimabile Randall Munroe affronti l'importanza di confronti multipli:6(6-1)2=15

inserisci qui la descrizione dell'immagine

E aggiungerò che se, come nella frase iniziale, suggerisci che a volte hai sette gruppi, il numero massimo di test a coppie post hoc è , che è di gran lunga troppo simile allo scenario Jellybean appena presentato (che presenta anche 21 prove;). Quindi, davvero, a meno che tu non voglia deridere il mondo mandandoti ripetutamente copie di xkcd 882 , vorrei solo andare avanti ed eseguire più aggiustamenti di confronto (o FWER, come Bonferroni o Holm-Sidak , o FDR come Benjamini e Hochberg ) .7(7-1)2=21


1
Punto ben fatto. Tuttavia, ciò non mette in discussione il fatto che se abbiamo pochissimi gruppi (diciamo 3 (3 a coppie) o 4 (6 a coppie)) la probabilità di trovare un valore significativo per caso è bassa? (di nuovo, l'LSD è protetto dal significato di ANOVA)
Rover Eye,

2
Non sono sicuro di aver capito cosa stai chiedendo dopo. Se conduci più di un singolo test di ipotesi, il significato sostanziale di e la sua relazione con gli errori di tipo I non acquisisce più, perché viene esplicitamente applicato a un singolo test (da qui la necessità di FWER o FDR). Se non ti interessano i tassi di errore di tipo I, allora perché condurre test di ipotesi? α
Alexis,

2
@Rover Avere 6 test a coppie che superano tutti con p> 0,05 significa già che hai p> 0,26, questo è un cambiamento piuttosto significativo.
Voo,

Non sto chiedendo nulla di pratico, sto solo riflettendo ad alta voce. Ma il tuo punto è ben fatto. @Voo true, l'errore tende a moltiplicarsi. Grazie ad entrambi.
Rover Eye,

10

Il test di Fisher è negativo come tutti dicono che sia dal punto di vista di Neyman-Pearson e se fai quello che la tua domanda implica --- dopo un significativo test ANOVA ogni singola differenza. Puoi vederlo in molti articoli pubblicati . Ma testare tutte le differenze dopo un ANOVA, o una qualsiasi di esse, non è né necessario né raccomandato. E il test di Fisher non è stato realizzato secondo una teoria dell'inferenza statistica di Neyman-Pearson.

È importante tenere presente che, quando Fisher ha proposto l'LSD, in realtà non ha considerato i test multipli un problema importante perché non ha considerato il taglio di significato una regola dura e veloce per decidere se i risultati fossero importanti o meno. Si potrebbe costruire un LSD come un modo semplice per esaminare i dati per cui potrebbero esserci risultati significativi ma non l'arbitro di ciò che era significativo. Ricorda, è stato Fisher a dire che dovresti eseguire più argomenti se p > 0,05.

E perché pensi che testare tutto sia una buona idea? Considera perché esegui un ANOVA in primo luogo. Probabilmente ti è stato insegnato che è perché eseguire più t-test è problematico, poiché sei intimo nella tua domanda. Allora perché li stai eseguendo, o il loro equivalente in seguito? So che succede, ma non ho ancora avuto bisogno di eseguire un test dopo un ANOVA. Un ANOVA ti dice che il tuo modello di dati non è un insieme di valori uguali, che potrebbe esserci qualche significato in esso. Molte persone restano bloccate dalla cautela che il test non ti dice dove sono i bit significativi ma dimenticano che i dati e le teorie te lo dicono.


Grazie per i documenti. fai una domanda sul perché le persone usano un post-hoc dopo un ANOVA. A dire la verità, non lo so davvero. Mi è stato detto che l'ANOVA è un test BLOB e, come hai detto, abbiamo dovuto scoprire dove sta il significato. E ad essere sincero, sono interessato a sapere come segnalare solo un ANOVA.
Rover Eye,

1
Dammi un modello di dati e ti dirò come segnalerei l'ANOVA. La versione breve è che descrivi i dati. Gli elementi molto vicini tra loro sarebbero raggruppati nella descrizione e quelli distanti considerati differenze significative (ma è tutto relativo). Diciamo che ho A = 20, B = 58, C = 61, p = 0,03. Segnalerei la statistica e direi che A è inferiore a B e C, che sono simili. Quindi, tutto dipende dai dati. Posso immaginare una sequenza di elementi un po 'problematici, (A = 10, B = 20, C = 30) in alcuni modi inferenziali, ma forse avrei dovuto fare una regressione.
Giovanni

È un modo abbastanza interessante per segnalare un ANOVA e posso vedere a cosa stai arrivando. Mentre posso sicuramente discuterne con i miei supervisori, non sono troppo sicuro di voler infrangere la "norma" di denunciare un ANOVA senza un post-controllo. Cercando di trovare pubblicazioni scientifiche che hanno riferito usando questo metodo.
Rover Eye,

2
Qualcosa è significativo nei dati. Abbastanza spesso è ovvio che cosa deve essere. Fare un post hoc per dimostrare l'ovvio dimostra solo che non sai cosa fa ANOVA in primo luogo.
Giovanni,

6

Il ragionamento alla base dell'LSD di Fisher può essere esteso a casi oltre N = 3.

Discuterò il caso di quattro gruppi in dettaglio. Per mantenere il tasso di errore di tipo I a livello familiare a 0,05 o inferiore, è sufficiente un fattore di correzione del confronto multiplo di 3 (ovvero un alfa per confronto di 0,05 / 3), sebbene vi siano sei confronti post-hoc tra i quattro gruppi. Questo è perché:

  • nel caso in cui tutti e quattro i mezzi veri siano uguali, l'omnibus Anova sui quattro gruppi limita il tasso di errore familiare a 0,05;
  • nel caso in cui tre dei mezzi veri siano uguali e il quarto differisca da loro, ci sono solo tre confronti che potrebbero potenzialmente produrre un errore di tipo I;
  • nel caso in cui due dei mezzi veri siano uguali e differiscano dagli altri due, che sono uguali tra loro, ci sono solo due confronti che potrebbero potenzialmente produrre un errore di tipo I.

Questo esaurisce le possibilità. In tutti i casi, la probabilità di trovare uno o più valori p inferiori a 0,05 per gruppi i cui valori reali sono uguali, rimane pari o inferiore a 0,05 se il fattore di correzione per confronti multipli è 3, e questa è la definizione del tasso di errore familiare.

Questo ragionamento per quattro gruppi è una generalizzazione della spiegazione di Fisher per il suo metodo della differenza minima significativa a tre gruppi. Per i gruppi N , il fattore di correzione, se il test Anova omnibus è significativo, è ( N -1) ( N -2) / 2. Quindi la correzione di Bonferroni, di un fattore N ( N -1) / 2, è troppo forte. È sufficiente utilizzare un fattore di correzione alfa di 1 per N = 3 (ecco perché l'LSD di Fisher funziona per N = 3), un fattore 3 per N = 4, un fattore 6 per N = 5, un fattore 10 per N = 6 e così via.


+1. Questa è un'ottima aggiunta al thread. Benvenuti nel sito!
ameba dice di reintegrare Monica il

Ogni situazione descritta non richiede alcun test post hoc.
Giovanni,

1
(N-1)(N-2)/2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.