Cosa significa Fisher con questa citazione?


14

Continuo a vedere questa famosa citazione ovunque, ma non riesco a capire la parte enfatizzata ogni volta.

Un uomo che "rifiuta" provvisoriamente un'ipotesi, come una questione di pratica abituale, quando il significato è al livello dell'1% o superiore, verrà certamente confuso in non più dell'1% di tali decisioni. Perché quando l'ipotesi è corretta, si sbaglierà solo nell'1% di questi casi, e quando non è corretto non si sbaglierà mai nel rifiuto. [...] Tuttavia, il calcolo è assurdamente accademico, poiché in realtà nessun lavoratore scientifico ha un livello fisso di significatività al quale di anno in anno, e in ogni circostanza, rifiuta le ipotesi; piuttosto si concentra su ogni caso particolare alla luce delle sue prove e delle sue idee.Non bisogna dimenticare che i casi scelti per l'applicazione di un test sono manifestamente un insieme altamente selezionato e che le condizioni di selezione non possono essere specificate nemmeno per un singolo lavoratore; né che nell'argomentazione utilizzata sarebbe chiaramente illegittimo scegliere il livello effettivo di significatività indicato da un determinato processo come se fosse sua abitudine permanente usare solo questo livello.

(Metodi statistici e inferenza scientifica, 1956, pagg. 42-45)

Più specificamente, non capisco

  1. Perché i casi scelti per l'applicazione di un test sono "altamente selezionati"? Di 'che ti chiedi se l'altezza media delle persone all'interno di un'area è inferiore a 165 cm e decidi di condurre un test. La procedura standard, per quanto ne so, è disegnare a caso campioni dall'area e misurarne l'altezza. Come può essere altamente selezionato?
  2. Supponiamo che i casi siano altamente selezionati, ma in che modo ciò è legato alla scelta del livello di significatività? Considera ancora l'esempio sopra, se il tuo metodo di campionamento (quello che suppongo sia ciò a cui Fisher si riferisce come condizioni di selezione ) è distorto e in qualche modo favorisce le persone alte, allora l'intera ricerca è rovinata e la determinazione soggettiva del livello di significatività non può salvarlo.
  3. p

Risposte:


15

Ecco la mia parafrasi di ciò che dice Fisher nella tua citazione in grassetto. Non si deve dimenticare che molte cose vanno nella scelta dell'ipotesi da verificare, al punto che, anche per la decisione di una sola persona, non è possibile specificare tutto. Inoltre, non bisogna dimenticare che, per le ragioni sopra esposte, non è possibile decidere il livello di significatività di un determinato processo sempre allo stesso modo, come un'abitudine lunga la vita.

  1. È stata selezionata un'ipotesi scientifica che merita di essere testata rispetto a molte altre ipotesi concorrenti a causa dei pregiudizi del ricercatore e del loro attuale stato di conoscenza. Le ipotesi sono "altamente selezionate", non i campioni; le ipotesi sono i casi in cui applichiamo i test.

  2. Il processo di selezione delle ipotesi influenza il nostro livello di significatività. Se siamo molto sicuri di un'ipotesi, ciò dovrebbe rendere il livello di significatività meno rigoroso per soddisfare noi stessi. Se non siamo sicuri, esiste un onere della prova più elevato. Anche altri fattori entrano in gioco, come l'errore di tipo I che è peggiore del tipo II negli studi sui farmaci.

  3. Penso che quando dice "indicato da" significa semplicemente "scelto per". Sì, è un valore predefinito in cui rifiutiamo l'ipotesi se il valore p è più estremo.


10

I casi a cui si riferisce Fisher non sono osservazioni ma prove. Cioè, selezioniamo le ipotesi da testare. Non testiamo solo ipotesi casuali, ma le basiamo sull'osservazione, sulla letteratura, sulle teorie scientifiche e così via.

Se fatto dei test ipotesi casuale, allora il numero di volte che si sono scambiati (nella prima frase del tuo preventivo) sarebbe 1% (o qualsiasi valore è scelto). Ad esempio se testassimo ipotesi simili

  • La parità del numero di previdenza sociale di una persona è correlata al suo QI

  • Le persone dai capelli biondi lanciano gli Frisbee meglio delle persone dai capelli scuri

  • Il tempo necessario per ottenere una risposta su Cross Validated è correlato al numero di sillabe a tuo nome.

E testandone un intero gruppo all'1%, rifiuteremmo il null circa l'1% delle volte e lo faremmo in modo errato. (A meno che, ovviamente, non mi occupi di qualcosa con le suddette assurdità).

Una volta ho visto un articolo sul colore dei capelli e il lancio del frisbee - e ha trovato la differenza! Quindi chiamo questo genere di cose "ricerca del frisbee".

Ma la parte che mi piace di più dalla citazione è questa:

poiché, in effetti, nessun lavoratore scientifico ha un livello fisso di significatività al quale, di anno in anno, e in ogni circostanza, rifiuta le ipotesi; piuttosto si concentra su ogni caso particolare alla luce delle sue prove e delle sue idee.

Deve girare nella sua tomba.


4
Questa è una buona risposta, ma sono esitato a vedere la "ricerca del frisbee" come cose cattive. Finché le metodologie saranno impiegate correttamente (tenendo conto della dimensione dell'effetto, ecc.), Considererei il risultato plausibile. Voglio dire, si ritiene che il colore dei capelli non abbia nulla a che fare con il lancio del Frisbee, ma si è accettato che la Terra fosse al centro dell'universo fino a centinaia di anni fa! Possiamo criticare le persone per aver fatto cose sbagliate, ma non dovremmo incolpare nessuno per aver fatto domande. Detto questo, concordo sul fatto che alcune ipotesi sono meno utili di altre, ma possono comunque essere corrette .
nalzok,

E possono anche essere errori di tipo I.
Peter Flom - Ripristina Monica

1
Correlato: xkcd.com/882
jkdev

2

Cercando di vedere lo sfondo della citazione sono arrivato a una versione del libro (non sono sicuro di quale versione) abbia una citazione leggermente diversa

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

I tentativi che sono stati fatti per spiegare la cogenza dei test di significato nella ricerca scientifica, facendo riferimento a frequenze ipotetiche di possibili affermazioni, basate su di esse, essendo giuste o sbagliate, sembrano quindi perdere la natura essenziale di tali test. Un uomo che "rifiuta" provvisoriamente un'ipotesi, come una questione di pratica abituale, quando il significato è al livello dell'1% o superiore, verrà certamente confuso in non più dell'1% di tali decisioni. Perché quando l'ipotesi è corretta, si sbaglierà solo nell'1% di questi casi, e quando non è corretto non si sbaglierà mai nel rifiuto. Questa affermazione sulla disuguaglianza può quindi essere fatta. Tuttavia, il calcolo è assurdamente accademico, poiché in realtà nessun lavoratore scientifico ha un livello fisso di significatività al quale di anno in anno, e in ogni circostanza, rifiuta le ipotesi; piuttosto si concentra su ogni caso particolare alla luce delle sue prove e delle sue idee. Inoltre, il calcolo si basa esclusivamente su un'ipotesi che, alla luce delle prove, spesso non si ritiene affatto vera, in modo che la probabilità effettiva di una decisione errata, supponendo che tale frase abbia un significato, possa essere molto meno della frequenza che specifica il livello di significatività. Anche per un uomo pratico che rifiuta un'ipotesi, è ovviamente una questione di indifferenza con quale probabilità potrebbe essere portato ad accettare l'ipotesi in modo falso, perché nel suo caso non la accetta. spesso non si ritiene affatto vero, quindi l'effettiva probabilità di una decisione errata, supponendo che una frase del genere abbia un significato, può essere molto inferiore alla frequenza che specifica il livello di significatività. Anche per un uomo pratico che rifiuta un'ipotesi, è ovviamente una questione di indifferenza con quale probabilità potrebbe essere portato ad accettare l'ipotesi in modo falso, perché nel suo caso non la accetta. spesso non si ritiene affatto vero, quindi l'effettiva probabilità di una decisione errata, supponendo che una frase del genere abbia un significato, può essere molto inferiore alla frequenza che specifica il livello di significatività. Anche per un uomo pratico che rifiuta un'ipotesi, è ovviamente una questione di indifferenza con quale probabilità potrebbe essere portato ad accettare l'ipotesi in modo falso, perché nel suo caso non la accetta.

Mi sembra una critica usare l'espressione matematica delle possibilità di rifiuto, errori di tipo I, come un argomento rigoroso. Queste espressioni spesso non sono una buona espressione per ciò che è rilevante e non sono neppure rigorose.

  1. Perché i casi scelti per l'applicazione di un test sono "altamente selezionati"?

    Questo sembra riguardare la frase

    Inoltre, il calcolo si basa esclusivamente su un'ipotesi che, alla luce delle prove, spesso non si ritiene affatto vera

    Non siamo indifferenti verso l'ipotesi che viene testata e spesso un'ipotesi che viene testata non è ritenuta vera.

  2. in che modo ciò è legato alla scelta del livello di significatività?

    Questo riguarda

    così che la probabilità effettiva di una decisione errata, supponendo che una frase del genere abbia un significato, può essere molto inferiore alla frequenza che specifica il livello di significatività

    Il valore p è solo la frequenza di fare un errore quando l'ipotesi nulla è vera. Ma la frequenza effettiva di fare un errore sarà diversa (inferiore).

  3. qual è "l'attuale livello di significatività indicato da un particolare processo" riferito a

    Credo che questa parte si riferisca a una sorta di pirateria informatica. Cambiando il livello di significatività, alfa, dopo che si sono verificate le osservazioni per corrispondere al valore p osservato, e fingere che questo fosse il valore di interruzione dall'inizio.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.