Inferenza per il lettore scettico (ma non contrario alla matematica)


14

Ho appena visto una lezione sull'inferenza statistica ("confrontare proporzioni e mezzi"), parte di un'introduzione al corso online sulle statistiche. Il materiale per me aveva poco senso come sempre (ormai devo aver visto questa roba dozzine di volte, sparsa negli ultimi tre decenni).

Sto cercando un libro su "Stats-101 di base" (stima dei punti, valutazione della stima, inferenza statistica, verifica delle ipotesi, disegno dello studio) che prende sul serio il problema di convincere un lettore scettico ...

Di seguito fornisco alcuni esempi del tipo di domanda che l'autore che sto cercando prenderà sul serio e saprà affrontare in modo convincente.

Ma prima lasciami prendere un minuto per sottolineare che in questo post non sto ponendo queste domande. Per favore, non rispondere a loro! Li do solo come esempi e per mezzo di "cartina di tornasole" (per il tipo di autore di ricerca).

  1. Se una "proporzione" è semplicemente la media di una variabile booleana (ovvero una che accetta solo i valori 0 e 1), perché vengono insegnate procedure diverse per fare inferenza statistica con "proporzioni" e con "significa"?

  2. Se la distribuzione normale è così solida che assumere la normalità dà buoni risultati anche nei casi in cui tali dati non sono distribuiti in modo del tutto normale, e se la distribuzione t ha un aspetto così normale, perché tutte le storie sull'uso della distribuzione t invece che sul normale?

  3. Cosa sono esattamente i "gradi di libertà" e perché ci preoccupiamo per loro?

  4. Cosa significa parlare del valore "vero" di un parametro, considerando che stiamo usando solo distribuzioni che sembrano simili ai dati?

  5. Come mai "l'analisi dei dati esplorativi" è una buona cosa, mentre "lo snooping dei dati" è una cosa cattiva?

Come ho detto, sono rimandato dall'atteggiamento implicito da una negligenza di tali domande. Non è la "posizione epistemologica" che voglio vedere in qualcuno che mi sta insegnando qualcosa. Sto cercando autori che rispettino lo scetticismo e la razionalità del lettore e che sappiano come affrontarli (senza necessariamente passare a pagine e pagine di formalismi e tecnicismi).

Mi rendo conto che questo è un ordine elevato, e forse soprattutto quando si tratta di statistiche. Pertanto, non mi aspetto che molti autori ci saranno riusciti. Ma al momento mi accontenterei di trovarne solo uno .

Consentitemi di aggiungere che non sono contrario alla matematica. Al contrario, adoro la matematica. (Sono a mio agio con l'analisi [alias "calcolo avanzato"], algebra lineare, teoria della probabilità, persino teoria della misura di base.)

Detto questo, al momento il mio interesse è per le statistiche "applicate", "pratiche", "quotidiane", "del mondo reale" (al contrario di quelle teoriche). (Ma non voglio nemmeno un libro di cucina!)

FWIW, ho letto i primi capitoli dell'analisi dei dati usando la regressione e modelli multilivello / gerarchici di Gelman e Hill, e mi piace il tono degli autori. Il loro focus è pratico, ma entra nella teoria quando necessario. Spesso fanno anche un passo indietro, valutano criticamente le pratiche standard e offrono opinioni schiette che fanno appello al senso comune di un lettore scettico. Sfortunatamente, questi autori non hanno scritto un libro dedicato all'argomento di cui sto chiedendo in questo post (materiale "Statistiche 101", come descritto sopra). Sono anche consapevole che uno di questi autori (Gelman) è stato coautore dell'analisi dei dati bayesiani molto apprezzata , ma, di nuovo, questo non è quello che sto cercando al momento.

MODIFICARE:

Dikran Marsupial solleva la seguente obiezione:

Non penso che ci sia necessariamente qualcosa di sbagliato nel trascurare le domande, arriva un punto in cui affrontare ogni domanda toglie l'esposizione dei concetti di base che è spesso più importante (specialmente in un libro di statistiche!).

Sono d'accordo. Sarebbe più preciso per me dire che sto cercando un "secondo sguardo alle statistiche di base". In effetti, con questo come motivazione, ho guardato i libri di testo usati nei corsi di laurea sull'inferenza (diciamo), e ho scoperto che anche loro trascuravano domande come quelle che ho elencato. Semmai, sembravano ancora meno inclini a approfondire tali domande (in modo che possano concentrarsi su questioni come le condizioni per una certa convergenza o altra di questa o quella ...).

Il problema è che i libri più avanzati sono indirizzati a una popolazione di lettori radicalmente diversa , in cui lo "scetticismo dell'esterno" è stato drasticamente esaurito. IOW, quelli che stanno prendendo le statistiche a livello di laurea hanno superato il punto di essere disturbati dalle domande che mi infastidiscono. Non sono più scettici su nessuna di queste cose. (Come sono riusciti a superare la gobba dello scetticismo? Forse alcuni non sono mai stati troppo critici in primo luogo, specialmente se hanno imparato le loro statistiche abbastanza presto - so che non ero una matricola particolarmente critica, per esempio, anche se non l'ho fatto poi prendi le statistiche. Altri potrebbero aver avuto insegnanti che hanno compilato i loro libri di testo. Alcuni potrebbero essere stati abbastanza intelligenti da capire da soli le risposte a tali domande. Chi lo sa.)


2
Molte di queste domande - quelle a cui non dobbiamo rispondere - hanno già buone risposte qui sul CV. Alcune di queste domande hanno anche risposte abbastanza banali. Ma ci sono un migliaio di domande che la gente pone durante qualsiasi argomento: non troverai mai una spiegazione che copra tutte le possibili domande, né troverai una che anticipa solo le domande specifiche che hai mentre stai guardando o lettura. Beh, potresti colpirne uno o due solo per caso, ma nel complesso è uno standard impossibile. Perché non porre semplicemente le domande quando si presentano? Su un sito che risponde alle domande?
Glen_b

2
Dirò domande simili sorgono quando le persone fanno statistiche (e alcuni libri rispondono ad alcune di esse), ma la maggior parte di loro non sono domande reali relative allo scetticismo - per lo più sono semplici domande di comprensione. es. "quali sono i gradi di libertà e perché ci preoccupiamo" non è affatto scettico, ma richiede chiarezza di spiegazione e motivazione. I motivi per cui gli utenti avanzati delle statistiche non si preoccupano di questo sono perché capiscono già perché sono così preziosi.
Glen_b

Risposte:


6

Hai già dei buoni suggerimenti. Eccone alcuni di più. Innanzitutto, due blog che ho letto sporadicamente e in cui a volte vengono discusse domande come te. Dato che sono blog, potresti anche porre domande e ottenere delle ottime risposte! Arrivano:

http://andrewgelman.com/ (Andrew Gelman)

http://errorstatistics.com/ (Deborah Mayo)

E alcuni libri che penso ti aiuteranno: Box, Hunter & Hunter: statistiche per sperimentatori.

Come dice il titolo, questo è un ("primo", ma davvero, davvero ... secondo) corso per persone che vorrebbero progettare i propri esperimenti e quindi analizzarli. Molto in alto nella parte "perché".

Quindi: DR Cox: Principles of Statistical Inference, un altro ottimo libro sul "perché" e non sul "come".

E, poiché chiedi perché i mezzi e le proporzioni sono trattati in modo diverso, ecco un libro che non lo fa: http://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728/ref=sr_1_1?s = libri & ie = UTF8 & qid = 1.373.395,118 mila & sr = 1-1 = & parole chiave liberto + statistiche

Basso in matematica, alto in principi.


8

Dubito piuttosto che ci sarà un unico libro adatto a te dato che le persone tendono ad essere scettiche su cose diverse, e i libri sono scritti per un pubblico target, piuttosto che per singoli. Questa è una delle cose buone dell'essere insegnate da una persona, piuttosto che solo un libro, che è che puoi fare domande mentre vai. Questa è una cosa piuttosto difficile da fare in un testo lineare.

Non penso che ci sia necessariamente qualcosa di sbagliato nel trascurare le domande, arriva un punto in cui affrontare ogni domanda toglie l'esposizione dei concetti di base che è spesso più importante (specialmente in un libro di statistiche!).

Sospetto che l'approccio migliore sia quello di ottenere un buon libro e poi cercare la risposta a domande senza risposta altrove. Ho uno scaffale pieno di testi statistici di fronte a me, semplicemente perché nessuno di loro in isolamento è tutto ciò di cui ho bisogno (nemmeno il libro di Jaynes; o).

Per il principiante assoluto, penso che il libro di Grant Foster "Capire le statistiche" sia un buon punto di partenza, ma sospetto che in questo caso sia piuttosto troppo semplice.


1
"Non penso che ci sia necessariamente qualcosa di sbagliato nel trascurare le domande ..." Penso che questa sia un'obiezione giusta; Ho aggiunto un EDIT al mio post per risolverlo.
kjo,

7

XΘXΘΘXtXΘ


5
+1 gran parte del motivo per cui le procedure statistiche sembrano discutibili è perché sono piuttosto contro-intuitive e un apprezzamento storico di come le statistiche sono finite così com'è, è probabilmente un buon approccio per lo scettico.
Dikran Marsupial,

2
@DikranMarsupial: In effetti, ho letto "La storia delle statistiche" di Stigler proprio per arrivare in fondo alle mie difficoltà con le statistiche. E ha aiutato alcuni. Sfortunatamente, lascia fuori gran parte dell'era Fisher vs Neyman, quando (sospetto) nacque gran parte della perplessità perversa. Ho tentato circa 50 pagine del libro di Hald, ma ho trovato impossibili da seguire le sue derivazioni: erano chiaramente indirizzate ai lettori con una significativa esperienza statistica ... Vieni a pensarci bene, penso che un libro indirizzato al laico istruito e intitolato "Perché le statistiche sono così strane? " venderebbe bene ... :)
kjo

4
IMHO la controintuitività delle statistiche precede l'era Fisher vs Neyman (sebbene l'intuitività non implichi l'utilità o viceversa). I libri di Ian Hacking potrebbero valere la pena, mi è piaciuto "The Emergence of Probability". Trovo che le statistiche bayesiane siano molto più facili da comprendere concettualmente rispetto alle statistiche frequentiste, ma molto più difficili da eseguire in pratica. Comprendere le differenze tra l'approccio bayesiano e quello frequentista mi ha aiutato molto a comprendere l'approccio frequentista.
Dikran Marsupial,

1
Grazie, darò un'occhiata a Hacking. I suoi libri sono a lungo in vista, anche se ho rimandato a leggerlo pensando che fosse più incentrato sulla filosofia della teoria della probabilità (una materia che trovo affascinante a sé stante). Detto questo, riconosco che almeno alcuni dei miei problemi con le statistiche incidono sull'interpretazione della probabilità, quindi forse leggere Hacking si occuperà almeno di alcune delle mie obiezioni.
giovedì

2
@kjo Ho letto la logica dell'inferenza statistica di Hacking e l'ho trovato molto "filosofico" - era convinto dell'idea della verosimiglianza come "supporto" e scendeva su Neyman-Pearson ma continuava con semplici esempi - non ha discusso di parametri fastidiosi, multi -inferenza di parametro o qualcosa di complicato (a meno che non me ne sia dimenticato). Vale la pena leggere, certamente, ma non lo consiglierei per cominciare.
Scortchi - Ripristina Monica

6

Abelson (1995), Statistics as Principled Argument è introduttivo e ha una visione interessante di alcune delle domande che spesso confondono gli studenti.

Ma forse devi solo leggere alcuni libri sulle statistiche teoriche (saltare tutte le cose su convergenza, spazi metrici, ecc.) E poi anche se non rispondono a domande specifiche come i tuoi esempi, sarai in grado di rispondere alla maggior parte di da soli, e guarda il resto, come suggerisce @Dikran.

Ho suggerito in un'altra discussione di leggere Cox & Hinkley, Theoretical Statistics o Cox, Principles of Statistical Inference insieme a Casella & Berger, Statistical Inference per comprendere le diverse prospettive che ci sono.


1
L'ho trovato interessante ma non credo che sia al livello previsto dall'OP.
Gala,

@Gael Probabilmente hai ragione, soprattutto in vista della modifica.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.