Ho appena visto una lezione sull'inferenza statistica ("confrontare proporzioni e mezzi"), parte di un'introduzione al corso online sulle statistiche. Il materiale per me aveva poco senso come sempre (ormai devo aver visto questa roba dozzine di volte, sparsa negli ultimi tre decenni).
Sto cercando un libro su "Stats-101 di base" (stima dei punti, valutazione della stima, inferenza statistica, verifica delle ipotesi, disegno dello studio) che prende sul serio il problema di convincere un lettore scettico ...
Di seguito fornisco alcuni esempi del tipo di domanda che l'autore che sto cercando prenderà sul serio e saprà affrontare in modo convincente.
Ma prima lasciami prendere un minuto per sottolineare che in questo post non sto ponendo queste domande. Per favore, non rispondere a loro! Li do solo come esempi e per mezzo di "cartina di tornasole" (per il tipo di autore di ricerca).
Se una "proporzione" è semplicemente la media di una variabile booleana (ovvero una che accetta solo i valori 0 e 1), perché vengono insegnate procedure diverse per fare inferenza statistica con "proporzioni" e con "significa"?
Se la distribuzione normale è così solida che assumere la normalità dà buoni risultati anche nei casi in cui tali dati non sono distribuiti in modo del tutto normale, e se la distribuzione t ha un aspetto così normale, perché tutte le storie sull'uso della distribuzione t invece che sul normale?
Cosa sono esattamente i "gradi di libertà" e perché ci preoccupiamo per loro?
Cosa significa parlare del valore "vero" di un parametro, considerando che stiamo usando solo distribuzioni che sembrano simili ai dati?
Come mai "l'analisi dei dati esplorativi" è una buona cosa, mentre "lo snooping dei dati" è una cosa cattiva?
Come ho detto, sono rimandato dall'atteggiamento implicito da una negligenza di tali domande. Non è la "posizione epistemologica" che voglio vedere in qualcuno che mi sta insegnando qualcosa. Sto cercando autori che rispettino lo scetticismo e la razionalità del lettore e che sappiano come affrontarli (senza necessariamente passare a pagine e pagine di formalismi e tecnicismi).
Mi rendo conto che questo è un ordine elevato, e forse soprattutto quando si tratta di statistiche. Pertanto, non mi aspetto che molti autori ci saranno riusciti. Ma al momento mi accontenterei di trovarne solo uno .
Consentitemi di aggiungere che non sono contrario alla matematica. Al contrario, adoro la matematica. (Sono a mio agio con l'analisi [alias "calcolo avanzato"], algebra lineare, teoria della probabilità, persino teoria della misura di base.)
Detto questo, al momento il mio interesse è per le statistiche "applicate", "pratiche", "quotidiane", "del mondo reale" (al contrario di quelle teoriche). (Ma non voglio nemmeno un libro di cucina!)
FWIW, ho letto i primi capitoli dell'analisi dei dati usando la regressione e modelli multilivello / gerarchici di Gelman e Hill, e mi piace il tono degli autori. Il loro focus è pratico, ma entra nella teoria quando necessario. Spesso fanno anche un passo indietro, valutano criticamente le pratiche standard e offrono opinioni schiette che fanno appello al senso comune di un lettore scettico. Sfortunatamente, questi autori non hanno scritto un libro dedicato all'argomento di cui sto chiedendo in questo post (materiale "Statistiche 101", come descritto sopra). Sono anche consapevole che uno di questi autori (Gelman) è stato coautore dell'analisi dei dati bayesiani molto apprezzata , ma, di nuovo, questo non è quello che sto cercando al momento.
MODIFICARE:
Dikran Marsupial solleva la seguente obiezione:
Non penso che ci sia necessariamente qualcosa di sbagliato nel trascurare le domande, arriva un punto in cui affrontare ogni domanda toglie l'esposizione dei concetti di base che è spesso più importante (specialmente in un libro di statistiche!).
Sono d'accordo. Sarebbe più preciso per me dire che sto cercando un "secondo sguardo alle statistiche di base". In effetti, con questo come motivazione, ho guardato i libri di testo usati nei corsi di laurea sull'inferenza (diciamo), e ho scoperto che anche loro trascuravano domande come quelle che ho elencato. Semmai, sembravano ancora meno inclini a approfondire tali domande (in modo che possano concentrarsi su questioni come le condizioni per una certa convergenza o altra di questa o quella ...).
Il problema è che i libri più avanzati sono indirizzati a una popolazione di lettori radicalmente diversa , in cui lo "scetticismo dell'esterno" è stato drasticamente esaurito. IOW, quelli che stanno prendendo le statistiche a livello di laurea hanno superato il punto di essere disturbati dalle domande che mi infastidiscono. Non sono più scettici su nessuna di queste cose. (Come sono riusciti a superare la gobba dello scetticismo? Forse alcuni non sono mai stati troppo critici in primo luogo, specialmente se hanno imparato le loro statistiche abbastanza presto - so che non ero una matricola particolarmente critica, per esempio, anche se non l'ho fatto poi prendi le statistiche. Altri potrebbero aver avuto insegnanti che hanno compilato i loro libri di testo. Alcuni potrebbero essere stati abbastanza intelligenti da capire da soli le risposte a tali domande. Chi lo sa.)