Quali sono i peccati statistici comuni?


227

Sono uno studente laureato in psicologia e mentre perseguo studi sempre più indipendenti in statistica, sono sempre più sorpreso dall'inadeguatezza della mia formazione formale. Sia l'esperienza personale che quella di seconda mano suggeriscono che la scarsità di rigore statistico nella formazione universitaria e universitaria è piuttosto onnipresente nella psicologia. In quanto tale, ho pensato che sarebbe utile per gli studenti indipendenti come me creare un elenco di "peccati statistici", tabulando le pratiche statistiche insegnate agli studenti laureati come pratica standard che sono in realtà sostituite da superiori (più potenti o flessibili, oppure metodi moderni robusti, ecc.) o mostrati francamente non validi. Anticipando che anche altri campi potrebbero sperimentare una situazione simile, propongo un wiki della comunità in cui possiamo raccogliere un elenco di peccati statistici in tutte le discipline.


5
Sono consapevole che il "peccato" è probabilmente infiammatorio e che alcuni aspetti dell'analisi statistica non sono in bianco e nero. La mia intenzione è di sollecitare casi in cui una determinata pratica comunemente insegnata è piuttosto chiaramente inappropriata.
Mike Lawrence,

5
Se vuoi, puoi anche aggiungere studenti di biologia / scienze della vita;)
nico,

1
forse retitle peccati statistici sulle scienze della vita? ... o qualcos'altro più specifico ...
Giovanni,

1
@whuber C'erano alcune buone risposte, quindi le ho unite entrambe.

1
Ciao @Amanda, potresti darci qualche indicazione su cosa c'è nel discorso? A nessuno piace la possibilità di essere rick-rolled.
naught101

Risposte:



115

La maggior parte delle interpretazioni dei valori p sono peccaminose! L'uso convenzionale dei valori di p è gravemente imperfetto; un fatto che, a mio avviso, mette in discussione gli approcci standard all'insegnamento di test di ipotesi e test di significato.

Haller e Krause hanno scoperto che gli istruttori statistici hanno quasi la stessa probabilità degli studenti di interpretare erroneamente i valori p. (Fai il test nel loro articolo e guarda come fai.) Steve Goodman è un buon caso per scartare l'uso convenzionale (errato) del valore p in favore delle probabilità. Anche la carta Hubbard merita una visita.

Haller e Krauss. Interpretazioni errate di significato: un problema che gli studenti condividono con i loro insegnanti . Metodi di ricerca psicologica (2002) vol. 7 (1) pp. 1-20 ( PDF )

Hubbard e Bayarri. Confusione su misure di evidenza (p) contro errori (α) nei test statistici classici . The American Statistician (2003) vol. 57 (3)

Buon uomo. Verso statistiche mediche basate sull'evidenza. 1: L'errore di valore P. Ann Intern Med (1999) vol. 130 (12) pagg. 995-1004 ( PDF )

Vedi anche:

Wagenmakers, EJ. Una soluzione pratica ai problemi pervasivi dei valori di p. Psychonomic Bulletin & Review, 14 (5), 779-804.

per alcuni casi chiari in cui persino l'interpretazione nominalmente "corretta" di un valore p è stata resa errata a causa delle scelte fatte dallo sperimentatore.

Aggiornamento (2016) : nel 2016 l'American Statistical Association ha rilasciato una dichiarazione sui valori p, vedere qui . Questa è stata, in un certo senso, una risposta al "divieto di valori p" pubblicato da un giornale di psicologia circa un anno prima.


2
@Michael (+1) Ho aggiunto collegamenti ad abstract e PDF non controllati. Spero non ti dispiaccia.
chl

7
+1, ma vorrei fare alcuni commenti critici. Per quanto riguarda la linea di apertura, si potrebbe anche dire che le interpretazioni "quasi tutte" (nel senso teorico della misura) di qualsiasi concetto ben definito sono errate, perché solo una è corretta. Secondo, a cosa ti riferisci quando dici "l'uso convenzionale" e "approcci standard"? Questi riferimenti vaghi sembrano un uomo di paglia. Ad esempio, non concordano con ciò che si può trovare nella letteratura sull'educazione statistica.
whuber

4
@Whuber Dai un'occhiata al documento di Goodman. Si accorda abbastanza bene con la mia esperienza nel campo della farmacologia. I metodi dicono "Risultati in cui P <0,05 sono stati considerati significativi dal punto di vista statistico" e quindi i risultati sono presentati con + per p <0,05, ++ per p <0,01 e +++ per p <0,0001. L'affermazione implica il controllo dei tassi di errore alla Neyman e Pearson, ma l'uso di diversi livelli di p suggerisce l'approccio di Fisher in cui il valore p è un indice della forza dell'evidenza contro l'ipotesi nulla. Come sottolinea Goodman, non è possibile controllare contemporaneamente i tassi di errore e valutare la forza delle prove.
Michael Lew,

8
@Michael Ci sono interpretazioni alternative e più generose di quel tipo di segnalazione. Ad esempio, l'autore potrebbe essere consapevole del fatto che i lettori potrebbero voler applicare le proprie soglie di significato e quindi eseguire la segnalazione di valori p per aiutarli. In alternativa, l'autore potrebbe essere a conoscenza di possibili problemi di confronto multiplo e utilizzare i diversi livelli in una regolazione simile a Bonferroni. Forse una parte della colpa per l'uso improprio dei valori p dovrebbe essere posta ai piedi del lettore, non dell'autore.
whuber

4
@Whuber Sono completamente d'accordo, ma solo che ciò che suggerisci è vero in una piccola parte dei casi (una versione limitata di "interamente"). Ci sono alcune riviste che specificano che i valori di p devono essere riportati a uno, due o tre stelle anziché valori esatti, quindi quelle riviste condividono una certa responsabilità per il risultato. Tuttavia, sia quel requisito sconsiderato che l'uso apparentemente ingenuo dei valori di p potrebbero essere il risultato della mancanza di una chiara spiegazione delle differenze tra i tassi di errore e le prove nei vari testi statistici introduttivi che sono sui miei scaffali.
Michael Lew,

73

La trappola più pericolosa che ho riscontrato quando ho lavorato su un modello predittivo non è prenotare un set di dati di test in anticipo per dedicarlo alla valutazione "finale" delle prestazioni.

È davvero facile sopravvalutare l'accuratezza predittiva del tuo modello se hai la possibilità di utilizzare in qualche modo i dati di test quando modifichi i parametri, selezionando il precedente, selezionando l'algoritmo di apprendimento che interrompe il criterio ...

Per evitare questo problema, prima di iniziare a lavorare su un nuovo set di dati è necessario dividere i dati come:

  • set di sviluppo
  • set di valutazione

Quindi dividi il tuo set di sviluppo come "set di sviluppo del training" e "set di sviluppo del testing" in cui usi il set di sviluppo del training per addestrare vari modelli con parametri diversi e selezionare i migliori in base alle prestazioni sul set di sviluppo del testing. Puoi anche eseguire la ricerca della griglia con convalida incrociata ma solo sul set di sviluppo. Non utilizzare mai il set di valutazione mentre la selezione del modello non viene eseguita al 100%.

Una volta che si è sicuri della selezione del modello e dei parametri, eseguire una convalida incrociata di 10 volte sul set di valutazione per avere un'idea della precisione predittiva "reale" del modello selezionato.

Inoltre, se i tuoi dati sono temporali, è meglio scegliere la suddivisione sviluppo / valutazione su un codice temporale: "È difficile fare previsioni, soprattutto per il futuro".


5
Sono d'accordo con questo in linea di principio, ma nel caso di un piccolo set di dati (spesso ho solo 20-40 casi) l'uso di un set di valutazione separato non è pratico. La validazione incrociata nidificata può aggirare il problema, ma può portare a stime pessimistiche su piccoli set di dati
BGreene

11
In generale ci vuole un enorme set di dati affinché la suddivisione dei dati sia affidabile. Ecco perché la rigorosa convalida interna con il bootstrap è così attraente.
Frank Harrell,

Soprattutto quando il set di sviluppo è costituito da dati passati e la valutazione imposta dati futuri. Perché no, dopo tutto l'ottimizzazione del modello, addestrare il modello finale con i suoi parametri fissi sull'intero set di sviluppo e prevedere con esso l'intero set di valutazione. In uno scenario reale, non è possibile incrociare la convalida attraverso i dati futuri nel modo in cui si descrive comunque, quindi si utilizzerebbero tutti i dati passati rilevanti.
David Ernst,

64

Riportare i valori p quando si eseguiva il data mining (scoperta di ipotesi) anziché le statistiche (test di ipotesi).


2
Puoi (o qualcuno) elaborare?
antoine-sac,


Che dire dei valori di p corretti per il test di ipotesi multiple (con qualche sapore del metodo Bonferroni o una correzione più avanzata)? Tenderei a pensare che vada bene, anche nel contesto del data mining?
antoine-sac,

Mi piace l'idea generale, ma è una distorsione equiparare le statistiche ai test di ipotesi quando quest'ultimo è un sottoinsieme del primo.
rolando2,

46

Verifica delle ipotesi contro (ad esempio in un'impostazione gaussiana)H 1 : μ 0H0:μ=0H1:μ0

per giustificare che in un modello (ovvero il mix " non è rifiutato" e " è vero").H 0 H 0μ=0H0H0

Un ottimo esempio di quel tipo di ragionamento (molto negativo) è quando si verifica se le varianze di due gaussiani sono uguali (o meno) prima di verificare se la loro media è uguale o meno con l'assunzione di una varianza uguale.

Un altro esempio si verifica quando si verifica la normalità (rispetto alla non normalità) per giustificare la normalità. Ogni statistico lo ha fatto nella vita? è baaad :) (e dovrebbe spingere le persone a verificare la solidità alla non gaussianità)


6
La stessa logica (prendendo "assenza di prove a favore di H1" come "prova di assenza di H1") è essenzialmente alla base di tutti i test di bontà di adattamento. Il ragionamento spesso emerge anche quando le persone affermano che "il test non è stato significativo, pertanto possiamo concludere che non vi è alcun effetto del fattore X / nessuna influenza della variabile Y". Immagino che il peccato sia meno grave se accompagnato da ragionamenti sulla potenza del test (ad esempio, una stima a priori della dimensione del campione per raggiungere una certa potenza data una certa dimensione dell'effetto pertinente).
Caracal,

Se non si prende in considerazione il potere, direi che il claming è vero quando non è rifiutato è molto brutto mentre il claming è vero mentre è rifiutato è solo un po 'sbagliato :). H 1 H 0H0H1H0
Robin Girard,

Grande!! Sì, questo mi fa impazzire ..
jpillow l'

3
Cerco di essere statisticamente alfabetizzato e di tanto in tanto mi innamoro di questo. Quali sono le alternative? Cambia il tuo modello in modo che il vecchio null diventi ? L'unica altra opzione a cui riesco a pensare è potenziare il tuo studio abbastanza che un fallimento nel rifiutare il nulla è in pratica abbastanza vicino da confermare il nulla. Ad esempio, se vuoi assicurarti che l'aggiunta di un reagente alle tue cellule non uccida più del 2% di esse, ottieni una percentuale di falsi negativi soddisfacente. H1
DocBuckets,

Il test di equivalenza di @DocBuckets con due test unilaterali è più rigoroso dell'approccio basato sulla potenza. Ma devi impostare una dimensione minima di effetto rilevante al di sotto della quale puoi parlare di equivalenza pratica.
David Ernst,

46

Alcuni errori che mi danno fastidio:

  1. Supponendo che gli stimatori imparziali siano sempre migliori degli stimatori distorti.

  2. Supponendo che un alto implichi un modello buono, un basso implica un modello cattivo.R 2R2R2

  3. Interpretazione / applicazione errata della correlazione.

  4. Stime dei punti di segnalazione senza errori standard.

  5. Utilizzo di metodi che assumono una sorta di normalità multivariata (come l'analisi lineare discriminante) quando sono disponibili metodi non / semiparametrici più robusti, più performanti.

  6. Usare il valore p come misura di forza tra un predittore e la risposta, piuttosto che come misura di quante prove ci siano di alcune relazioni.


5
Li divideresti in opzioni separate?
Russellpierce,

41

Dicotomizzazione di una variabile predittiva continua per "semplificare" l'analisi o per risolvere il "problema" della non linearità nell'effetto del predittore continuo.


18
Non penso che questo sia davvero un "peccato" in quanto i risultati ottenuti non sono sbagliati. Tuttavia, elimina molte informazioni utili, quindi non è una buona pratica.
Rob Hyndman,

2
Lungo queste linee, usando gruppi estremi è possibile progettare dimensioni di effetti sovrastimate, mentre l'uso di dimensioni di effetti sottovalutate suddivise in media o mediana.
Russellpierce,

2
Questo non è nemmeno un peccato se ci sono due o più popolazioni distinte. Supponiamo di avere classi o sottopopolazioni separabili, quindi può avere senso discretizzare. Un esempio molto banale: preferirei utilizzare gli indicatori per sito / posizione / città / paese o lat / long?
Iteratore

3
+1 e diventa un peccato grave quando iniziano a scegliere il taglio di dicotomizzazione in modo da ottimizzare una sorta di differenza che viene quindi testata.
Erik,

5
@Iteratore inizi a capire il vero motivo per aggregare (in due o più categorie), perché uno ha ragioni teoriche a priori per credere che la varianza sia significativamente compartimentata in quelle categorie . Ad esempio, lo facciamo continuamente supponendo che le raccolte di circa un trilione di cellule costituiscano un individuo o che un periodo contiguo di 24 ore qui sulla Terra sia interpretato in modo significativo come un'unità. Ma l'aggregazione arbitraria non solo "elimina" le informazioni (ad esempio il potere statistico), ma può portare a pregiudizi (gravi) sulle relazioni tra i fenomeni.
Alexis,

41

Non rispondo davvero alla domanda, ma c'è un intero libro su questo argomento:

Phillip I. Good, James William Hardin (2003). Errori comuni nelle statistiche (e come evitarli). Wiley. ISBN 9780471460688


6
+1 Mi sono assicurato di leggere questo libro poco dopo che è uscito. Ho molte opportunità di fare errori statistici, quindi sono sempre grato di averli segnalati prima di farli!
whuber


41

Statistiche ritualizzate.

Questo "peccato" è quando applichi qualunque cosa ti sia stata insegnata, indipendentemente dalla sua adeguatezza, perché è come le cose vengono fatte. Sono le statistiche per ordine, un livello sopra che consente alla macchina di scegliere le statistiche per te.

Esempi sono gli studenti introduttivi a livello statistico che cercano di far sì che tutto si adatti al loro modesto t-test e al toolkit ANOVA, o ogni volta che ci si trova ad andare "Oh, ho dati categorici, dovrei usare X" senza mai smettere di guardare dati o considera la domanda che viene posta.

Una variazione su questo peccato implica l'uso di codice che non si capisce per produrre un output che solo si capisce, ma si conosce "la quinta colonna, circa 8 righe in basso" o qualunque sia la risposta che si dovrebbe cercare.


6
Purtroppo, se non siete interessati a inferenza statistica, o sono scarse su tempo e / o risorse, il rituale sembra molto più bella ...
probabilityislogic

Per me la descrizione di Epigrad è di qualcuno che si preoccupa eccessivamente dell'inferenza e trascura cose come la riflessione, la scoperta e la considerazione della causalità.
rolando2,

35

Forse regressione graduale e altre forme di test dopo la selezione del modello.

La selezione di variabili indipendenti per la modellazione senza avere alcuna ipotesi a priori dietro le relazioni esistenti può portare a errori logici o correlazioni spurie, tra gli altri errori.

Riferimenti utili (dal punto di vista biologico / biostatistico):

  1. Kozak, M., e Azevedo, R. (2011). È sensato utilizzare la selezione di variabili graduali per creare modelli di analisi del percorso sequenziale? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB e Freckleton, RP (2006). Perché utilizziamo ancora la modellazione graduale in ecologia e comportamento? The Journal of animal ecology, 75 (5), 1182-9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Regressione Modeling Strategies , Springer 2001.


32

Qualcosa che vedo una quantità sorprendente negli articoli della conferenza e persino nelle riviste sta facendo paragoni multipli (ad esempio di correlazioni bivariate) e quindi riportando tutti i p <.05 come "significativi" (ignorando la correttezza o l'erroneità di quello per il momento).

So anche cosa intendi per laureati in psicologia: ho finito un dottorato in psicologia e sto ancora imparando davvero. È piuttosto male, penso che la psicologia debba prendere più seriamente l'analisi quantitativa dei dati se vogliamo usarla (che, chiaramente, dovremmo)


9
Questo è particolarmente importante. Ricordo di aver letto uno studio sul fatto che il Ramadan fosse dannoso per i bambini le cui madri stavano digiunando. Sembrava plausibile (meno cibo, minor peso alla nascita), ma poi ho guardato l'appendice. Migliaia di ipotesi, e alcune percento erano comprese nell'intervallo "significativo". Ottieni strane "conclusioni" come "fa male al bambino se il Ramadan è il 2o, 4o o 6o mese".
Carlos,

29

Essere esplorativi ma fingere di essere confermativi. Ciò può accadere quando si modifica la strategia di analisi (ad esempio adattamento del modello, selezione delle variabili e così via) basata sui dati o sui risultati, ma non dichiarando apertamente questo e quindi riportando solo i risultati "migliori" (cioè con i valori p più piccoli) come se era stata l'unica analisi. Ciò vale anche al punto se più test effettuati da Chris Beeley e danno luogo a un alto tasso di falsi positivi nei rapporti scientifici.


26

Quello che vedo abbastanza spesso e macina sempre i miei ingranaggi è l'assunto che un effetto principale statisticamente significativo in un gruppo e un effetto principale non statisticamente significativo in un altro gruppo implica un effetto significativo x l'interazione di gruppo.


24

Soprattutto in epidemiologia e sanità pubblica - usando l'aritmetica anziché la scala logaritmica quando si riportano i grafici delle relative misure di associazione (hazard ratio, odds ratio o risk ratio).

Maggiori informazioni qui .


5
Per non parlare del fatto che non li etichettiamo affatto xkcd.com/833
radek,

23

La correlazione implica una causalità, che non è così grave come accettare l'ipotesi nulla.


ma a volte ... a volte le potenziali direzioni della causalità hanno probabilità molto diverse. Non penserò certamente che una correlazione tra età e altezza potrebbe essere causata dall'altezza ... o da qualche variabile interveniente. Inoltre, penso che questo sia uno di quelli a cui l'addestramento scientifico comportamentale è generalmente abbastanza sensibile.
Giovanni,

anzi, dedurre qualcosa dal A and B are correlatedsolito vedere solo A causes Bma non B causes A... (e dimenticare su Cquali cause Ae B)
Andre Holzner,

12
google guadagna $ 65 miliardi all'anno senza preoccuparsi della differenza ...
Neil McGuigan

5
Sono d'accordo con i tuoi punti e sono tutti validi. Ma il profitto di Google implica: correlazione => causalità?
suncoolsu,

3
Google fa tutti quei soldi senza preoccuparsi del nesso di causalità. Anzi, perché dovrebbe? La previsione è la cosa ...
conjugateprior

23

Analisi dei dati di velocità (accuratezza, ecc.) Mediante ANOVA, assumendo quindi che i dati di velocità abbiano errori di distribuzione gaussiana quando sono effettivamente distribuiti binomialmente. Dixon (2008) fornisce una discussione sulle conseguenze di questo peccato e l'esplorazione di approcci di analisi più appropriati.


4
Quanto diminuisce la potenza dell'analisi? In quali condizioni è più problematico? In molti casi le deviazioni dalle ipotesi di ANOVA non incidono in modo sostanziale sui risultati in misura significativa.
Michael Lew,

Qual è l'alternativa alla procedura ANOVA?
Henrik,

@Michael Lew & Henrik: ho appena aggiornato questa voce per includere un collegamento a Dixon (2008)
Mike Lawrence

2
Ma in breve, è più problematico quando le probabilità osservate sono basse o alte poiché l'intervallo di valori è limitato e incapace di soddisfare le ipotesi gaussiane.
Russellpierce,

Ciò è negativo solo quanto l'approssimazione normale al binomio - dovrebbe andare bene, a condizione che ciascun caso sia ponderato dal denominatore utilizzato nel calcolo della tariffa. Ci si aspetterebbe che funzioni male per tassi inferiori al 10% e superiori al 90%.
probabilityislogic

18

Un modello popolare attuale sta pianificando intervalli di confidenza al 95% attorno ai valori di prestazione grezzi in progetti di misure ripetute quando si riferiscono solo alla varianza di un effetto. Ad esempio, un diagramma dei tempi di reazione in un disegno di misure ripetute con intervalli di confidenza in cui il termine di errore è derivato dal MSE di un ANOVA di misure ripetute. Questi intervalli di confidenza non rappresentano nulla di sensato. Certamente non rappresentano nulla del tempo di reazione assoluto. È possibile utilizzare il termine di errore per generare intervalli di confidenza attorno all'effetto, ma ciò avviene raramente.


Esiste un articolo standard che può essere citato per dissuadere i revisori dal chiedere questa pratica fin troppo comune?
Russellpierce,

L'unica critica che conosco è Blouin & Riopelle (2005) ma non arrivano al nocciolo della questione. In genere non insisto a non mostrarli ma a fare qualcosa di corretto come nei grafici degli effetti di Masson & Loftus (2003, vedi figura 4, pannello di destra ... se fossero stati rimossi da quello di sinistra avresti fatto bene ).
Giovanni,

Giusto per essere chiari, il problema con questi CI è che sono usati puramente per motivi inferenziali rispetto alle differenze tra le condizioni e quindi sono anche peggiori del PLSD ... in effetti li preferisco. Almeno sono onesti.
Giovanni,

17

Mentre posso fare riferimento a gran parte di ciò che dice Michael Lew, abbandonare i valori di p in favore dei rapporti di probabilità manca ancora un problema più generale: quello di dare troppa enfasi ai risultati probabilistici rispetto alle dimensioni degli effetti, che sono necessari per dare un significato sostanziale al risultato. Questo tipo di errore si presenta in tutte le forme e dimensioni e trovo che sia l'errore statistico più insidioso. Attingendo a J. Cohen e M. Oakes e altri, ho scritto un pezzo su questo su http://integrativestatistics.com/insidious.htm .


3
In realtà non sono chiaro su come un rapporto di verosimiglianza (LR) non raggiunga tutto ciò che raggiunge una dimensione dell'effetto, impiegando anche una scala facilmente interpretabile (i dati contengono X volte più prove per Y che per Z). Una dimensione dell'effetto è di solito solo una qualche forma di rapporto tra variabilità spiegata e inspiegabile e (nel caso nidificato) LR è il rapporto tra la variabilità inspiegata tra un modello che ha un effetto e uno che non lo fa. Non dovrebbe esserci almeno una forte correlazione tra dimensione dell'effetto e LR e, in caso affermativo, cosa si perde passando alla scala del rapporto di verosimiglianza?
Mike Lawrence,

Mike - Mi hai interessato, ma i tuoi punti si estendono a dimensioni dell'effetto semplici come differenze medie tra i gruppi? Questi possono essere facilmente interpretati da un laico e possono anche essere assegnati intervalli di confidenza.
rolando2,

Ah, quindi per dimensione dell'effetto intendi la dimensione dell'effetto assoluto, un valore privo di significato per se stesso, ma che può essere reso significativo dalla trasformazione in dimensione dell'effetto relativo (dividendo per una certa misura di variabilità, come ho già detto), o calcolando un intervallo di confidenza per la dimensione dell'effetto assoluto. La mia argomentazione sopra si applica al merito di LRs rispetto alle dimensioni degli effetti relativi. Potrebbe esserci un'utilità per calcolare gli IC degli effetti nei casi in cui il valore effettivo dell'effetto è di interesse (ad es. Previsione), ma continuo a sostenere l'LR come una scala più intuitiva per parlare di prove a favore / contro effetti.
Mike Lawrence,

Immagino che l'uso di LRs vs CIs varierà probabilmente in base al contesto, che può essere utilmente riassunto come segue: Altre fasi esplorative della scienza, in cui le teorie sono approssimativamente caratterizzate dall'esistenza / assenza di fenomeni, potrebbero preferire agli LR di quantificare le prove. D'altro canto, gli EC possono essere preferiti in stadi più avanzati della scienza, in cui le teorie sono sufficientemente raffinate per consentire una previsione sfumata che include intervalli di effetti previsti o, al contrario, quando diversi intervalli di entità di effetto supportano teorie diverse. Infine, le previsioni generate da qualsiasi modello necessitano di elementi della configurazione.
Mike Lawrence,

0|β|=1|β|>1|β|1β=0β0

15

Non riuscire a testare l'assunto che l'errore è normalmente distribuito e ha una variazione costante tra i trattamenti. Questi presupposti non sono sempre testati, quindi l'adattamento del modello dei minimi quadrati viene probabilmente utilizzato spesso quando è effettivamente inappropriato.


11
Cosa c'è di inappropriato nella stima dei minimi quadrati quando i dati sono non normali o eteroschedastici? Non è completamente efficiente, ma è ancora imparziale e coerente.
Rob Hyndman,

3
Se i dati sono eteroscedastici, è possibile ottenere previsioni fuori campione molto imprecise perché il modello di regressione farà del proprio meglio per minimizzare l'errore sui campioni in aree con varianza elevata e non abbastanza duro sui campioni da aree con varianza bassa. Ciò significa che puoi finire con un modello molto male distorto. Significa anche che le barre di errore sulle previsioni saranno errate.
Dikran Marsupial,

6
No, è imparziale, ma la varianza è maggiore rispetto a quando hai usato un metodo più efficiente per i motivi che spieghi. Sì, gli intervalli di previsione sono errati.
Rob Hyndman,

4
Sì (stavo usando la polarizzazione in senso colloquiale piuttosto che statistico per indicare che il modello era sistematicamente distorto verso le osservazioni nelle regioni ad alta varianza dello spazio caratteristica - mea culpa!) - sarebbe più preciso dire che la varianza più alta significa vi è una maggiore possibilità di ottenere un modello scadente utilizzando un set di dati finito. Sembra una risposta ragionevole alla tua domanda. Non vedo davvero l'imparzialità come un gran conforto: l'importante è che il modello fornisca buone previsioni sui dati che ho effettivamente e spesso la varianza è più importante.
Dikran Marsupial,

14

Il mio corso di psicometria introduttiva a undergrad ha trascorso almeno due settimane a insegnare come eseguire una regressione graduale. Esiste una situazione in cui la regressione graduale è una buona idea?


6
La "buona idea" dipende dalla situazione. Quando vuoi massimizzare la previsione non è un'idea orribile, anche se può portare a un eccesso di adattamento. Ci sono alcuni rari casi in cui è inevitabile - in cui non esiste una teoria che guida la selezione del modello. Non considererei la regressione graduale come un "peccato", ma usarlo quando la teoria è sufficiente per guidare la selezione del modello è.
Russellpierce,

20
Forse il peccato sta facendo test statistici su un modello ottenuto tramite regressione graduale.
Rob Hyndman,

3
Va bene se usi la convalida incrociata e non estrapolare. Non pubblicare però i valori p, poiché sono insignificanti.
Neil McGuigan,

Sto lavorando a un progetto che utilizza la regressione graduale. Il motivo è che ho D >> N, dove D è dimensionalità e N è dimensione del campione (escludendo quindi l'utilizzo di un modello con tutte le variabili), sottoinsiemi di funzionalità sono altamente correlati tra loro, voglio un modo statisticamente fondato di selezionare forse 2-3 "migliori" caratteristiche e non intendo riportare i valori P, almeno senza una sorta di correzione abbastanza conservativa.
dsimcha,

12

Il mio vecchio professore di statistiche aveva una "regola empirica" ​​per gestire i valori anomali: se vedi un valore anomalo sul grafico a dispersione, coprilo con il pollice :)


Questo è simile a Winsorization che non è troppo terribile.
Ari B. Friedman,

12

Questa potrebbe essere più una risposta alle statistiche pop di quella che stai cercando, ma:

Usare la media come indicatore di posizione quando i dati sono fortemente distorti .

Questo non è necessariamente un problema, se tu e il tuo pubblico sapete di cosa state parlando, ma in genere non è così, e la mediana spesso è in grado di dare un'idea migliore di ciò che sta accadendo.

Il mio esempio preferito sono i salari medi, che di solito sono indicati come "salari medi". A seconda della disparità di reddito / ricchezza in un paese, questo può essere molto diverso dal salario mediano, che fornisce un indicatore molto migliore di dove si trovano le persone nella vita reale. Ad esempio, in Australia, dove abbiamo una disuguaglianza relativamente bassa, la mediana è inferiore del 10-15% rispetto alla media . Negli Stati Uniti la differenza è molto più netta , la mediana è inferiore al 70% della media e il divario sta aumentando.

I rapporti sul salario "medio" (medio) danno come risultato un quadro più roseo di quanto sia giustificato e potrebbero anche dare a un gran numero di persone la falsa impressione di non guadagnare tanto quanto le persone "normali".


C'è una discussione semi-correlata di questo in quanto si applica all'analisi delle tendenze qui: tamino.wordpress.com/2012/03/29/…
naught101

2
Questo non è solo correlato all'asimmetria, ma è un problema generale che la media, o qualsiasi altra misura della tendenza centrale, non è sufficiente senza considerare la dispersione. Ad esempio, se le mediane di due gruppi fossero uguali, ma l'intervallo tra i quartili fosse 100 volte più grande per una popolazione. Solo guardando la mediana, diresti che sono la "stessa distribuzione della popolazione", quando in realtà sarebbero molto diversi. Per non parlare più modalità creando problemi ...
probabilityislogic

Ma per alcuni scopi la media è rilevante: il salario è una variabile estesa , il che significa che le somme dei salari sono significative. Per domande in cui il reddito salariale totale di alcuni (sotto) gruppi è rilevante, i mezzi sono la cosa giusta: il totale può essere recuperato dalla media, non dalla mediana.
kjetil b halvorsen,

@kjetilbhalvorsen: perché non usare il totale allora?
naught101

n

10

Che il valore p è la probabilità che l'ipotesi nulla sia vera e (1-p) è la probabilità che l'ipotesi alternativa sia vera, che non riuscire a respingere l'ipotesi nulla significa che l'ipotesi alternativa è falsa ecc.


1
1

Interessante, puoi darmi un riferimento per leggerlo a riguardo?
Dikran Marsupial,

2
( eccoti ) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] personalmente, mentre lo trovo interessante, faccio fatica a capire perché la distribuzione posteriore del rapporto di verosimiglianza è la quantità di interesse.
Probislogic

10

In modo simile a @dirkan - L'uso dei valori p come misura formale dell'evidenza dell'ipotesi nulla è vero. Ha alcune buone caratteristiche euristiche e intuitivamente buone, ma è essenzialmente una misura incompleta delle prove perché non fa alcun riferimento all'ipotesi alternativa. Mentre i dati possono essere improbabili sotto il valore null (portando a un piccolo valore p), i dati possono essere ancora più improbabili sotto l'ipotesi alternativa.


Non sto rispondendo perché non voglio preoccuparmi di pensarne uno e, per quello, guadare tutti quelli già dati per assicurarmi di non ripeterne uno! Ma penso di poter essere d'aiuto. C'è un libro di Good and Hardin intitolato "Errori comuni in statistica e come evitarli". Puoi trovare molti ottimi esempi lì. È un libro popolare che sta già arrivando alla sua quarta edizione.
Michael Chernick,

Anche il libro di Altman con Chapman & Hall / CRC "Statistiche pratiche nella ricerca medica" contiene un capitolo sulla letteratura medica in cui vengono rivelati molti peccati statistici verificatisi in articoli pubblicati.
Michael Chernick,

9

Utilizzo dei grafici a torta per illustrare le frequenze relative. Più qui .


2
Sarebbe bene includere alcuni ragionamenti in loco.
naught101

9

Utilizzo di statistiche / probabilità nel test di ipotesi per misurare la "verità assoluta". Le statistiche semplicemente non possono farlo, possono solo essere utili nel decidere tra alternative , che devono essere specificate dall'esterno del paradigma statistico. Dichiarazioni come "l'ipotesi nulla è dimostrata vera dalle statistiche" sono semplicemente errate; le statistiche possono solo dirti "l'ipotesi nulla è favorita dai dati, rispetto all'ipotesi alternativa". Se poi supponi che l'ipotesi nulla o l'alternativa debbano essere vere, puoi dire "il nulla si è dimostrato vero", ma questa è solo una banale conseguenza del tuo presupposto, non nulla dimostrato dai dati.


9

α=0.05

E in modo simile alla (o quasi la stessa) risposta di @grisel , eseguendo una ricerca sulla griglia e riportando solo il miglior risultato.


Penso che intendessi collegarti a un fumetto diverso, anche se è immortale.
rolando2,

Forse, se ricordo abbastanza bene quello che avevo in mente allora: xkcd.com/882
Andrew

8

(Con un po 'di fortuna questo sarà controverso.)

Utilizzando un approccio Neyman-Pearson all'analisi statistica di esperimenti scientifici. O, peggio ancora, usando un ibrido mal definito di Neyman-Pearson e Fisher.


mi dispiace essere ignorante, ma cosa c'è di sbagliato in una costruzione Neyman-Pearson per l'analisi di (l'esito di) esperimenti scientifici?
Andre Holzner,

@Andre Penso che questa osservazione possa essere strettamente correlata a un'altra offerta da @Michael Lew altrove in questo thread ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Richiedere e forse ottenere il diagramma di flusso : quella cosa grafica in cui dici quale sia il livello delle tue variabili e che tipo di relazione stai cercando, e segui le frecce verso il basso per ottenere un test del marchio o una statistica del marchio . A volte offerti con misteriosi percorsi "parametrici" e "non parametrici".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.