Termini statistici più confusi


47

Noi statistici usiamo molte parole in modi leggermente diversi da come le usano tutti gli altri. Ciò causa molti problemi quando insegniamo o spieghiamo cosa stiamo facendo. Inizierò un elenco (e ora aggiungerò alcune definizioni, per commenti):

  • Il potere è la capacità di respingere correttamente una falsa ipotesi nulla. Di solito, questo significa correttamente dire "sta succedendo qualcosa".
  • Distorsione: una statistica è distorta se è sistematicamente diversa dal parametro di popolazione ad essa associato.
  • Significato: i risultati sono statisticamente significativi in ​​una certa percentuale (spesso del 5%) nella seguente situazione: se la popolazione da cui proviene il campione ha un effetto reale di 0, una statistica almeno estrema quanto quella ottenuta dal campione si verificherebbe 5% delle volte.
  • Interazione: due variabili indipendenti interagiscono se la relazione tra la variabile dipendente e una variabile indipendente è diversa a diversi livelli dell'altra variabile indipendente

Ma ci devono essere molti altri!


5
Suggerirei alle persone di aggiungere un contesto più ampio anche alle loro risposte. Esempi potrebbero essere la stessa parola usata in modo diverso in campi diversi (effetti fissi Gelman, 2005 ) o parole che hanno significati diversi in contesti diversi (significato contro significato statistico Bushway et al., 2006 ).
Andy W,

5
Sarebbe positivo se i rispondenti potessero spiegare in una o due frasi cosa significhi veramente il termine "tecnico" o cosa potrebbe indurlo a percepirlo come avente un significato diverso.
chl

Completerò la mia risposta in base ai tuoi commenti più avanti ;-)
ocram,

1
... e "correlazione"!
Stéphane Laurent,

1
Per "esempio", vedere i commenti a stats.stackexchange.com/questions/20945/… .
whuber

Risposte:


21

"Significativo" è la più grande mi imbatto in, perché ha sia un comune significato inglese-uso e che significato avrà sorgere nella discussione dei risultati della ricerca. Mi ritrovo persino a mescolare "significativo" per significare importante nella stessa frase in cui ho parlato di risultati statistici.

In questo modo sta la follia.


Giusto, ma non c'è una parola migliore per "Sono abbastanza dannatamente sicuro che sia significativo, ma non ho fatto alcun test su di esso, e non lo farò, perché è ovvio / non si può fare / qualunque cosa"
nulla101

17

Suggerirei di aggiungere Linear all'elenco.

Ho fatto una domanda su math.SE su ciò che io, come ingegnere, penso come stima dell'errore quadrato medio minimo lineare di una variabile casuale dato il valore di una variabile casuale (che significa stimare come con e essendo scelta in modo da minimizzare ), e ha dato una risposta parziale. Ha detto uno dei commenti sulla domandaX Y Y = a X + b un b E [ ( Y - un X - b ) 2 ]YXYY^=aX+babE[(YaXb)2]

"Sono un po 'a disagio con il tuo linguaggio, poiché temo che questo modo di usare la parola" lineare "possa alimentare il malinteso popolare secondo cui la regressione lineare nella cosiddetta regressione lineare è che si sta adattando una linea. Le persone che pensano che quindi trova confuso quando uno statistico insiste sul fatto che si sta facendo una regressione lineare quando si adatta una parabola o un'onda sinusoidale, ecc. "

Quindi, cosa significa regressione lineare per uno statistico?


5
Domanda correlata sul sito in riferimento a questa risposta, Cosa significa linear in regressione lineare?
Andy W,

1
@AndyW Quindi diresti che Linear appartiene alla lista che Peter Flom ha iniziato o no?
Dilip Sarwate,

1
sì, sono d'accordo che si adatta al conto per questo elenco. (+1)
Andy W,

4
Si adatta alla lista, ma per una ragione insolita: il significato del termine "lineare" è ben definito e utilizzato in modo coerente in molti campi orientati alla matematica. La potenziale confusione riguarda quale parte della formula è lineare.
whuber

Puoi fare un esempio di come si adatta una parabola e la chiama ancora un modello lineare?
oneloop,

14

probabilità

Mi sembra che la maggior parte dei problemi associati all'interpretazione dei test di ipotesi e degli intervalli di confidenza derivino dall'applicazione di una definizione bayesiana di "probabilità" quando la procedura si basa su un metodo frequentista. Ad esempio, il valore p è la probabilità che l'ipotesi nulla sia vera, quando AFAICS nessuna probabilità può essere associata alla verità di una particolare ipotesi in un ambiente frequentista.


4
Sembra che la stessa considerazione si applicherebbe a coloro che sono abituati a dire che il parametro (true) ha una probabilità del 95% di trovarsi tra xx e xx, quando si parla / interpretano intervalli di confidenza.
chl

1
si assolutamente!
Dikran Marsupial,

1
+1 Vorrei tuttavia formulare la tua ultima frase in modo leggermente diverso. All'interno dell'impostazione più frequente la probabilità che l'ipotesi nulla sia vera è 1 o 0, ma non sai quale . (A rigor di termini, questo non è del tutto corretto, perché la "probabilità" è una frequenza relativa di lungo periodo e la "frequenza di lungo periodo" non si applica. Nondimeno, quando formulati in questo modo le persone possono capire cosa viene detto / come capiamo la situazione in cui ci troviamo. Ad esempio, le persone si rendono conto che non è possibile utilizzare l'ipotesi nulla valore p come probabilità che l'ipotesi nulla sia vera.)
gung - Ripristina Monica

2
"perché 'probabilità' è una frequenza relativa a lungo termine" Molti probabilisti contestano con veemenza tale affermazione
Dilip Sarwate,

14

"Fiducia"

È molto difficile dissuadere i non statistici che il loro intervallo di confidenza non è (direttamente) un'affermazione sulla credibilità dei diversi valori dei parametri.

Per avere fiducia, nel significato tecnico del termine, dobbiamo immaginare una serie di esperimenti ripetuti, ognuno dei quali calcola un intervallo in un modo predefinito. Per essere un intervallo di confidenza al 95%, il 95% di questi usi della formula intrappolerà il parametro rilevante di interesse.

Ma i non statistici interpretano abitualmente la "fiducia del 95%" come un'affermazione su valori di parametri plausibili, basata su un solo esperimento. In genere, gli operatori ritengono che le coperture intervallo 95% di alcune credenze posteriori circa il parametro, vale a dire "siamo abbastanza certi che il parametro è compresa tra e ". Questo invece definisce un intervallo credibile .bab

(Ci sono ovviamente situazioni in cui le due nozioni concordano, approssimativamente o esattamente. Ma in generale non lo fanno, e l'accordo numerico non rimuove il problema dell'abuso di termini tecnici.)


10

"Probabilità" - è sinonimo di "probabilità" nel linguaggio quotidiano, ma in Statistica ha un significato speciale: è una funzione dei parametri di un modello statistico, il cui valore è la probabilità del risultato osservato assumendo che i parametri sono uguali ai valori dei parametri.


8

Errore.

In statistica, un "errore" è una deviazione di un valore di dati effettivo dalla previsione di un modello.

Nella vita reale, un errore è un mstake spllng o altro goof.


Un errore di ortografia non è solo una deviazione dal valore effettivo (previsto) del mezzo di comunicazione? Non vedo davvero come questa sia una parola diversa, è solo che viene utilizzata in un contesto diverso (ma non in conflitto). Trovo difficile credere che sarebbe tutto così confuso per qualcuno di nuovo sul campo.
naught101

2
Uno dei motivi per cui un valore può differire da una previsione è che lo sperimentatore ha sbagliato. È come un errore di ortografia. Ma perché il tuo peso è diverso dal peso medio di tutte le persone del tuo sesso ed età? Perché il tuo reddito è diverso da quello medio? In statistica, questa deviazione da una media è un "errore" ma non è un errore, ma solo una variazione.
Harvey Motulsky,

Vero, ma dipende da come lo guardi, penso. se osservi l'ortografia di una parola su un campione di una scuola elementare, otterrai una variazione, causata dagli umani, sì, ma non dallo sperimentatore. Puoi guardare la stessa cosa scrivendo in inglese di epoche diverse. Immagino che scopriresti che la prima lingua inglese ha avuto una variabilità molto più elevata :)
naught101

@HarveyMotulsky: la chimica analitica usa l'errore in entrambi i modi. Parliamo di errore sistematico, errore casuale ed errori grossolani. Libro di testo: "errori grossolani possono essere evitati".
cbeleites supporta Monica

8

"Inferenza"

Una delle cose più difficili da capire per me all'inizio è stata la differenza tra una popolazione e un campione. Gli statistici scrivono queste fantasiose equazioni di regressione a livello di popolazione e poi all'improvviso scendono nel lavoro a livello di campione e le diventano . Mi ci è voluto molto tempo per capire che stavi usando i dati a livello di campione e le equazioni di regressione per stimare i parametri a livello di popolazione.bβb

Un'altra parte importante dell'inferenza è il teorema del limite centrale. Quando ti rendi conto che stai semplicemente campionando da una popolazione - sebbene il campionamento sia un'altra caratteristica complicata simile all'inferenza - allora capisci che anche se la media del campione contiene un valore, quel valore non è necessariamente la stessa media della popolazione .

Forse ho preso una comprensione relativamente libera della tua domanda, ma una volta che qualcuno capisce l'inferenza o le differenze tra un campione e la popolazione, allora l'intera statistica si apre a loro.


7

Per noi (o almeno per me), la "casualità" di un "campione" suggerisce che è rappresentativa della "popolazione".

Per altri, la "casualità" a volte implica che una persona / cosa sia insolita.


1
Non ho incontrato quella confusione sulla "casualità". Ma se hai, allora chiaramente esiste.
Peter Flom - Ripristina Monica

3
Più precisamente, che è esistito
Thomas Levine,

1
Quest'ultimo uso di "random" mi sembra abbastanza recente. Lo trovo un po 'fastidioso per questo motivo (rende le statistiche più difficili da capire per le persone). È ancora più fastidioso quando mi sento usarlo in quel senso ..
niente

5

Penso che si dovrebbe distinguere tra termini che confondono il pubblico e termini che confondono gli statistici. I suggerimenti di cui sopra, sono per lo più termini ben compresi dagli statistici e (probabilmente) fraintesi dal pubblico. Vorrei aggiungere all'elenco alcuni termini non compresi dagli statistici:

  • Bayesiano: originariamente riferito a quello che è ora noto come Bayes soggettivo (aka epistemico, De-Finetti). Oggi il termine sarà usato ogni volta che si manifesta la regola di Bayes, raramente nel contesto di credenze soggettive, che è considerata teoria della decisione.
  • Empirical Bayes: originariamente riferito a un setup frequentista con un precedente non parametrico . Oggi, in genere significherà che i parametri del precedente parametrico (obiettivo) sono stimati e non conosciuti a priori. Cioè, quella che una volta era conosciuta come massima probabilità di tipo II.
  • Non parametrico: a volte si riferisce a "modello libero". A volte per "distribuzione gratuita". È diventato praticamente non informativo ai giorni in cui i modelli "parametrici" potrebbero includere milioni di parametri.
  • Errore di tipo III: talvolta riferito a un errore di segno. Qualche volta si riferisce a una errata specificazione del modello.

Quando ho chiesto, intendevo "termini che confondono per il grande pubblico" ma sicuramente vale la pena elencare anche i termini che confondono con gli statistici
Peter Flom - Ripristina Monica

Questo probabilmente dovrebbe essere suddiviso in risposte separate.
naught101

4

Ecologico, comunemente usato per riferirsi a sistemi biologici, ma anche un errore statistico. Da Wikipedia:

Un errore ecologico (o errore di inferenza ecologica) è un errore nell'interpretazione dei dati statistici in uno studio ecologico, in base al quale le inferenze sulla natura di individui specifici si basano esclusivamente su statistiche aggregate raccolte per il gruppo al quale appartengono quegli individui. Questo errore presuppone che i singoli membri di un gruppo abbiano le caratteristiche medie del gruppo in generale.


3

Un "sondaggio" è un tipo di matematica ("campionamento del sondaggio") o un pezzo di carta ("questionario")?

Non ho condotto un sondaggio su questo, ma sospetto che gran parte del pubblico consideri un "sondaggio" come quest'ultimo. Sospetto inoltre che non pensino al primo.


2
I sondaggi non vengono condotti dai geometri? ;)
ciclista

3

"Carichi", "Coefficienti" e "Pesi"; quando si parla di analisi dei componenti principali.

Di solito trovo che le persone siano abbastanza ad-hoc quando le usano, le impiegano in modo intercambiabile senza prima definire esplicitamente cosa significano e in realtà mi sono imbattuto in documenti che si riferiscono a "caricamento di vettori" e talvolta intendo i PC stessi e altre volte i "pesi" associato a un PC specifico.

Probabilmente il fatto che l'eccellente riferimento di Jollifee su Principal Components afferma alla fine della sezione 1.1 "Alcuni autori distinguono tra i termini" carichi "e" coefficienti ", a seconda del vincolo di normalizzazione usato, ma saranno usati in modo intercambiabile in questo libro." ho solo fatto credere alle persone di avere un pass gratuito per mescolare e abbinare la terminologia a loro piacimento ....


1

Modello additivo. Non sono ancora sicuro di cosa significhi. Penso che si riferisca a un modello senza termini di interazione. Ma poi mi imbatterò in un articolo in cui lo stanno usando per fare riferimento a qualcos'altro, ovvero un modello di spline.


0

Uno dei termini che trovo più confusi è la "matrice di confusione". Naturalmente, il termine usato in sé è confuso, non il concetto.

Ho cercato di tenere traccia della storia del termine ed è anche abbastanza interessante. La matrice di confusione è stata inventata nel 1904 da ( http://en.wikipedia.org/wiki/Karl_Pearson ). Ha usato il termine http://en.wikipedia.org/wiki/Contingency_table . Apparve a Karl Pearson, FRS (1904). Contributi matematici alla teoria dell'evoluzione (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Durante War World 2, h ttps: //en.wikipedia.org/wiki/Detection_theory è stato sviluppato come indagine sulle relazioni tra stimolo e risposte. Qui è stata utilizzata la matrice di confusione.

A causa della teoria del rilevamento, il termine è stato usato una psicologia. Da lì il termine ha raggiunto l'apprendimento automatico.

Sembra che sebbene il concetto sia stato inventato nelle statistiche, un documento molto legato all'apprendimento automatico, ha raggiunto l'apprendimento automatico dopo una deviazione durante un periodo di 100 anni.

Per alcuni riferimenti sull'uso del termine vedere: Qual è l'origine del termine matrice di confusione?


-4

"Statistiche"

Al grande pubblico, un sostituto per "ora sto per mentirti e parlare in un modo che non capisci".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.