Quali termini statistici abusati vale la pena correggere?


104

Le statistiche sono ovunque; l'uso comune di termini statistici è, tuttavia, spesso poco chiaro.

I termini probabilità e probabilità sono usati in modo intercambiabile nell'inglese laico, nonostante le loro espressioni matematiche ben definite e diverse.

Non separare il termine verosimiglianza dalla probabilità confonde sistematicamente i medici che cercano di quantificare la probabilità del carcinoma mammario data una mammografia positiva, “Oh, che sciocchezza. Non posso farlo. Dovresti testare mia figlia; sta studiando medicina. "

Altrettanto diffuso è l'uso della correlazione anziché dell'associazione . O correlazione che implica la causalità .

Nel famoso documentario di Al Gore, An Inconvenient Truth , una diapositiva illustra la correlazione tra nucleo di ghiaccio e temperature, lasciando il lavoro più tecnico per dimostrare la causa della discussione:CO2

inserisci qui la descrizione dell'immagine

DOMANDA: Quali termini statistici pongono problemi di interpretazione se usati senza rigore matematico, e quindi vale la pena correggerli?


4
Probabilità contro probabilità tra i laici non mi sembra un problema poiché i laici non li calcolerebbero comunque, direbbero solo che i valori sono bassi o alti e che i due sono direttamente correlati.
Mehrdad,

1
@Mehrdad sono d'accordo. In realtà, questo è il punto ... c'è qualche situazione in cui l'uso improprio di queste parole, che sono state adottate e tecnizzate all'interno dei confini delle statistiche, comporta problemi. Ad esempio, è chiaro che esiste un corpus importante di ricerca dietro i cambiamenti climatici, ma in molte altre circostanze si possono fare false affermazioni suggerendo che la correlazione equivale alla causalità. Nel caso di probabilità e probabilità, l'una o l'altra può essere convertita nell'altra, quindi l'unico rischio è l'incomprensione delle tue scommesse.
Antoni Parellada,

4
@Mehrdad Il punto sulle probabilità è interessante, ma penso che sia più complicato di quanto sembri. Quando i laici parlano di probabilità, di solito significano probabilità di gioco e queste sono spesso espresse nel formato "probabilità contro". Quindi, nel sistema che la maggior parte delle persone ha familiarità, un alto valore per le probabilità è associato a una bassa probabilità, sebbene per uno statista le alte probabilità siano associate con un'alta probabilità. Questo è quindi abbastanza maturo per la confusione: vedi anche il nostro post su Odds Made Simple
Silverfish del

6
Vale probabilmente la pena ricordare che alcuni di questi termini erano preesistenti in lingua inglese (con un significato approssimativo), prima di essere stanziati dalle statistiche e forniti di rigorose definizioni tecniche. È un po 'condensante prendere la parola, cambiare il significato e poi correre in giro incolpando gli altri per averlo usato male quando lo usano solo con la definizione più vecchia, non tecnica.
RM

Non mi piace davvero chiamare i test "post hoc" anche quando sono pianificati in anticipo. Penso che questo sia iniziato con un pacchetto stat ma ora è pervasivo.
David Lane,

Risposte:


101

Può essere inutile combattere i mutamenti del linguaggio. Ma

parametro non significa variabile

Nelle statistiche classiche, che in questo caso inizia proprio con RA Fisher, che per primo ha usato il termine con questo significato, un parametro è una costante sconosciuta da stimare, diciamo una media o correlazione della popolazione. In matematica, ci sono significati correlati ma non identici, come quando una curva è data in modo parametrico. In molte scienze, parametro è solo un'altra parola per una misura (essa stessa un termine denso di significato matematico), proprietà o variabile, diciamo lunghezza o conduttività o porosità o virtù, a seconda dei casi. Naturalmente, la lunghezza o la virtù di un individuo è sconosciuta prima che venga misurata. ma le persone con mentalità statistica possono essere confuse dal suo uso per una serie di tali misurazioni. Nel linguaggio ordinario o volgare, i parametri(quasi sempre plurale) spesso significano i limiti di qualcosa, diciamo una relazione personale o una politica politica, forse derivante da una confusione originale con il perimetro . Con un'alta probabilità precedente si presume che i bayesiani parleranno da soli con i propri usi (cenno di ringraziamento a @conjugateprior).

inclinato non significa distorto

Per un secolo o più, l'asimmetria ha avuto uno specifico senso statistico di riferirsi all'asimmetria delle distribuzioni, sia valutata graficamente, misurata numericamente o presunta teoricamente come una questione di fede o di speranza. Per molto più tempo, o almeno così si può immaginare, la distorsione ha significato in media sbagliare, che - fintanto che conosciamo la verità, che significa un valore vero o corretto - può essere quantificato come errore sistematico. Inclinato nel linguaggio ordinario ha il senso comune di essere deformato o distorto, e quindi di essere scorretto, sbagliato e quindi anche di parte. Quel senso (per quanto ho notato, solo di recente) ha iniziato a filtrare di nuovo in discussioni statistiche, in modo che il significato originale di asimmetria rischia di essere offuscato o sommerso.

correlazione non significa accordo

La correlazione ha attratto diversi sensi precisi nelle statistiche, che hanno in comune un'idea di una relazione bivariata perfetta in un certo senso preciso: i casi principali sono relazioni lineari e monotone. Spesso è diluito, anche nelle discussioni statistiche, per significare quasi ogni tipo di relazione o associazione. Ciò che la correlazione non significa, necessariamente, è accordo: quindi y=un'+BX implica la correlazione di Pearson di 1 o -1 fintanto che B0 , ma l'accordo y=X richiede la condizione molto rigorosa un'=0,B=1 .

unico non significa distinto

È abbastanza comune parlare dei valori distinti dei dati come unici , ma unico è idealmente ancora meglio conservato poiché il significato si presenta una sola volta. La mia ipotesi è che parte della colpa derivi dall'utilità Unix [sic] uniqe dai suoi imitatori, che riducono i possibili valori ripetuti a un insieme in cui ogni valore è davvero unico. L'utilizzo, in questa ipotesi, unisce l'input e l'output di un programma. (Al contrario, se parliamo di duplicati nei dati, raramente ci limitiamo a doppietti che si verificano esattamente due volte. Il termine si replicaavrebbe più senso dal punto di vista linguistico ma è stato prevenuto per la deliberata replica dei controlli negli esperimenti; i valori di risposta risultanti di solito non sono affatto identici, il che è molto importante.)

i campioni vengono ripetuti raramente

In statistica, un campione include diversi valori e il campionamento ripetuto è un'alta virtù teorica, ma uno raramente praticato, tranne che per simulazione, che è il nostro termine abituale per qualsiasi tipo di falsificazione in silico . In molte scienze, un campione è un singolo oggetto, costituito da un nodulo, un pezzo o un ciuffo di acqua, suolo, sedimenti, roccia, sangue, tessuti o altre sostanze che variano dall'attraente al benigno al disgustoso; lungi dall'essere eccezionale, prelevare molti campioni può essere essenziale per qualsiasi analisi seria. Qui la terminologia di ogni campo ha perfettamente senso per la sua gente, ma a volte è necessaria la traduzione.

l'errore di solito non significa errore; come ha sottolineato Harold Jeffreys, il senso primario è irregolare, non errato.

Tuttavia, dovremmo diffidare dei nostri peccati o stranezze della terminologia:

la regressione non sta andando indietro

stazionario non significa immobile o fisso

la fiducia non ha nulla a che fare con lo stato mentale o psicologico di nessuno

il significato ha solo qualche volta il suo significato quotidiano

esatto è spesso un termine onorifico, riferito a una soluzione o calcolo convenientemente trattabile piuttosto che a uno appropriato al problema

le distribuzioni distorte a destra sembrano distorte a sinistra e viceversa

il lognormale è così chiamato perché è una normale esponenziale

ma il lognormale è più normale del normale

il gaussiano fu scoperto da De Moivre

Poisson non scoprì il Poisson , e tanto meno la regressione di Poisson

il bootstrap non ti aiuterà con le tue calzature

il coltellino non taglia

la curtosi non è una condizione medica

le trame stelo-foglia non si riferiscono alle piante

una variabile fittizia è utile, non inutile o stupida

chi sulla Terra (o altrove) pensa che l' eteroscedasticità sia davvero un termine preferibile rispetto alla variabilità disuguale ?

robusto ora ha almeno due importanti significati tecnici per diversi gruppi, nessuno dei quali ne impedisce l'uso frequente, anche nelle discussioni tecniche, per indicare semplicemente qualcosa come "asserito di comportarsi bene"

IV ora ha almeno due significati principali per diversi gruppi

Il fattore ora ha almeno due significati principali per diversi gruppi

normalizzare e standardizzare hanno innumerevoli significati (abbiamo davvero bisogno di standardizzare lì)

rispetto a descrivere un grafico significa variabile verticale contro variabile orizzontale , a meno che non significhi il contrario

e (ultimo ma non meno importante, coniare una frase) le statistiche hanno almeno tre significati principali.

Appunti:

  1. Nonostante le apparenze contrarie, penso che questa sia una domanda buona e seria.

  2. Spostamento delle mode. Ben nel ventesimo secolo, sembra che molte persone (nessun nome, nessun trapano, ma Karl Pearson potesse essere menzionato) non potevano che inventare termini raggiungendo i loro dizionari greci e latini. (Sarebbe ingiusto non dargli credito per il diagramma a dispersione .) Ma RA Fisher ha dirottato molte parole inglesi preesistenti, tra cui varianza , sufficienza , efficienza e probabilità . Più di recente, JW Tukey è stato un maestro nell'uso di termini casalinghi, ma pochi dovrebbero provare angoscia per il fatto che gli schizzi e i malumori non prendano piede .

  3. Un commento si basa sul ricordo di "La vita è [...] moltiplicativa anziché additiva: la distribuzione normale del registro è più normale della normale." Anon. 1962. Regole di lavoro di Bloggins. In Good, IJ (Ed.) Lo scienziato ipotizza: un'antologia di idee parzialmente cotte. Londra: Heinemann, 212-213 (citazione a p.213).


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
whuber

L'eteroscedasticità fa tremare totalmente la scatola dei gatti! "Variabilità diseguale?" [Phuagh!]) (+1 molto buono altrimenti;)
Alexis

1
Può valere la pena aggiungere che i test di regressione vengono spesso utilizzati nel contesto dello sviluppo del software, dove, in linea di massima, si riferisce al tornare indietro.
Konrad,

@Konrad Interessante, ma poi (correggimi se sbaglio) (a) che non sarebbe un uso improprio della parola e (b) la parola lì non ha un senso statistico.
Nick Cox,

@NickCox Corretto.
Konrad,

33

Alcune delle cose che incontro:

  1. Trattare il livello di significatività e le probabilità di copertura dell'IC come intercambiabili, in modo che le persone finiscano per fare cose come parlare di "significatività del 95%".

    [Quel che è peggio è quando le persone che commettono tali errori indicano le loro note di lezione - o persino i libri di testo - come supporto per questo; in altre parole, l'errore non è loro, ma viene aggravato cento volte o migliaia di volte, e peggio ancora, anche se lo capiscono correttamente, potrebbe in realtà dover ripetere l'errore comunque, per passare l'argomento.]

  2. C'è anche una tendenza comune a pensare che il "significato" esista in qualche modo al di fuori di una specifica ipotesi / domanda (portando a domande come "i miei dati sono significativi" senza alcuna chiara idea di quale domanda debba essere affrontata). [Un problema correlato è il "quale test devo usare per questi dati?" come se fossero i dati - piuttosto che la domanda a cui rispondere - è il motore della scelta dell'analisi. (Mentre il "progetto" dello studio può influire sui test specifici utilizzati, la questione di interesse è più importante, ad esempio se hai tre gruppi disponibili ma la tua domanda di interesse riguarda solo un confronto di due di essi, il il fatto che tu ne abbia tre non ti costringe a fare un'analisi del tipo a senso unico piuttosto che un confronto diretto tra i due gruppi di interesse ... purché la tua scelta di analisi non derivi da ciò che mostrano i dati. Idealmente, pianifichi le tue domande e le tue analisi prima di disporre dei dati, piuttosto che lanciare analisi sui dati e vedere cosa si attacca, cosa che sembra domande di analisi post-hoc, incluso "quale test dovrei usare per questi dati?" - tendono a portare a.)

  3. Una tendenza occasionale a riferirsi al complemento del valore p come una sorta di "fiducia in", o "probabilità di" l'alternativa.

  4. "dati non parametrici"; un altro purtroppo trovato in un paio di libri (e, purtroppo, in un articolo che pretende di correggere un errore comune), questo viene fuori così spesso che è nel mio breve elenco di commenti generati automaticamente (che inizia "I dati non sono né parametrici né non parametrico; quelli sono aggettivi che si applicano a modelli o tecniche ... ") (grazie a Nick Cox per avermi ricordato questo particolare bugbear)

    Di solito ciò che si intende è "dati non normali", ma parametrico non implica normale e avere una normalità approssimativa non implica che abbiamo bisogno di procedure parametriche. Allo stesso modo, la non normalità non implica che abbiamo bisogno di procedure non parametriche. Occasionalmente, ciò che si intende è "dati ordinali" o "dati nominali", ma in entrambi i casi ciò non implica che i modelli parametrici finiti siano inappropriati.

  5. Una tendenza comune a fraintendere il significato di "lineare" in "modello lineare" in un modo che sarebbe incompatibile con l'uso del termine "lineare" in "modello lineare generalizzato". Questo è in parte dovuto al modo in cui usiamo la terminologia.

  6. fondendo il tipo di asimmetria medio-meno-mediana con l'asimmetria del terzo momento, e fondendo uno zero in uno (o anche entrambi) con simmetria. Entrambi gli errori si trovano frequentemente nei testi di base ampiamente utilizzati in alcune aree di applicazione particolari. [C'è un errore correlato nel trattare zero asimmetria e zero eccesso di curtosi come implicita normalità]

  7. questo è così comune che sta diventando difficile chiamarlo più un errore (dovuto in parte agli sforzi di un particolare programma) - chiamare l'eccesso di curtosi semplicemente "curtosi"; un errore praticamente garantito per portare a problemi di comunicazione.


2
+1. Voglio ricordare i grotteschi "dati non parametrici", che appartiene meglio a questa lista che alla mia. L'eccesso di curtosi è un brutto fratello della curtosi cruda.
Nick Cox,

@Nick Grazie, sono stato seduto qui a fissare la mia lista dicendo "c'è qualcos'altro che mi dà davvero fastidio che so che appartiene qui". È lui.
Glen_b,

3
Un altro è il "test statistico" così esteso che diventa la domanda iniziale: quale test devo applicare ai miei dati? spesso nella convinzione che ci sarà una sola risposta del modulo "Student's t", "Mann-Whitney" o "chi-square". A cui la mia risposta è più di solito, forse nessuna, o dobbiamo esaminare attentamente i tuoi dati e discutere su quale sia la tua vera domanda prima di poterci pensare.
Nick Cox,

@nick Quello è strettamente correlato al mio articolo 2. Mi chiedo se c'è un buon modo per espandere quello.
Glen_b,

1
Temo che molti testi statistici (sembrano) incoraggino tale pensiero.
Nick Cox,

31

" Dati " è plurale . (Il singolare è "dato").


2
Parli davvero di un dato? Più di solito, quel punto ... quel valore ..., quell'osservazione ..., almeno qui.
Nick Cox,

5
I dati sono anche un androide singolare, che assimila i dati sugli esseri umani che osserva per giungere a conclusioni basate sui dati, spesso con effetti umoristici.
Matthew Drury,

2
Dovresti fare molta strada per ascoltarlo.
Nick Cox,

5
I dati plurali richiedono non solo il consenso del verbo - "i dati sono" anziché "i dati sono", ma dei quantificatori - "molti dati" anziché "molti dati", "meno dati" anziché "meno dati". Così poche persone riescono a essere coerenti che sembra essere una causa persa.
Scortchi

5
Nonostante anni (o addirittura decenni) di lotta contro questo (i miei insegnanti di latino sarebbero contenti), sono arrivato a un punto di vista simile a quello di @ Scortchi. Ma provo a usare il set di dati di parole ove possibile, influenzato in particolare dalle pratiche di StataCorp. Questo risolve alcune delle difficoltà.
Nick Cox,

14

Pur non essendo strettamente un termine statistico, voto per ritirare l' endogeneità . È usato per riferirsi a tutto, dalla causalità inversa al confondimento, alla selezione e alla propensione al collider, quando tutte le persone vogliono davvero fare è dire: "Questo effetto non è identificato".


I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
Glen_b,

13

"Regressione verso la media" non significa che se abbiamo osservato un certo numero di campioni iid al di sotto del valore atteso, è probabile che i successivi campioni iid siano al di sopra del valore atteso.


3
+1 Questo è importante. Le persone famose sono state straordinariamente confuse da questo. Ad esempio, il famoso libro di Peter Bernstein sull'analisi del rischio, Against the Gods . caratterizza la regressione alla media in molti modi diversi, nessuno dei quali corretto.
whuber

10

Punti percentuali vs. punti percentuali : se qualcosa aumenta dall'1% al 2%, aumenta del 100%. Oppure: puoi dire che è aumentato di 1 punto percentuale.

Dichiarare che l'aumento è stato dell'1% è molto fuorviante.


7

Trovo che abbreviazioni non chiaramente indicate siano un vero problema. Ad esempio, vedo cose come GLM e da nessuna parte è specificato se questo significa modello lineare generale o modello lineare generalizzato. Una volta di solito riesco a capire a cosa viene fatto riferimento dopo aver scavato nel contesto, ma trovo che ciò sia particolarmente problematico per gli studenti che iniziano a conoscere i modelli statistici.

Un altro esempio di questo è IV. Questo significa variabile strumentale o variabile indipendente? Spesso non è chiaro fino a quando non si esamina il contesto.

Qualcos'altro su cui vedo confusione sono "moderatore" e "interazione". Inoltre, la popolazione (come nella popolazione in generale) e la popolazione di interesse sembrano confondere i nuovi studenti a meno che non sia chiarito.


5
Ho anche visto che GLM significava "modelli lineari globali" da alcuni nella folla dell'apprendimento automatico. Solo per aggiungere alla confusione su un termine già sovraccarico
Glen_b

1
Sostengo in parte questa risposta / osservazione. Penso che "Generalized" (qualunque cosa sia) dovrebbe essere abbreviato meglio in Gz, non in G. Come GzLM (modello lineare generalizzato).
ttnphns,

2
@ttnphns: alcuni di noi scrivono generalizzati con un s
Henry

Sono curioso @ttnphns, quale parte di questa risposta non supporta e perché? È possibile che io abbia un fraintendimento di qualcosa, quindi vorrei sapere di più se hai qualcosa da offrire ulteriormente. Grazie!
StatStudent

1
Eh, pensavo che IV significasse in vitro. = P
Mehrdad,

7

Uno che è comune nel linguaggio di tutti i giorni:

media

Per la persona media là fuori (ironia amara del tutto intesa), la media, la mediana, la modalità e il valore atteso di qualsiasi cosa sembrano essere gli stessi. Hanno una naturale tendenza a fare una stima puntuale, con l'assunto inconscio e inattaccabile che esiste una distribuzione normale sottostante. E l'ipotesi altrettanto inconscia di una varianza molto piccola. La convinzione che una simile stima 1) esiste e 2) sarà molto utile per loro, perché possono prenderlo come un predittore praticamente certo, è così radicata, che è praticamente impossibile convincerli altrimenti.

Per un esempio del mondo reale, prova a parlare con un cuoco che chiede "qual è la patata di taglia media", assolutamente certo che se gli dici un numero, sarà in grado di usarlo per qualsiasi ricetta che specifica un numero di patate, e ne escono perfette ogni volta. E arrabbiarsi con te per aver cercato di dirgli "non esiste un numero simile". Purtroppo, succede in situazioni con quote molto più alte rispetto alla preparazione della zuppa.


3
Penso che questo sia un po 'esagerato. Ad esempio, milioni se non miliardi di persone sembrano avere poca difficoltà con le medie negli sport.
Nick Cox,

1
@NickCox dipende certamente dal contesto. Soprattutto il calcolo di una media aritmetica per dati dati non è problematico. Ho visto il problema specificamente nei casi che ho descritto, dove hanno bisogno di una stima puntuale e presumo che la "media" sia molto precisa. Inoltre, assumono che questa "media" sia calcolata come media, ma se chiedi loro di spiegare cosa significano in media, descrivono approssimativamente una modalità.
Rumtscho,

@rumtscho, hai ragione. Joe Average potrebbe tendere a pensare alla media come alla modalità o tipica.
Mark L. Stone,

Quando le persone parlano di prezzi "medi" delle case nel Regno Unito, non possono dirmi il tipo di media che stanno usando, o se gli outliner sono stati esclusi.
Ian Ringrose,

1
Non c'è nulla che dica che i mezzi non possono essere calcolati per le distribuzioni multimodali, è solo che spesso, non è la misura più grande per descrivere la distribuzione. Inoltre, non sono sicuro che farà grandi cose per l'immagine degli statistici dire a tutti "Non sai cosa significhi la parola media!" e poi quando indicano una definizione del dizionario, rispondiamo "Beh, nemmeno il dizionario!"
Cliff AB,

7

La curtosi non misura il "picco".

Z4|Z||Z|

* Sottrai 3 o no; non fa differenza a questo punto.


1
ZZ

1
Avevo un professore di statistica greco-cipriota, che ci ha insegnato che leptokurtic, in greco, significa "spalle strette" o "retrocessione". Pertanto, una distribuzione leptokurtic (ad es. Un Laplace o doppio esponenziale) ha meno massa del gaussiano (di uguale varianza) nelle sue aree "spalla" - e di conseguenza più massa nelle aree della testa e della coda. Al contrario, una distribuzione platicattica (ad esempio l'uniforme) ha più massa nelle spalle e meno massa nelle aree della testa e della coda, rispetto alla normale.
Mico,

2
Buona spiegazione delle parole, ma in realtà non hanno nulla a che fare con la statistica della curtosi che Pearson ha sviluppato. Pearson aveva sbagliato, ma usando quelle parole greche che suonavano in modo fantasioso, fece pensare agli altri di essere su qualcosa di profondo. Il suo errore ha danneggiato l'educazione statistica e l'alfabetizzazione per oltre 100 anni, purtroppo. Vedi il mio articolo per le distribuzioni appuntite ("lepto") in cui la curtosi è piccola, e le distribuzioni piatte ("platy") in cui la curtosi è quasi infinita. La curtosi di Pearson non dice nulla di "lepto" o "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall

5

Lineare significa:

  • y=un'+BXy=un'+BX+cX2y=un'XB

  • y=eun'+BX1+eun'+BXy=un'+BX+Xmax(X-θ,0)

  • Linear significa l'opposto di dinamico . Come in qualunque cosa una variabile dipendente sia una funzione, non è una funzione dei suoi valori precedenti. A questo proposito, non lineare significa cose come , eyt=un'+Byt-1+cXyt-yt-1=un'+B(yt-1-Xt-X)+c(Xt-Xt-1)+dXt-1

yXun',B,c,dθ


5

La domanda riguardava l'uso di termini statistici che dovremmo CURA di correggere. Correggo l'uso del termine "random" da parte dei miei figli millenari per indicare cose che sono l'opposto di random da 10 anni. Considerando quanti dei miei tirocinanti hanno difficoltà a produrre un campione di dati casuali che è in realtà casuale, che è accaduto anche prima di questo uso della parola, l'offuscamento di questo termine nel gergo quotidiano è una crisi.

Da OnlineSlangDictionary:

Definition of random


random

adjective
  • inaspettato e sorprendente.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • inaspettatamente grande.
    The party was totally random.
    

4

Ci sono già troppi grandi esempi citati da Glen e Nick ... non ne rimane molto!

Alcuni aspetti della regressione

  • termine di errore e residuo (è piuttosto divertente quando le persone sono orgogliose che i loro residui non siano correlati con i regressori)

  • previsione e stima (dovremmo anche smettere di fare distinzione quando si tratta degli effetti casuali previsti?)

  • intervallo di previsione / previsione rispetto all'intervallo di confidenza. Penso che ci sia una probabilità> 0,5 per citare quella sbagliata.

  • regressor (colonna nella matrice del design) contro covariable et al. Soprattutto nelle situazioni tecniche in cui la distinzione è essenziale, molte persone (incluso me stesso) tendono ad essere imprecise.


Scusa, sono confuso. C'è una differenza tra previsione e stima? Potresti spiegare di più anche sui tuoi ultimi due punti? Grazie!
yuqian,

3

Soprattutto negli ambienti assicurativi, è comune utilizzare la varianza per fare riferimento a qualsiasi tipo di differenza, piuttosto che alla media delle differenze al quadrato tra ciascun punto di dati e la media del set di dati.


6
Anch'io ho incontrato la varianza usata in questo senso diverso, ma nota che varianza era una parola inglese esistente quando RA Fisher l'ha dirottata a questo scopo nel 1918. Quindi questo è un uso diverso; le persone statistiche non possono rivendicare la proprietà del vero significato.
Nick Cox,

3

bayesiano

Gli studenti che lo apprendono potrebbero non avere problemi a dirti se qualcosa "sembra" bayesiano, ma chiedono loro di risolvere un problema con un approccio frequentista e bayesiano e probabilmente falliranno.

Nella mia esperienza, agli studenti viene insegnato che è solo una differenza filosofica, senza alcun esempio concreto che mostri che lo stesso problema viene attaccato con entrambi gli approcci.

Ora chiediglielo perché qualcuno potrebbe adottare un approccio frequentista nel loro esempio; è probabile che la loro migliore spiegazione sarebbe qualcosa del tipo "beh, ai vecchi tempi, i computer non esistevano ..."


Potresti condividere la tua spiegazione sul perché qualcuno potrebbe adottare un approccio frequentista? Grazie!
yuqian,

4
@yuqian: Sì. Per me, la parte importante è che lo fai quando vuoi che le persone siano obiettivamente d'accordo con te. Gli approcci bayesiani richiedono distribuzioni precedenti, che sono intrinsecamente soggettive, e nei problemi del mondo reale non esiste un singolo prioritario oggettivamente corretto ... il che significa che due persone possono calcolare risposte diverse per lo stesso problema a seconda di ciò che pensano che dovrebbero essere i loro priori. Con un approccio frequentista non c'è tale ambiguità e ciò rende possibile confrontare i risultati con quelli degli altri in modo obiettivo.
Mehrdad,

2

Rischio

Il rischio non significa probabilità

Il rischio è la somma dei costi di tutti i risultati, ciascuno di questi costi moltiplicato per la probabilità che si verifichino.

Il rischio viene generalmente valutato rispetto alla ricompensa che è il guadagno che stiamo cercando di ottenere.

Ecco un esempio: quanto è mortale il tuo Kilowatt . Qui i rischi - il numero di morti per diverse fonti di energia - vengono confrontati con la ricompensa - terawattora di energia prodotta da queste fonti di energia.

Quindi, per esempio: il rischio di energia nucleare non è la probabilità che accada un crollo; è la probabilità che accada un tracollo, moltiplicato per il numero di persone che muoiono da esso, sommato al numero di persone che muoiono per operazioni normali moltiplicato per la probabilità che le operazioni rimangano normali.


4
"Rischio" non ha una definizione standard universalmente accettata. Ma "la somma dei costi [perdite] di tutti gli esiti, ciascuno di questi costi [perdite] moltiplicato per la probabilità che si verifichino" è la definizione del costo atteso [perdita]. Il rischio, d'altra parte, si riferisce generalmente a deviazioni (avverse) dalla perdita attesa. Quindi, la tua definizione è aspettativa, mentre penso che le definizioni tipiche di rischio affrontino la dispersione.
A. Webb,

Ad esempio, quando acquistiamo un'assicurazione, lo scopo è ridurre il rischio (ridurre l'impatto di eventi improbabili), ma i costi previsti effettivi sono più elevati per l'assicurato, con la differenza che sono le spese e i profitti dell'assicuratore. Le perdite estreme nella coda sono state scambiate per un costo più costante del premio.
A. Webb,

3
@ A. Webb FWIW, la (internazionale) Society for Risk Analysis definisce il rischio come "Il potenziale per la realizzazione di conseguenze indesiderate e indesiderate sulla vita umana, sulla salute, sulla proprietà o sull'ambiente; la stima del rischio si basa solitamente sul valore atteso di la probabilità condizionale dell'evento che si verifica volte la conseguenza dell'evento dato che si è verificato. " Pertanto, il rischio sembra avere una definizione standard e dimostra che è giusto distinguere il rischio da come potrebbe essere stimato o misurato.
whuber

1
P(UN)/t

2

Effetti fissi ed effetti casuali possono significare cose diverse per persone diverse. In econometria gli effetti fissi sono in realtà casuali e quando ci pensi ogni effetto nelle statistiche è casuale, quindi nominare qualcosa di casuale non fornisce alcuna informazione aggiuntiva significativa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.