Qual è la differenza tra probabilità e statistiche?


Risposte:


114

La risposta breve a questa che ho sentito da Persi Diaconis è la seguente: i problemi considerati dalla probabilità e dalle statistiche sono inversi tra loro. Nella teoria della probabilità consideriamo alcuni processi sottostanti che hanno una certa casualità o incertezza modellata da variabili casuali e scopriamo cosa succede. Nelle statistiche osserviamo qualcosa che è successo e proviamo a capire quale processo sottostante spiegherebbe quelle osservazioni.


2
Quindi la statistica osserva cosa succede nel mondo fisico, teorizza sul processo sottostante e, dopo aver trovato il processo, lo utilizza nel senso di probabilità per prevedere cosa accadrà dopo?
hslc,

Non sono uno statistico, ma dalla mia comprensione direi, sì, quella parte di ciò che fa la statistica.
Mark Meckes,

16
Induzione vs detrazione?
Paolo,

6
Come ha detto Paolo, la teoria della probabilità riguarda principalmente la parte deduttiva, le statistiche con la parte induttiva dei processi di modellizzazione con incertezza. Forse è interessante ricordare che se si pensa che il plausibile ragionamento induttivo dovrebbe essere coerente, in realtà il risultato sono statistiche bayesiane e più interessante questo può essere derivato dalla teoria della probabilità. Quindi la statistica bayesiana è sostanzialmente la teoria della probabilità applicata per così dire.
Thies Heidecke,

1
@Paolo Statistical Inference è considerato "Statistica induttiva"
kervin il

77

Mi piace l'esempio di un barattolo di jelly bean rosse e verdi.

Un probabilista inizia conoscendo la proporzione di ciascuno e chiede la probabilità di disegnare un jelly bean rosso. Uno statistico ricava la percentuale di gelatine rosse campionando dal barattolo.


Ma non è solo una formulazione? Un probabilista potrebbe chiedere "dato che ho disegnato tre fagioli rossi, qual è la probabilità che la proporzione sia di cinquanta e cinquanta?"
Thomas Ahle,

2
@ThomasAhle: Questa non è una domanda di probabilità ben definita a meno che non si assuma un modello probabilistico sottostante per la distribuzione originale dei colori.
Mark Meckes,

55

È fuorviante dire semplicemente che le statistiche sono semplicemente l'inverso della probabilità. Sì, le domande statistiche sono domande di probabilità inversa, ma sono problemi inversi male posti , e questo fa una grande differenza in termini di come vengono affrontate.

La probabilità è una branca della pura matematica: le domande di probabilità possono essere poste e risolte usando il ragionamento assiomatico, e quindi c'è una risposta corretta a qualsiasi domanda di probabilità.

Le domande statistiche possono essere convertite in domande di probabilità mediante l'uso di modelli di probabilità . Una volta fatte alcune ipotesi sul meccanismo che genera i dati, possiamo rispondere a domande statistiche usando la teoria della probabilità. TUTTAVIA, la corretta formulazione e verifica di questi modelli di probabilità è altrettanto importante, o anche più importante, della successiva analisi del problema utilizzando questi modelli.

Si potrebbe dire che la statistica comprende due parti. La prima parte è la domanda su come formulare e valutare modelli probabilistici per il problema; questo sforzo rientra nel dominio della "filosofia della scienza". La seconda parte è la domanda di ottenere risposte dopo che è stato assunto un certo modello. Questa parte della statistica è in effetti una questione di teoria della probabilità applicata e, in pratica, contiene anche una buona dose di analisi numerica.

Vedi: http://bactra.org/reviews/error/


2
Ti amo per questa risposta
badatmath,

16

Mi piace dalle scommesse calcolate di Steve Skienna (vedere il link per la discussione completa):

In sintesi, la teoria della probabilità ci consente di trovare le conseguenze di un determinato mondo ideale, mentre la teoria statistica ci consente di misurare la misura in cui il nostro mondo è ideale.


13

La probabilità è una scienza pura (matematica), la statistica riguarda i dati. Sono collegati poiché la probabilità costituisce una sorta di fondamento per le statistiche, fornendo idee di base.


3
Quindi la probabilità è matematica pura e la statistica è matematica applicata?
hslc,

4
Le statistiche possono essere applicate e potrebbero non esserlo; tuttavia il concetto di dati è sempre presente.

13

La Tabella 3.1 di Biostatistica Intuitiva risponde a questa domanda con il diagramma mostrato di seguito. Si noti che tutte le frecce puntano a destra per probabilità e puntano a sinistra per statistiche.

PROBABILITÀ

Generale ---> Specifico

Popolazione ---> Campione

Modello ---> Dati

STATISTICHE

Generale <--- Specifico

Popolazione <--- Campione

Modello <--- Dati


1
Quindi la statistica è sinonimo di analisi dei dati?
hslc,

3
Non vedo alcuna distinzione.
Harvey Motulsky,

3
Alcune analisi dei dati non si basano su statistiche frequenti.
P.

11

La probabilità risponde alle domande su ciò che accadrà, la statistica risponde alle domande su ciò che è accaduto.


3
Con questa definizione, tuttavia, un intervallo di previsione è probabilità piuttosto che statistiche.
Glen_b,

10

La probabilità riguarda la quantificazione dell'incertezza, mentre le statistiche spiegano la variazione di alcune misure di interesse (ad esempio, perché i livelli di reddito variano?) Che osserviamo nel mondo reale.

Spieghiamo la variazione usando alcuni fattori osservabili (ad esempio, genere, livello di istruzione, età ecc. Per l'esempio del reddito). Tuttavia, poiché non possiamo assolutamente prendere in considerazione tutti i possibili fattori che incidono sul reddito, lasciamo ogni variazione inspiegabile a errori casuali (che è qui che entra in gioco la quantificazione dell'incertezza).

Poiché attribuiamo "Variazione = Effetto dei fattori osservabili + Effetto degli errori casuali", abbiamo bisogno degli strumenti forniti dalla probabilità per tenere conto dell'effetto degli errori casuali sulla variazione che osserviamo.

Seguono alcuni esempi:

Quantificare l'incertezza

Esempio 1: Lancia un dado a 6 facce. Qual è la probabilità di ottenere un 1?

Esempio 2: Qual è la probabilità che il reddito annuale di una persona adulta selezionata a caso dagli Stati Uniti sia inferiore a $ 40.000?

Spiegare la variazione

Esempio 1: osserviamo che il reddito annuale di una persona varia. Quali fattori spiegano la variazione del reddito di una persona?

Chiaramente, non possiamo tenere conto di tutti i fattori. Pertanto, attribuiamo il reddito di una persona ad alcuni fattori osservabili (ad esempio, livello di istruzione, genere, età, ecc.) E lasciamo qualsiasi variazione residua all'incertezza (o nella lingua delle statistiche: ad errori casuali).

Esempio 2: osserviamo che alcuni consumatori scelgono Tide per la maggior parte del tempo che acquistano un detergente, mentre altri consumatori scelgono il marchio detergente xyz. Cosa spiega la variazione nella scelta? Attribuiamo la variazione delle scelte ad alcuni fattori osservabili come il prezzo, il marchio, ecc. E lasciamo qualsiasi variazione inspiegabile a errori casuali (o incertezza).


1
Che cosa succede se gli errori casuali diventano maggiori dei fattori osservabili nel tempo?
hslc,

In tal caso, rielaborate il modello poiché non è più coerente con la realtà.

8

La probabilità è l'abbraccio dell'incertezza, mentre la statistica è una ricerca empirica e vorace della verità (maledetti bugiardi esclusi, ovviamente).


Qui sto pensando a tutte le probabilità frequentista / bayesiana e tutte le statistiche descrittive / esplorative / inferenziali.

7

Simile a quello che ha detto Mark, la statistica è stata storicamente chiamata probabilità inversa , dal momento che la statistica cerca di inferire le cause di un evento date le osservazioni, mentre la probabilità tende ad essere il contrario.


6

La probabilità di un evento è la sua frequenza relativa a lungo termine. Quindi, in pratica, ti sta dicendo la possibilità di ottenere, ad esempio, una "testa" sul prossimo lancio di una moneta o ottenere un "3" sul prossimo lancio di un dado.

Una statistica è qualsiasi misura numerica calcolata da un campione della popolazione. Ad esempio, la media del campione. Usiamo questo come una statistica che stima la media della popolazione, che è un parametro. Quindi in sostanza ti sta dando una sorta di riepilogo di un campione.

  • È possibile ottenere solo una statistica da un campione, altrimenti se si calcola una misura numerica su una popolazione, viene chiamato un parametro di popolazione.

6

Studi di probabilità, beh, quanto sono probabili gli eventi. Sai intuitivamente qual è la probabilità.

La statistica è lo studio dei dati: mostrarli (usando strumenti come i grafici), riassumendoli (usando mezzi e deviazioni standard ecc.), Giungere a conclusioni sul mondo da cui sono stati estratti quei dati (adattando le linee ai dati ecc.), E - questa è la chiave - quantificare quanto possiamo essere sicuri delle nostre conclusioni.

Per quantificare quanto possiamo essere sicuri delle nostre conclusioni, dobbiamo usare Probabilità. Supponiamo che tu abbia i dati dell'anno scorso sulle precipitazioni nella regione in cui vivi e dove vivo. L'anno scorso ha piovuto in media 1/4 di pollice a settimana dove vivi e 3/8 di pollice dove vivo. Quindi possiamo dire che le precipitazioni nella mia regione sono in media del 50% maggiori rispetto a dove vivi, giusto? Non così veloce, Sparky. Potrebbe essere una coincidenza: forse è capitato che piovesse molto l'anno scorso dove vivo. Possiamo usare Probability per stimare quanto possiamo essere fiduciosi nelle nostre conclusioni che la mia casa è il 50% più umida della tua.

Quindi in sostanza puoi dire che la probabilità è la base matematica per la teoria della statistica.


5

Nella teoria della probabilità, ci vengono date variabili casuali X1, X2, ... in qualche modo, e quindi studiamo le loro proprietà, ovvero calcoliamo la probabilità P {X1 \ in B1}, studiamo la convergenza di X1, X2, ... ecc .

Nelle statistiche matematiche, ci vengono date n realizzazioni di alcune variabili casuali X e un insieme di distribuzioni D; il problema è trovare tra le distribuzioni di D una che è più probabile che generi i dati che abbiamo osservato.


Quindi possiamo trovare solo i modelli che stavamo cercando in primo luogo?
hslc,

4

Nella probabilità, la distribuzione è nota e conoscibile in anticipo: si inizia con una funzione di distribuzione della probabilità nota (o simile) e si campiona da essa.

In statistica, la distribuzione è sconosciuta in anticipo. Potrebbe anche essere inconoscibile. Si ipotizzano ipotesi sulla distribuzione della probabilità alla base dei dati osservati, al fine di poter applicare la teoria della probabilità a tali dati per sapere se un'ipotesi nulla su tali dati può essere respinta o meno.

C'è una discussione filosofica sul fatto che esista una cosa come la probabilità nel mondo reale o se sia un frutto ideale della nostra immaginazione matematica, e tutte le nostre osservazioni possono essere solo statistiche.


3

La statistica è la ricerca della verità di fronte all'incertezza. La probabilità è lo strumento che ci consente di quantificare l'incertezza.

(Ho fornito un'altra, più lunga, risposta che presupponeva che ciò che veniva chiesto fosse qualcosa del tipo "come lo spiegheresti a tua nonna?")


3

(Ω,F,P)θ(Ω,F,Pθ)θ

θθ

Disclaimer: quanto sopra sono risposte matematiche. In realtà, gran parte delle statistiche riguarda anche la progettazione / scoperta di modelli appropriati, l'interrogazione di modelli esistenti, la progettazione di esperimenti, la gestione di dati imperfetti, ecc. "Tutti i modelli sono sbagliati".


4
Analogamente, se viene chiesto "cos'è la chimica?" potremmo rispondere che è un insieme di equazioni differenziali. Una descrizione della teoria matematica può darci una piccola idea di cosa tratta una materia, ma non è la materia stessa.
whuber

3

Probabilità : dati i parametri noti, trova la probabilità di osservare un particolare insieme di dati.

Statistiche : dato un particolare insieme di dati osservati, fai una deduzione su quali potrebbero essere i parametri.

La statistica è "più soggettiva" e "più arte che scienza" (rispetto alla probabilità).

Example_

p

p=12HHH

18

HHHp

Diversi statistici daranno risposte diverse, spesso lunghe.


3

La differenza tra probabilità e statistiche è che nelle probabilità non ci sono errori. Siamo sicuri della probabilità perché sappiamo esattamente quanti lati ha una moneta o quanti caramelli blu ci sono nel vaso. Ma nelle statistiche esaminiamo un pezzo di una popolazione di qualsiasi cosa esaminiamo e da questo proviamo a vedere la verità, ma c'è sempre un% di conclusioni errate. L'unica cosa nelle statistiche che è vera, è questo un errore%, che in realtà è una probabilità.


2

Il testo di Savage Foundations of Statistics è stato citato più di 12000 volte su Google Scholar. [3] Dice quanto segue.

Si concorda all'unanimità che le statistiche dipendono in qualche modo dalla probabilità. Ma per quanto riguarda la probabilità e il modo in cui è connessa con la statistica, raramente si è verificato un disaccordo e un'interruzione della comunicazione così completi dalla Torre di Babele. Senza dubbio, gran parte del disaccordo è semplicemente terminologico e scomparirebbe sotto un'analisi sufficientemente acuta.

https://en.wikipedia.org/wiki/Foundations_of_statistics

Quindi il punto che la teoria della probabilità è una base di statistica non è affatto contestato. Tutto il resto è un gioco equo.

Ma nel cercare di essere più utile, pratico con una risposta ...

Tuttavia, la teoria della probabilità contiene molto che è per lo più di interesse matematico e non direttamente rilevante per le statistiche. Inoltre, molti argomenti nelle statistiche sono indipendenti dalla teoria della probabilità

https://en.wikipedia.org/wiki/Probability_and_statistics

Quanto sopra non è esaustivo o autorevole in alcun modo, ma credo che sia utile.

Comunemente mi ha aiutato a vedere cose come ...

Descrivere la matematica >> teoria della probabilità >> statistica

Ognuno di essi viene pesantemente utilizzato, in media, nelle basi del prossimo. Cioè ci sono grandi intersezioni nel modo in cui studiamo le basi del prossimo.

PS. Ci sono statistiche induttive e deduttive, quindi non è qui la differenza.


0

Molte persone e matematici affermano che "STATISTICA è l'inverso della PROBABILITÀ", ma non è particolarmente giusto. Il modo di approcciarsi o il metodo per risolvere questi 2 sono completamente diversi ma sono INTERCONNESSI .

vorrei fare riferimento al mio amico John D Cook .....

"Mi piace l'esempio di un barattolo di jelly bean rosse e verdi.

Un probabilista inizia conoscendo la proporzione di ciascuno e diciamo che trova la probabilità di disegnare un jelly bean rosso. Uno statistico ricava la percentuale di gelatine rosse campionando dal barattolo ".

Ora la proporzione del jelly bean rosso ottenuta campionando dal vaso viene utilizzata dal probabilista per trovare la probabilità di estrarre un fagiolo rosso dal vaso

Considera questo esempio ---- >>>

In un esame il 30% degli studenti ha fallito in fisica, il 25% ha fallito in matematica, il 12% ha fallito sia in fisica che in matematica. Uno studente selezionato a caso trova la probabilità che lo studente abbia fallito in Fisica, se si sa che ha fallito in matematica.

La somma sopra è un problema di probabilità, ma se guardiamo attentamente scopriremo che la somma è fornita con alcuni dati statistici

Il 30% degli studenti ha fallito in fisica, il 25% "" "matematica '' Queste sono sostanzialmente frequenze se le percentuali sono calcolate. Pertanto ci vengono forniti dati statistici che a loro volta ci aiutano a trovare la probabilità

LA PROBABILITÀ E LE STATISTICHE SONO MOLTO INTERCONNESSE O SUCCESSIVE, POSSIAMO dire che la probabilità dipende molto dalle statistiche


0

Il termine "statistica" è meravigliosamente spiegato da JC Maxwell nell'articolo Molecole (in Nature 8, 1873, pp. 437–441). Vorrei citare il passaggio pertinente:

Quando i membri che lavorano della Sezione F ottengono un Rapporto del censimento o qualsiasi altro documento contenente i dati numerici di Scienze economiche e sociali, iniziano a distribuire l'intera popolazione in gruppi, in base a età, imposta sul reddito, istruzione, credo religioso o condanne penali. Il numero di individui è troppo grande per consentire di tracciare la storia di ciascuno separatamente, in modo che, al fine di ridurre il loro lavoro entro i limiti umani, concentrino la loro attenzione su un piccolo numero di gruppi artificiali. Il numero variabile di individui in ciascun gruppo, e non lo stato variabile di ogni individuo, è il dato principale da cui lavorano.

Questo, ovviamente, non è l'unico metodo di studio della natura umana. Possiamo osservare la condotta dei singoli uomini e confrontarla con quella condotta che il loro carattere precedente e le loro circostanze attuali, secondo la migliore teoria esistente, ci porterebbero ad aspettarci. Coloro che praticano questo metodo si sforzano di migliorare la loro conoscenza degli elementi della natura umana, più o meno allo stesso modo in cui un astronomo corregge gli elementi di un pianeta confrontando la sua posizione reale con quella dedotta dagli elementi ricevuti. Lo studio della natura umana da parte di genitori e maestri di scuola, da parte di storici e statisti, deve pertanto essere distinto da quello svolto dai registrar e dai tabulatori e da quegli statisti che credono nelle figure. Uno può essere chiamato storico e l'altro il metodo statistico.

Le equazioni della dinamica esprimono completamente le leggi del metodo storico applicato alla materia, ma l'applicazione di queste equazioni implica una perfetta conoscenza di tutti i dati. Ma la più piccola parte della materia che possiamo sottoporre a esperimento è costituita da milioni di molecole, nessuna delle quali diventa mai individualmente sensibile per noi. Pertanto, non possiamo accertare l'effettivo movimento di nessuna di queste molecole, quindi siamo obbligati ad abbandonare il rigoroso metodo storico e ad adottare il metodo statistico di trattare grandi gruppi di molecole.

Fornisce questa spiegazione del metodo statistico in diverse altre opere. Ad esempio, "Nel metodo statistico di indagine, non seguiamo il sistema durante il suo movimento, ma fissiamo la nostra attenzione su una particolare fase e accertiamo se il sistema è in quella fase o meno, e anche quando entra nella fase e quando lo lascia "(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547–570).

C'è un altro bellissimo passaggio di Maxwell sulla "probabilità" (da una lettera a Campbell, 1850, ristampata in The Life of James Clerk Maxwell , p. 143):

l'attuale scienza della Logica è attualmente al corrente solo di cose certe, impossibili o del tutto incerte, nessuna delle quali (per fortuna) dobbiamo ragionare. Pertanto la vera logica per questo mondo è il calcolo delle probabilità, che tiene conto dell'entità della probabilità (che è, o che dovrebbe essere nella mente di un uomo ragionevole).

Quindi possiamo dire:

- Nelle statistiche "stiamo concentrando la nostra attenzione su un piccolo numero di gruppi artificiali" o quantità; stiamo realizzando una sorta di catalogazione o censimento.

- Probabilmente stiamo calcolando la nostra incertezza su alcuni eventi o quantità.

I due sono distinti e possiamo fare l'uno senza l'altro.

Ad esempio, se facciamo un censimento completo dell'intera popolazione di una nazione e contiamo il numero esatto di persone appartenenti a gruppi particolari come età, genere e così via, stiamo facendo statistiche. Non c'è incertezza - probabilità - coinvolta, perché i numeri che troviamo sono esatti e noti.

D'altra parte, immagina che qualcuno passi davanti a noi per strada e ci chiediamo della loro età. In questo caso siamo incerti e usiamo la probabilità, ma non ci sono statistiche coinvolte, dal momento che non stiamo realizzando una sorta di censimento o catalogo.

Ma i due possono anche accadere insieme. Se non riusciamo a fare un censimento completo di una popolazione, dobbiamo indovinare quante persone appartengono a specifici gruppi età-genere. Quindi stiamo usando la probabilità mentre facciamo statistiche. Viceversa, possiamo prendere in considerazione dati statistici esatti sull'età delle persone e da tali dati possiamo provare a indovinare meglio la persona che passa di fronte a noi. Quindi stiamo usando le statistiche mentre decidiamo su una probabilità.


Grazie per il tuo contributo. Sebbene interessante, non si comporta con ciò che gli statistici ritengono che siano le statistiche né con ciò che effettivamente fanno, come mostrato su stats.stackexchange.com/questions/140547/… .
whuber

È un punto controverso. Conosco statistici professionisti che non sono d'accordo con la definizione ASA (che è terribilmente vaga) e sono d'accordo con Maxwell.
pglpm,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.