Risposte:
La risposta breve a questa che ho sentito da Persi Diaconis è la seguente: i problemi considerati dalla probabilità e dalle statistiche sono inversi tra loro. Nella teoria della probabilità consideriamo alcuni processi sottostanti che hanno una certa casualità o incertezza modellata da variabili casuali e scopriamo cosa succede. Nelle statistiche osserviamo qualcosa che è successo e proviamo a capire quale processo sottostante spiegherebbe quelle osservazioni.
Mi piace l'esempio di un barattolo di jelly bean rosse e verdi.
Un probabilista inizia conoscendo la proporzione di ciascuno e chiede la probabilità di disegnare un jelly bean rosso. Uno statistico ricava la percentuale di gelatine rosse campionando dal barattolo.
È fuorviante dire semplicemente che le statistiche sono semplicemente l'inverso della probabilità. Sì, le domande statistiche sono domande di probabilità inversa, ma sono problemi inversi male posti , e questo fa una grande differenza in termini di come vengono affrontate.
La probabilità è una branca della pura matematica: le domande di probabilità possono essere poste e risolte usando il ragionamento assiomatico, e quindi c'è una risposta corretta a qualsiasi domanda di probabilità.
Le domande statistiche possono essere convertite in domande di probabilità mediante l'uso di modelli di probabilità . Una volta fatte alcune ipotesi sul meccanismo che genera i dati, possiamo rispondere a domande statistiche usando la teoria della probabilità. TUTTAVIA, la corretta formulazione e verifica di questi modelli di probabilità è altrettanto importante, o anche più importante, della successiva analisi del problema utilizzando questi modelli.
Si potrebbe dire che la statistica comprende due parti. La prima parte è la domanda su come formulare e valutare modelli probabilistici per il problema; questo sforzo rientra nel dominio della "filosofia della scienza". La seconda parte è la domanda di ottenere risposte dopo che è stato assunto un certo modello. Questa parte della statistica è in effetti una questione di teoria della probabilità applicata e, in pratica, contiene anche una buona dose di analisi numerica.
Mi piace dalle scommesse calcolate di Steve Skienna (vedere il link per la discussione completa):
In sintesi, la teoria della probabilità ci consente di trovare le conseguenze di un determinato mondo ideale, mentre la teoria statistica ci consente di misurare la misura in cui il nostro mondo è ideale.
La probabilità è una scienza pura (matematica), la statistica riguarda i dati. Sono collegati poiché la probabilità costituisce una sorta di fondamento per le statistiche, fornendo idee di base.
La Tabella 3.1 di Biostatistica Intuitiva risponde a questa domanda con il diagramma mostrato di seguito. Si noti che tutte le frecce puntano a destra per probabilità e puntano a sinistra per statistiche.
PROBABILITÀ
Generale ---> Specifico
Popolazione ---> Campione
Modello ---> Dati
STATISTICHE
Generale <--- Specifico
Popolazione <--- Campione
Modello <--- Dati
La probabilità risponde alle domande su ciò che accadrà, la statistica risponde alle domande su ciò che è accaduto.
La probabilità riguarda la quantificazione dell'incertezza, mentre le statistiche spiegano la variazione di alcune misure di interesse (ad esempio, perché i livelli di reddito variano?) Che osserviamo nel mondo reale.
Spieghiamo la variazione usando alcuni fattori osservabili (ad esempio, genere, livello di istruzione, età ecc. Per l'esempio del reddito). Tuttavia, poiché non possiamo assolutamente prendere in considerazione tutti i possibili fattori che incidono sul reddito, lasciamo ogni variazione inspiegabile a errori casuali (che è qui che entra in gioco la quantificazione dell'incertezza).
Poiché attribuiamo "Variazione = Effetto dei fattori osservabili + Effetto degli errori casuali", abbiamo bisogno degli strumenti forniti dalla probabilità per tenere conto dell'effetto degli errori casuali sulla variazione che osserviamo.
Seguono alcuni esempi:
Quantificare l'incertezza
Esempio 1: Lancia un dado a 6 facce. Qual è la probabilità di ottenere un 1?
Esempio 2: Qual è la probabilità che il reddito annuale di una persona adulta selezionata a caso dagli Stati Uniti sia inferiore a $ 40.000?
Spiegare la variazione
Esempio 1: osserviamo che il reddito annuale di una persona varia. Quali fattori spiegano la variazione del reddito di una persona?
Chiaramente, non possiamo tenere conto di tutti i fattori. Pertanto, attribuiamo il reddito di una persona ad alcuni fattori osservabili (ad esempio, livello di istruzione, genere, età, ecc.) E lasciamo qualsiasi variazione residua all'incertezza (o nella lingua delle statistiche: ad errori casuali).
Esempio 2: osserviamo che alcuni consumatori scelgono Tide per la maggior parte del tempo che acquistano un detergente, mentre altri consumatori scelgono il marchio detergente xyz. Cosa spiega la variazione nella scelta? Attribuiamo la variazione delle scelte ad alcuni fattori osservabili come il prezzo, il marchio, ecc. E lasciamo qualsiasi variazione inspiegabile a errori casuali (o incertezza).
La probabilità di un evento è la sua frequenza relativa a lungo termine. Quindi, in pratica, ti sta dicendo la possibilità di ottenere, ad esempio, una "testa" sul prossimo lancio di una moneta o ottenere un "3" sul prossimo lancio di un dado.
Una statistica è qualsiasi misura numerica calcolata da un campione della popolazione. Ad esempio, la media del campione. Usiamo questo come una statistica che stima la media della popolazione, che è un parametro. Quindi in sostanza ti sta dando una sorta di riepilogo di un campione.
Studi di probabilità, beh, quanto sono probabili gli eventi. Sai intuitivamente qual è la probabilità.
La statistica è lo studio dei dati: mostrarli (usando strumenti come i grafici), riassumendoli (usando mezzi e deviazioni standard ecc.), Giungere a conclusioni sul mondo da cui sono stati estratti quei dati (adattando le linee ai dati ecc.), E - questa è la chiave - quantificare quanto possiamo essere sicuri delle nostre conclusioni.
Per quantificare quanto possiamo essere sicuri delle nostre conclusioni, dobbiamo usare Probabilità. Supponiamo che tu abbia i dati dell'anno scorso sulle precipitazioni nella regione in cui vivi e dove vivo. L'anno scorso ha piovuto in media 1/4 di pollice a settimana dove vivi e 3/8 di pollice dove vivo. Quindi possiamo dire che le precipitazioni nella mia regione sono in media del 50% maggiori rispetto a dove vivi, giusto? Non così veloce, Sparky. Potrebbe essere una coincidenza: forse è capitato che piovesse molto l'anno scorso dove vivo. Possiamo usare Probability per stimare quanto possiamo essere fiduciosi nelle nostre conclusioni che la mia casa è il 50% più umida della tua.
Quindi in sostanza puoi dire che la probabilità è la base matematica per la teoria della statistica.
Nella teoria della probabilità, ci vengono date variabili casuali X1, X2, ... in qualche modo, e quindi studiamo le loro proprietà, ovvero calcoliamo la probabilità P {X1 \ in B1}, studiamo la convergenza di X1, X2, ... ecc .
Nelle statistiche matematiche, ci vengono date n realizzazioni di alcune variabili casuali X e un insieme di distribuzioni D; il problema è trovare tra le distribuzioni di D una che è più probabile che generi i dati che abbiamo osservato.
Nella probabilità, la distribuzione è nota e conoscibile in anticipo: si inizia con una funzione di distribuzione della probabilità nota (o simile) e si campiona da essa.
In statistica, la distribuzione è sconosciuta in anticipo. Potrebbe anche essere inconoscibile. Si ipotizzano ipotesi sulla distribuzione della probabilità alla base dei dati osservati, al fine di poter applicare la teoria della probabilità a tali dati per sapere se un'ipotesi nulla su tali dati può essere respinta o meno.
C'è una discussione filosofica sul fatto che esista una cosa come la probabilità nel mondo reale o se sia un frutto ideale della nostra immaginazione matematica, e tutte le nostre osservazioni possono essere solo statistiche.
La statistica è la ricerca della verità di fronte all'incertezza. La probabilità è lo strumento che ci consente di quantificare l'incertezza.
(Ho fornito un'altra, più lunga, risposta che presupponeva che ciò che veniva chiesto fosse qualcosa del tipo "come lo spiegheresti a tua nonna?")
Disclaimer: quanto sopra sono risposte matematiche. In realtà, gran parte delle statistiche riguarda anche la progettazione / scoperta di modelli appropriati, l'interrogazione di modelli esistenti, la progettazione di esperimenti, la gestione di dati imperfetti, ecc. "Tutti i modelli sono sbagliati".
Probabilità : dati i parametri noti, trova la probabilità di osservare un particolare insieme di dati.
Statistiche : dato un particolare insieme di dati osservati, fai una deduzione su quali potrebbero essere i parametri.
La statistica è "più soggettiva" e "più arte che scienza" (rispetto alla probabilità).
Diversi statistici daranno risposte diverse, spesso lunghe.
La differenza tra probabilità e statistiche è che nelle probabilità non ci sono errori. Siamo sicuri della probabilità perché sappiamo esattamente quanti lati ha una moneta o quanti caramelli blu ci sono nel vaso. Ma nelle statistiche esaminiamo un pezzo di una popolazione di qualsiasi cosa esaminiamo e da questo proviamo a vedere la verità, ma c'è sempre un% di conclusioni errate. L'unica cosa nelle statistiche che è vera, è questo un errore%, che in realtà è una probabilità.
Il testo di Savage Foundations of Statistics è stato citato più di 12000 volte su Google Scholar. [3] Dice quanto segue.
Si concorda all'unanimità che le statistiche dipendono in qualche modo dalla probabilità. Ma per quanto riguarda la probabilità e il modo in cui è connessa con la statistica, raramente si è verificato un disaccordo e un'interruzione della comunicazione così completi dalla Torre di Babele. Senza dubbio, gran parte del disaccordo è semplicemente terminologico e scomparirebbe sotto un'analisi sufficientemente acuta.
https://en.wikipedia.org/wiki/Foundations_of_statistics
Quindi il punto che la teoria della probabilità è una base di statistica non è affatto contestato. Tutto il resto è un gioco equo.
Ma nel cercare di essere più utile, pratico con una risposta ...
Tuttavia, la teoria della probabilità contiene molto che è per lo più di interesse matematico e non direttamente rilevante per le statistiche. Inoltre, molti argomenti nelle statistiche sono indipendenti dalla teoria della probabilità
https://en.wikipedia.org/wiki/Probability_and_statistics
Quanto sopra non è esaustivo o autorevole in alcun modo, ma credo che sia utile.
Comunemente mi ha aiutato a vedere cose come ...
Descrivere la matematica >> teoria della probabilità >> statistica
Ognuno di essi viene pesantemente utilizzato, in media, nelle basi del prossimo. Cioè ci sono grandi intersezioni nel modo in cui studiamo le basi del prossimo.
PS. Ci sono statistiche induttive e deduttive, quindi non è qui la differenza.
Molte persone e matematici affermano che "STATISTICA è l'inverso della PROBABILITÀ", ma non è particolarmente giusto. Il modo di approcciarsi o il metodo per risolvere questi 2 sono completamente diversi ma sono INTERCONNESSI .
vorrei fare riferimento al mio amico John D Cook .....
"Mi piace l'esempio di un barattolo di jelly bean rosse e verdi.
Un probabilista inizia conoscendo la proporzione di ciascuno e diciamo che trova la probabilità di disegnare un jelly bean rosso. Uno statistico ricava la percentuale di gelatine rosse campionando dal barattolo ".
Ora la proporzione del jelly bean rosso ottenuta campionando dal vaso viene utilizzata dal probabilista per trovare la probabilità di estrarre un fagiolo rosso dal vaso
Considera questo esempio ---- >>>
In un esame il 30% degli studenti ha fallito in fisica, il 25% ha fallito in matematica, il 12% ha fallito sia in fisica che in matematica. Uno studente selezionato a caso trova la probabilità che lo studente abbia fallito in Fisica, se si sa che ha fallito in matematica.
La somma sopra è un problema di probabilità, ma se guardiamo attentamente scopriremo che la somma è fornita con alcuni dati statistici
Il 30% degli studenti ha fallito in fisica, il 25% "" "matematica '' Queste sono sostanzialmente frequenze se le percentuali sono calcolate. Pertanto ci vengono forniti dati statistici che a loro volta ci aiutano a trovare la probabilità
LA PROBABILITÀ E LE STATISTICHE SONO MOLTO INTERCONNESSE O SUCCESSIVE, POSSIAMO dire che la probabilità dipende molto dalle statistiche
Il termine "statistica" è meravigliosamente spiegato da JC Maxwell nell'articolo Molecole (in Nature 8, 1873, pp. 437–441). Vorrei citare il passaggio pertinente:
Quando i membri che lavorano della Sezione F ottengono un Rapporto del censimento o qualsiasi altro documento contenente i dati numerici di Scienze economiche e sociali, iniziano a distribuire l'intera popolazione in gruppi, in base a età, imposta sul reddito, istruzione, credo religioso o condanne penali. Il numero di individui è troppo grande per consentire di tracciare la storia di ciascuno separatamente, in modo che, al fine di ridurre il loro lavoro entro i limiti umani, concentrino la loro attenzione su un piccolo numero di gruppi artificiali. Il numero variabile di individui in ciascun gruppo, e non lo stato variabile di ogni individuo, è il dato principale da cui lavorano.
Questo, ovviamente, non è l'unico metodo di studio della natura umana. Possiamo osservare la condotta dei singoli uomini e confrontarla con quella condotta che il loro carattere precedente e le loro circostanze attuali, secondo la migliore teoria esistente, ci porterebbero ad aspettarci. Coloro che praticano questo metodo si sforzano di migliorare la loro conoscenza degli elementi della natura umana, più o meno allo stesso modo in cui un astronomo corregge gli elementi di un pianeta confrontando la sua posizione reale con quella dedotta dagli elementi ricevuti. Lo studio della natura umana da parte di genitori e maestri di scuola, da parte di storici e statisti, deve pertanto essere distinto da quello svolto dai registrar e dai tabulatori e da quegli statisti che credono nelle figure. Uno può essere chiamato storico e l'altro il metodo statistico.
Le equazioni della dinamica esprimono completamente le leggi del metodo storico applicato alla materia, ma l'applicazione di queste equazioni implica una perfetta conoscenza di tutti i dati. Ma la più piccola parte della materia che possiamo sottoporre a esperimento è costituita da milioni di molecole, nessuna delle quali diventa mai individualmente sensibile per noi. Pertanto, non possiamo accertare l'effettivo movimento di nessuna di queste molecole, quindi siamo obbligati ad abbandonare il rigoroso metodo storico e ad adottare il metodo statistico di trattare grandi gruppi di molecole.
Fornisce questa spiegazione del metodo statistico in diverse altre opere. Ad esempio, "Nel metodo statistico di indagine, non seguiamo il sistema durante il suo movimento, ma fissiamo la nostra attenzione su una particolare fase e accertiamo se il sistema è in quella fase o meno, e anche quando entra nella fase e quando lo lascia "(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547–570).
C'è un altro bellissimo passaggio di Maxwell sulla "probabilità" (da una lettera a Campbell, 1850, ristampata in The Life of James Clerk Maxwell , p. 143):
l'attuale scienza della Logica è attualmente al corrente solo di cose certe, impossibili o del tutto incerte, nessuna delle quali (per fortuna) dobbiamo ragionare. Pertanto la vera logica per questo mondo è il calcolo delle probabilità, che tiene conto dell'entità della probabilità (che è, o che dovrebbe essere nella mente di un uomo ragionevole).
Quindi possiamo dire:
- Nelle statistiche "stiamo concentrando la nostra attenzione su un piccolo numero di gruppi artificiali" o quantità; stiamo realizzando una sorta di catalogazione o censimento.
- Probabilmente stiamo calcolando la nostra incertezza su alcuni eventi o quantità.
I due sono distinti e possiamo fare l'uno senza l'altro.
Ad esempio, se facciamo un censimento completo dell'intera popolazione di una nazione e contiamo il numero esatto di persone appartenenti a gruppi particolari come età, genere e così via, stiamo facendo statistiche. Non c'è incertezza - probabilità - coinvolta, perché i numeri che troviamo sono esatti e noti.
D'altra parte, immagina che qualcuno passi davanti a noi per strada e ci chiediamo della loro età. In questo caso siamo incerti e usiamo la probabilità, ma non ci sono statistiche coinvolte, dal momento che non stiamo realizzando una sorta di censimento o catalogo.
Ma i due possono anche accadere insieme. Se non riusciamo a fare un censimento completo di una popolazione, dobbiamo indovinare quante persone appartengono a specifici gruppi età-genere. Quindi stiamo usando la probabilità mentre facciamo statistiche. Viceversa, possiamo prendere in considerazione dati statistici esatti sull'età delle persone e da tali dati possiamo provare a indovinare meglio la persona che passa di fronte a noi. Quindi stiamo usando le statistiche mentre decidiamo su una probabilità.