Qual è la differenza tra statistiche descrittive e inferenziali?


21

La mia comprensione era che le statistiche descrittive descrivevano quantitativamente le caratteristiche di un campione di dati, mentre le statistiche inferenziali dedussero le popolazioni da cui venivano prelevati i campioni.

Tuttavia, la pagina di Wikipedia per inferenza statistica afferma:

Per la maggior parte, l'inferenza statistica fa proposizioni sulle popolazioni, usando i dati ricavati dalla popolazione di interesse attraverso una qualche forma di campionamento casuale.

Il "per la maggior parte" mi ha fatto pensare che forse non capisco bene questi concetti. Ci sono esempi di statistiche inferenziali che non fanno proposizioni sulle popolazioni?


Statistiche descrittive: una moneta fu lanciata dieci volte e scese testa sei volte. Inferenza statistica: la stima della massima verosimiglianza della probabilità di Heads è o, Questa informazione non è sufficiente per respingere l'ipotesi che la moneta sia una moneta giusta. 0.6
Dilip Sarwate,

2
Inferenza senza il concetto di "popolazione": supponiamo che i tuoi dati siano generati da un meccanismo / regola casuale (parzialmente) sconosciuto. I metodi inferenziali consentono di valutare le proprietà di questo meccanismo in base ai dati. Esempio: si desidera verificare una formula elettrofisica basata su risultati che possono essere misurati solo approssimativamente o in condizioni imperfette.
Michael M,

1
@Michael: Sì; o addirittura rendere i tuoi dati generati da un meccanismo casuale noto - assegnazione casuale di trattamenti sperimentali.
Scortchi - Ripristina Monica

Risposte:


19

Proveniente da un background di scienze comportamentali, associo questa terminologia in particolare ai libri di testo introduttivi di statistica. In questo contesto, la distinzione è che:

  • Le statistiche descrittive sono funzioni dei dati di esempio che sono intrinsecamente interessanti nella descrizione di alcune caratteristiche dei dati. Le statistiche descrittive classiche includono media, min, max, deviazione standard, mediana, inclinazione, curtosi.
  • Le statistiche inferenziali sono una funzione dei dati di esempio che aiutano a trarre un'inferenza riguardo un'ipotesi su un parametro di popolazione. Le statistiche inferenziali classiche includono z, t, , rapporto F, ecc.χ2

Il punto importante è che qualsiasi statistica, inferenziale o descrittiva, è una funzione dei dati di esempio. Un parametro è una funzione della popolazione, in cui il termine popolazione equivale a dire il processo di generazione dei dati sottostante.

Da questo punto di vista lo stato di una determinata funzione dei dati come statistica descrittiva o inferenziale dipende dallo scopo per cui lo si sta utilizzando.

Detto questo, alcune statistiche sono chiaramente più utili nel descrivere le caratteristiche rilevanti dei dati e alcune sono adatte a favorire l'inferenza.

  • Statistiche inferenziali: statistiche di test standard come t e z, per un dato processo di generazione di dati, in cui l'ipotesi nulla è falsa, il valore atteso è fortemente influenzato dalla dimensione del campione. La maggior parte dei ricercatori non vedrebbe tali statistiche come la stima di un parametro di popolazione di interesse intrinseco.
  • Statistiche descrittive : al contrario, le statistiche descrittive stimano i parametri della popolazione che sono in genere di interesse intrinseco. Ad esempio, la media del campione e la deviazione standard forniscono stime dei parametri equivalenti della popolazione. Anche le statistiche descrittive come il minimo e il massimo forniscono informazioni su parametri di popolazione equivalenti o simili, anche se ovviamente in questo caso è necessaria molta più cura. Inoltre, molte statistiche descrittive potrebbero essere distorte o comunque inferiori agli stimatori ideali. Tuttavia, hanno ancora qualche utilità nella stima di un parametro di popolazione di interesse.

Quindi, da questo punto di vista, le cose importanti da capire sono:

  • statistica : funzione dei dati di esempio
  • parametro : funzione della popolazione (processo di generazione dei dati)
  • stimatore : funzione dei dati di esempio utilizzati per fornire una stima di un parametro
  • inferenza : processo per giungere a una conclusione su un parametro

Pertanto, è possibile definire la distinzione tra descrittivo e inferenziale in base all'intenzione del ricercatore che utilizza la statistica, oppure è possibile definire una statistica in base al modo in cui viene generalmente utilizzata.


In che modo è giustificato chiamare i punteggi t o F (anziché ad esempio i test t ) delle statistiche inferenziali?
jona,

@jona Il t-score è la "statistica" che viene utilizzata nel t-test, quindi si potrebbe descrivere il t-score come una statistica inferenziale quando usato come parte di tale processo inferenziale. Immagino di aver iniziato con l'ipotesi che una statistica sia una funzione dei dati. Ma forse stai alludendo al punto che spesso pensiamo alle statistiche inferenziali come l'insieme più ampio di tecniche usate per fare l'inferenza?
Jeromy Anglim,

Consentitemi di esprimerlo diversamente: una statistica t non è una descrizione di un campione, piuttosto che un'istruzione inferenziale (come un valore p)?
jona,

Bene sì, una funzione dei dati equivale a una descrizione di un campione. Immagino che stavo pensando che tali statistiche vengano utilizzate in un processo inferenziale (ad esempio, i ricercatori mettono in relazione la statistica t con una distribuzione t per ottenere un valore p e quindi correlano p all'alfa per trarre un'inferenza). Ho visto spesso libri di testo usare questi esempi. Ma suppongo che il valore p e l'inferenza binaria stessa possano essere visti come statistiche (cioè funzioni dei dati di esempio). E l'inferenza binaria stessa potrebbe essere vista come chiaramente allineata all'inferenza. È quello a cui stai arrivando?
Jeromy Anglim,

1
Quindi, per esempio, usi i dati per arrivare a t che è correlato a una distribuzione, che ti dà p , che a sua volta produce un'inferenza binaria su un parametro di popolazione. Quindi da una prospettiva frequentista, t, p e l'inferenza binaria sono tutte variabili casuali. Tutti erano coinvolti nel processo inferenziale. Non sono sicuro di quali siano i pro e i contro di etichettare tutte o solo alcune statistiche come inferenziali.
Jeromy Anglim,

8

Una forma di inferenza si basa sull'assegnazione casuale di trattamenti sperimentali e non sul campionamento casuale da una popolazione (anche ipoteticamente). Oscar Kempthorne era un sostenitore.

UNBtt10/252=0.04

La previsione è un'altra area in cui non stai necessariamente formulando proposizioni sulle popolazioni. (Non so che tutti vorrebbero chiamare la predizione "inferenza", ma c'è Geisser (1993), Predictive Inference: An Introduction ). Spesso la previsione deriva da un modello di popolazione adattata, ma non sempre; ad esempio l'esempio di classificazione di @ Matt, la media del modello (bayesiano o basato sui pesi di Akaike) o algoritmi di previsione come il livellamento esponenziale.

NB Penso che le "statistiche inferenziali vs descrittive" si riferiscano più spesso alla disciplina Statistica, piuttosto che alle quantità calcolate dai campioni. Non esiste alcuna differenza essenziale tra una statistica inferenziale e una descrittiva; come ha sottolineato @Jeremy, dipende dall'uso che stai facendo.


2

Non sono sicuro che la classificazione faccia necessariamente una dichiarazione sulla popolazione o sulle popolazioni da cui sono stati estratti i punti dati. La classificazione, come probabilmente saprai, utilizza i dati di addestramento costituiti da alcuni vettori di "caratteristiche", ciascuno etichettato con una classe specifica, per prevedere le etichette di classe appartenenti ad altri vettori di caratteristiche senza etichetta. Ad esempio, potremmo usare i segni vitali di un paziente e la diagnosi di un medico per prevedere se altri pazienti sono sani o malati.

P(classe=c|Caratteristiche)c

Tuttavia, altri classificatori cercano differenze tra le classi senza modellare le classi stesse; questi sono chiamati classificatori discriminatori. Un esempio classico è il classificatore più vicino più vicino, che assegna un esempio senza etichetta alla classe del suo vicino più vicino (dove close è definito in qualche modo ragionevole per il problema). Non sembra che contenga molte, se del caso, informazioni sulle popolazioni da cui sono stati estratti i punti dati.

t


0

In una riga, dati i dati, le statistiche descrittive cercano di sintetizzare il contenuto dei dati con una perdita minima di informazioni (a seconda della misura utilizzata). Si arriva a vedere la geografia dei dati (qualcosa di simile, vedere il grafico delle prestazioni della classe e dire chi è in cima, in fondo e così via)

In una riga, dati i dati, si tenta di stimare e dedurre le proprietà della popolazione ipotetica da cui provengono i dati. (Qualcosa di simile, capire gli studenti del 7 ° grado attraverso il buon campione della classe, supponendo che la popolazione sottostante sia abbastanza grande da non poterli prendere in considerazione nella totalità)


3
Non credo sia una definizione o caratterizzazione di statistiche descrittive che mirano a una perdita minima di informazioni. È del tutto possibile disporre di statistiche descrittive che tralasciano dettagli veramente importanti e questo è spesso un problema.
Nick Cox,

0

In breve

La statistica descrittiva è l'analisi dei dati che descrivono, mostrano o riassumono i dati in modo significativo; è semplicemente un modo per descrivere i nostri dati / parlare dell'intera popolazione. alcuni di essi sono Misure di tendenza centrale e Misura di dispersione

La statistica inferenziale è una tecnica che ci consente di utilizzare campioni per fare generalizzazioni sulle popolazioni da cui sono stati estratti i campioni. Esempio test di ipotesi e


0

la statistica descrittiva è l'analisi dei dati che descrivono, mostrano o riassumono i dati in modo significativo; è semplicemente un modo per descrivere i nostri dati / parlare dell'intera popolazione. alcuni di essi sono Misure di tendenza centrale e Misura di dispersione

La statistica inferenziale è una tecnica che ci consente di utilizzare campioni per fare generalizzazioni sulle popolazioni da cui sono stati estratti i campioni.esempio test di ipotesi e condivisione per migliorare questa risposta


Benvenuto in Cross Validated ! Per favore, prenditi un momento per vedere il nostro tour . Sembra che tu stia per finire una buona risposta, ma è successo qualcosa. sentiti libero di modificare la tua risposta per completare il tuo pensiero. Puoi anche migliorare la tua risposta aggiungendo citazioni / riferimenti che collaborano con ciò che hai inserito qui. Devi anche rispondere alla domanda "Esistono esempi di statistiche inferenziali che non fanno proposizioni sulle popolazioni?"
Tavrock,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.