Quali sono i rami delle statistiche?


30

In matematica, ci sono rami come l'algebra, l'analisi, la topologia, ecc. Nell'apprendimento automatico c'è l'apprendimento supervisionato, non supervisionato e di rinforzo. All'interno di ciascuno di questi rami, ci sono rami più fini che dividono ulteriormente i metodi.

Ho problemi a tracciare un parallelo con le statistiche. Quali sarebbero i principali rami delle statistiche (e dei sotto rami)? Una partizione perfetta non è probabilmente possibile, ma tutto è meglio di una grande mappa vuota.

Esempi visivi: inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine


6
Per offrire ancora un altro motivo per cui questa domanda è senza risposta (e perché, forse la premessa è mal riposta): si capisce poco che l'obiettivo della dura scienza teorica (come la matematica) è generalizzare piuttosto che specializzarsi . Quindi, se dovessimo visualizzare la traiettoria di un'indagine riuscita sul campo, non la vedremmo come se si ramificasse in rami più piccoli e più raffinati, ma piuttosto una lente che si allargasse in concetti e pensieri più astratti.
AdamO

La risposta di @Rob Hyndman mi sembra ancora scoppiare. Sono molto scettico su qualsiasi classificazione qui. Inoltre, questo è un posto buono come un altro per segnalare che un elenco di argomenti che si presentano a qualcuno è molto al di sotto di una classificazione basata su alberi. E sebbene i dendrogrammi o le rappresentazioni di boli di pelo siano leggermente intriganti, quale reale uso o interesse servono oltre a dimostrare la molteplicità della natura del campo?
Nick Cox,

Risposte:


52

Trovo questi sistemi di classificazione estremamente inutili e contraddittori. Per esempio:

  • le reti neurali sono una forma di apprendimento supervisionato
  • Il calcolo viene utilizzato nella geometria differenziale
  • La teoria della probabilità può essere formalizzata come parte della teoria degli insiemi

e così via. Non ci sono "rami" inequivocabili di matematica, né dovrebbero esserci statistiche.


11
"le reti neurali sono una forma di apprendimento supervisionato". Neanche questo è del tutto vero, vero? Voglio dire, si potrebbero usare (e usare) le NN nell'apprendimento supervisionato, nell'apprendimento non supervisionato e persino nell'apprendimento di rinforzo! Beh, almeno il concetto di reti neurali (è solo un'enorme funzione non lineare che può essere ottimizzata attraverso vari metodi di ottimizzazione, tra cui SL, UL e RL). Ma forse la terminologia viene semplicemente utilizzata nel modo in cui la stai usando, nel qual caso ... chiunque può avere ragione.
BlueRine S

7
Certo, non c'è verità, ma non è molto utile. Esiste un modello che soddisfa le esigenze del PO?
Jay Schyler Raadt,

3
Rob ha ragione. Gli alberi decisionali vengono utilizzati nella regressione e AdaBoost è un metodo di classificazione, ma la mappa non lo mostra.
Zen

4
Confesso di non capire davvero questa prospettiva. Un libro di testo statistico deve anche avere la sequenza dei suoi capitoli organizzata in qualche modo e la sua pagina dei contenuti riflette tale organizzazione. La struttura della pagina dei contenuti trasmette almeno alcune informazioni su come sono organizzati i concetti del campo, e lo fa in un modo molto più limitato di quanto consentirebbe una visualizzazione. Se nessuno ha problemi con l'esistenza delle pagine dei contenuti dei libri di testo anche se non catturano la complessità del campo, non vedo perché uno si opponga a una visualizzazione come quella sperata dall'OP.
mkt - Ripristina Monica il

4
I libri di testo non sono strutturati gerarchicamente, sono strutturati in modo lineare. Più avanti nel libro, vengono spesso sviluppati collegamenti tra i primi capitoli, dimostrando che gli argomenti introdotti separatamente in precedenza sono effettivamente collegati. Per fare un esempio, il mio libro di testo sulle previsioni in cui introduciamo modelli di regressione dinamica in un capitolo successivo, collegando i modelli di regressione e ARIMA introdotti in precedenza.
Rob Hyndman,

29

Questo è un piccolo contrappunto alla risposta di Rob Hyndman. È iniziato come un commento e poi è diventato troppo complesso per uno. Se questo è troppo lontano dall'affrontare la domanda principale, mi scuso e la cancellerò.


La biologia descrive relazioni gerarchiche da molto prima del primo doodle di Darwin (vedi il commento di Nick Cox per un link). La maggior parte delle relazioni evolutive sono ancora mostrate con questo tipo di "albero filogenetico" bello, pulito e ramificato:

inserisci qui la descrizione dell'immagine Tuttavia, alla fine ci siamo resi conto che la biologia è più caotica di così. Occasionalmente c'è uno scambio genetico (attraverso incroci e altri processi) tra specie e geni distinti presenti in una parte dell'albero che "salta" in un'altra parte dell'albero. Il trasferimento genico orizzontale sposta i geni in modo da rendere imprecisa la semplice rappresentazione dell'albero sopra. Tuttavia, non abbiamo abbandonato gli alberi, ma abbiamo semplicemente creato modifiche a questo tipo di visualizzazione:

Come nella figura precedente, ma con trasferimento genico tra i rami mostrato

È più difficile da seguire, ma trasmette un quadro più accurato della realtà.

Un altro esempio:

inserisci qui la descrizione dell'immagine

Tuttavia, non introduciamo mai queste figure più complesse per cominciare, perché sono difficili da comprendere senza comprendere i concetti di base. Invece, insegniamo l'idea di base con la figura semplice e quindi presentiamo loro la figura più complessa e le nuove complicazioni della storia.

Qualsiasi 'mappa' delle statistiche sarebbe allo stesso modo sia imprecisa che un prezioso strumento di insegnamento. Le visualizzazioni del modulo OP suggeriscono che sono molto utili per gli studenti e non dovrebbero essere ignorate solo perché non riescono a catturare la realtà in totale. Possiamo aggiungere più complessità all'immagine una volta che ha creato un framework di base.


4
FWIW, le rappresentazioni ad albero delle relazioni tra organismi precedono da tempo Darwin. Aggiungerò un riferimento più tardi.
Nick Cox,


3
Non tanto un contrappunto che un argomento di supporto: mettere in discussione la validità degli alberi. Almeno, con la filogenesi, utilizziamo i dati per creare una tale struttura, che si tratti di reperti fossili, espressione genica, qualsiasi cosa. Senza dati, chiediamo seriamente chi ha l'autorità di scegliere i blocchi e le frecce che diffondono la disinformazione.,
AdamO

2
@AdamO Non mi aspetto che esista un'unica 'mappa' di statistiche universali. È perfettamente ragionevole che due persone utilizzino strutture diverse e diversi insiemi di collegamenti, anche se ci si aspetterebbe che l'ampia struttura sia ragionevolmente robusta (si verificano anche differenze di basso livello tra alberi filogenetici costruiti dallo stesso set di dati, sebbene a questo punto siamo allungando troppo la metafora). Direi che l' esperienza (mettendo da parte le nozioni di autorità per il momento) esiste tra le molte persone che hanno scritto libri di testo di statistica generale o addirittura insegnato statistiche generali.
mkt - Ripristina Monica il

2
Mi sono piaciuti i diagrammi qui abbastanza per votare questo, ma non risponde davvero alla domanda.
Nick Cox,

24

È possibile esaminare le parole chiave / i tag del sito Web con convalida incrociata.


Filiali come rete

Un modo per farlo è quello di tracciarlo come una rete basata sulle relazioni tra le parole chiave (con quale frequenza coincidono nello stesso post).

Quando si utilizza questo sql-script per ottenere i dati del sito da (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Quindi si ottiene un elenco di parole chiave per tutte le domande con un punteggio di 2 o superiore.

È possibile esplorare l'elenco elencando qualcosa di simile al seguente:

relazioni tra tag

Aggiornamento: lo stesso con il colore (basato sugli autovettori della matrice di relazione) e senza il tag di autoapprendimento

relazioni tra tag

Potresti ripulire ulteriormente questo grafico (ad esempio, estrarre i tag che non si riferiscono a concetti statistici come i tag software, nel grafico sopra questo è già stato fatto per il tag 'r') e migliorare la rappresentazione visiva, ma immagino che questa immagine sopra mostra già un buon punto di partenza.

R-code:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Rami gerarchici

Credo che questo tipo di grafici di rete di cui sopra si riferiscano ad alcune critiche riguardanti una struttura gerarchica puramente ramificata. Se vuoi, immagino che potresti eseguire un cluster gerarchico per forzarlo in una struttura gerarchica.

Di seguito è riportato un esempio di tale modello gerarchico. Uno dovrebbe ancora trovare i nomi dei gruppi appropriati per i vari cluster (ma, non credo che questo cluster gerarchico sia la buona direzione, quindi lo lascio aperto).

clustering gerarchico

La misura della distanza per il clustering è stata trovata per tentativi ed errori (apportando regolazioni fino a quando i cluster appaiono belli.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Scritto da StackExchangeStrike


2
Forse lavorerò per rendere i grafici più puliti. Potrebbe essere bello avere alcuni grafici chiari che mappano gli argomenti su questo sito web.
Sesto Empirico

1
Questo è un ottimo approccio! Ben fatto.
Andrew Brēza,

Dal tuo grafico a colori, le tre grandi aree sono probabilità, regressione e apprendimento automatico.
Matt F.

@MattF. il grafico è in realtà un po 'problematico e corrisponde maggiormente alla frequenza d'uso. Ho provato a ridimensionare la matrice in base alla frequenza (come passare dalla matrice di covarianza alla matrice di correlazione), ma non è cambiato molto. Il grafico 2D non mostra molto bene la struttura e il modello fisico, che tratta i percorsi come stringhe, posiziona i nodi in una forma esagonale / triangolare (che è più efficiente).
Sesto Empirico

1
Direi che su StackOverflow ci sono cinque categorie principali: probabilità, regressione, apprendimento automatico, ma anche test di ipotesi e serie temporali.
Sesto Empirico

9

Un modo semplice per rispondere alla tua domanda è cercare le tabelle di classificazione comuni. Ad esempio, la Classificazione tematica matematica 2010 viene utilizzata da alcune pubblicazioni per classificare i documenti. Questi sono rilevanti perché è così che molti autori classificano i propri articoli. inserisci qui la descrizione dell'immagine

Esistono molti esempi di classificazioni simili, ad esempio la classificazione di arxiv o l' UDK del ministero dell'educazione russo (classificazione decimale universale) che viene ampiamente utilizzato per tutte le pubblicazioni e le ricerche.

inserisci qui la descrizione dell'immagine

Un altro esempio è il sistema di claasification JEL dell'American Economic Association. L'articolo di Rob Hyndman " Previsione automatica delle serie storiche: il pacchetto di previsioni per R ". È classificato come C53, C22, C52 secondo JEL. Hyndman ha ragione nel criticare le classificazioni degli alberi. Un approccio migliore potrebbe essere l'etichettatura, ad esempio le parole chiave nel suo documento sono: "Modelli ARIMA, previsioni automatiche, livellamento esponenziale, intervalli di previsione, modelli dello spazio degli stati, serie temporali, R." Si potrebbe sostenere che questi sono il modo migliore per classificare i documenti, poiché non sono gerarchici e si potrebbero costruire più gerarchie.

@whuber ha sottolineato che alcuni degli ultimi progressi come l'apprendimento automatico non saranno inclusi nelle statistiche nelle classifiche attuali. Ad esempio, dai un'occhiata al documento " Deep Learning: An Introduction for Applied Mathematicians " di Catherine F. Higham, Desmond J. Higham. Hanno classificato il loro documento sotto il suddetto MSC come 97R40, 68T01, 65K10, 62M45. questi sono sotto l'informatica, l'educazione matematica e l'analisi numerica oltre alle statistiche


3
Penso che sarebbe più preciso affermare che è così che molti autori sono invitati a classificare i loro articoli. So di non essere mai del tutto soddisfatto quando mi viene chiesto di utilizzare categorie a priori per il mio lavoro.
Alexis

6
Questa è una buona base per identificare i rami delle statistiche matematiche. Sapere che ci aiuta a identificare ciò che è stato lasciato fuori, che include molte parti dell'apprendimento automatico. In effetti, potrebbe essere giusto caratterizzare la classificazione dei soggetti matematici del 2010 come descrittiva di "statistiche del 1950" e poi includere tutto ciò che è emerso in seguito, come geostatistica, genomica, bootstrap e così via (alcuni dei quali potrebbero rientrare in quelli vecchi categorie, forse).
whuber

4

Un modo per affrontare il problema è guardare alle reti di citazioni e paternità nelle riviste statistiche, come Annals of Statistics, Biometrika, JASA e JRSS-B. Questo è stato fatto da:

Ji, P., & Jin, J. (2016). Reti di coautore e citazioni per statistici. The Annals of Applied Statistics, 10 (4), 1779-1812.

Hanno identificato comunità di statistici e hanno usato la loro comprensione del dominio per etichettare le comunità come:

  • Analisi dei dati ad alta dimensione (HDDA-Coau-A)
  • Apprendimento automatico teorico
  • Riduzione dimensionale
  • Johns Hopkins
  • Duca
  • Stanford
  • Regressione quantile
  • Design sperimentale
  • Bayes obiettivo
  • Biostatistica
  • Analisi dei dati ad alta dimensione (HDDA-Coau-B)
  • Test multipli su larga scala
  • Selezione variabile
  • Statistiche spaziali e semi-parametriche / non parametriche

Il documento include una discussione dettagliata delle comunità insieme a scomposizioni delle più grandi in ulteriori sottocomunità.

Questo potrebbe non rispondere interamente alla domanda, poiché riguarda i campi di ricerca degli statistici piuttosto che tutti i campi, compresi quelli che non sono più attivi. Spero che sia comunque utile. Naturalmente, ci sono altri avvertimenti (come considerare solo queste quattro riviste) che sono discussi ulteriormente nel documento.


2
Stavo pensando di farlo per questo sito web. Definire la "paternità" come persone che rispondono / rispondono alle stesse domande.
Sesto Empirico

@MartijnWeterings Sì, la tua risposta sembra essere in una direzione molto simile a quella di questo approccio!
user257566,

2

Vedo molte risposte sorprendenti e non so come si possa ricevere un'umile classificazione fatta da sé, ma non conosco nessun libro completo di tutte le statistiche per mostrare il riassunto di, e penso che, come @ mkt ha commentato brillantemente, una classificazione di un campo di studio può essere utile. Quindi, ecco il mio scatto:

  • statistiche descrittive
    • inferenza semplice
      • semplice test di ipotesi
    • grafico / visualizzazione dei dati
  • disegno di campionamento
    • design sperimentale
    • progettazione del sondaggio
  • statistiche multivariate (senza supervisione)
    • il clustering
    • analisi dei componenti
    • modelli di variabili latenti
  • modelli lineari (che in realtà sono anche multivariati)
    • minimi quadrati ordinari
    • modelli lineari generalizzati
      • modello logit
    • altri modelli lineari
      • Modello Cox
      • regressione quantile
    • inferenza multivariata
      • test di ipotesi multiple
      • test di ipotesi adattato
    • modelli per dati strutturati
      • modelli di effetti misti
      • modelli spaziali
      • modelli di serie storiche
    • estensioni non lineari
      • modelli additivi generalizzati
  • statistiche bayesiane (in realtà esistono metodi bayesiani per molte cose che ho già elencato)
  • regressione e classificazione non parametriche
    • molti metodi di apprendimento automatico si adattano qui

Naturalmente questo è troppo semplicistico, ha solo lo scopo di far venire un'idea direttamente a qualcuno che conosce a malapena il campo, ognuno di noi qui sicuramente sa che ci sono molti metodi tra le categorie qui sopra, molti altri che non ho fatto t elenco perché sono meno famosi o perché ho semplicemente dimenticato. Spero ti piaccia.


1

Un modo per organizzare queste informazioni è trovare un buon libro e guardare il sommario. Questo è un paradosso perché hai specificamente chiesto informazioni sulla statistica , mentre la maggior parte dei testi introduttivi a livello di laurea sull'argomento sono insieme per la statistica e la teoria delle probabilità . Un libro che sto leggendo sulla regressione ora ha il seguente sommario:

  • Inferenza del frequentista
  • Inferenza bayesiana
  • Test di ipotesi e selezione delle variabili
  • Modelli lineari
  • Modelli di regressione generale
  • Modelli di dati binari

  • Modelli di regressione generale

  • Preliminari per la regressione non parametrica [un precursore di ...]
  • Metodi spline e kernel
  • Regressione non parametrica con predittori multipli

(Le sezioni rimanenti supportano la matematica e la teoria delle probabilità)

  • Differenziazione delle espressioni di matrice
  • Risultati della matrice
  • Qualche algebra lineare
  • Distribuzioni di probabilità e funzioni generatrici
  • Funzioni delle variabili casuali normali
  • Alcuni risultati dalle statistiche classiche
  • Teoria di base dei grandi campioni

2
Si potrebbe considerare un libro del genere per trasmettere una parte di un ramo di una disciplina. A meno che non pretenda di essere un'indagine enciclopedica di tutte le statistiche, tuttavia, i titoli dei suoi capitoli potrebbero a malapena essere considerati i principali rami del campo!
whuber

3
@whuber concordato. Sono stato attento a menzionare che il libro era sulla regressione e che non considero nessun libro sull'argomento delle "statistiche" come abbastanza generale o al livello appropriato affinché uno statistico possa considerare sufficienti gli argomenti presentati. Questo esempio specifico è tratto dal testo di Wakefield ed è un trattamento notevolmente generale (il test T con una stima della varianza diseguale è discusso nel contesto della regressione lineare con covariata binaria e una stima dell'errore robusta, per esempio).
AdamO
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.