Quali sono le notazioni classiche in statistica, algebra lineare e machine learning? E quali sono le connessioni tra queste notazioni?

Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni?

Faccio un esempio qui: nella letteratura sull'algebra lineare, il libro classico è l' introduzione di Strang all'algebra lineare . La notazione più usata nel libro è

A x = b

$A x=b$

Dove è una matrice di coefficienti , è le variabili da risolvere e è un vettore sul lato destro dell'equazione . Il motivo per cui il libro sceglie questa notazione è l'obiettivo principale dell'algebra lineare è risolvere un sistema lineare e capire cos'è il vettore . Data tale formulazione, il problema dell'ottimizzazione OLS è $A$ $x$ $b$ $x$

\underset{x}{minimize} ‖ A x - b ‖^{2}

$\underset{x}{\text{minimize}}~~ \|A x-b\|^2$

Nelle statistiche o nel machine learning (dal libro Elements of Statistical Learning ) le persone usano notazioni diverse per rappresentare la stessa cosa:

X β = y

$X \beta= y$

Dove $X$ è la matrice di dati , $\beta$ sono i coefficienti o i pesi da apprendere , $y$ è la risposta. Il motivo per cui le persone usano questo è perché le persone nelle statistiche o nella community di machine learning sono guidate dai dati , quindi i dati e la risposta sono la cosa più interessante per loro, dove usano $X$ e $y$ per rappresentare.

Ora possiamo vedere tutta la possibile confusione che può esserci: $A$ nella prima equazione è uguale a $X$ nella seconda equazione. E nella seconda equazione $X$ non è qualcosa da risolvere. Anche per i termini: $A$ è la matrice dei coefficienti nell'algebra lineare, ma sono i dati nelle statistiche. $\beta$ è anche chiamato "coefficienti".

Inoltre, ho detto che $X \beta=y$ non è esattamente ciò che le persone usano ampiamente nell'apprendimento automatico, le persone usano una versione per metà vettorializzata che riassume tutti i punti dati. Ad esempio

min \sum_{i} L (y_{i}, f (x_{i}))

$\min \sum_i \text{L}(y_i,f(x_i))$

Penso che la ragione di ciò sia che è positivo quando si parla della discesa gradiente stocastica e di altre diverse funzioni di perdita. Inoltre, la notazione della matrice concisa scompare per altri problemi oltre alla regressione lineare.

Notazione matriciale per la regressione logistica

Qualcuno potrebbe dare più sintesi sulle notazioni attraverso la letteratura diversa? Spero che le risposte intelligenti a questa domanda possano essere usate come un buon riferimento per le persone che leggono libri attraverso diverse pubblicazioni.

per favore non essere limitato dal mio esempio e . Ce ne sono molti altri. Ad esempio $A x=b$ $X \beta=y$

Perché esistono due diverse formule / notazioni di perdita logistica?

— hxd1011
fonte

La notazione non esiste realmente come una sorta di verità verificabile esternamente. È un linguaggio, quindi intrinsecamente contestuale e pronto alla ridefinizione. Se scrivo x * b e dico che significa matrice x punto vettore prodotto b, è solo, in grassetto o meno.

— Sycorax dice di reintegrare Monica il

Direi che e hanno notazione equivalente. Sono cambiati solo i nomi delle variabili. In generale, non troverai una denominazione coerente delle variabili da carta a carta, anche all'interno di un campo.

A x = b

$Ax = b$

X β = y

$X \beta = y$

— user20160

Al momento, questo ha 10 voti, 150 viste; sembra essere un thread prezioso e utile. Inoltre, ha una risposta votata; quindi non penso che sia troppo ampio per avere una risposta.

— gung - Ripristina Monica

Sono d'accordo con @gung, la comunità ha chiaramente un certo interesse per questa domanda. Ho nominato per la riapertura.

— Matthew Drury,

Penso che sia troppo ampio per un normale q. - ma dato che è già in CW e in qualche modo popolare, ho aggiunto il mio voto per riaprirlo ai quattro che erano lì.

— Scortchi - Ripristina Monica

Forse una domanda correlata è: "Quali sono le parole usate in diverse lingue e quali sono le connessioni tra queste parole?"

La notazione è in qualche modo simile al linguaggio:

Alcune parole hanno significati specifici per regione; alcune parole sono ampiamente capite.
Come nazioni potenti hanno diffuso la loro lingua, campi di successo e ricercatori influenti hanno diffuso la loro notazione.
La lingua si evolve nel tempo: la lingua ha un mix di origini storiche e influenza moderna.

La tua domanda specifica ...

Non sarei d'accordo con la tua tesi secondo cui i due seguono "notazione completamente diversa". Sia che usano le lettere maiuscole per indicare le matrici. Non sono così diversi. $X\boldsymbol{\beta} = \boldsymbol{y}$ $A\mathbf{x} = \mathbf{b}$
L'apprendimento automatico è fortemente correlato alle statistiche, un campo ampio e maturo. Usare per rappresentare la matrice di dati è quasi certamente la convenzione più leggibile e più standard da seguire. Mentre è standard per la risoluzione di sistemi lineari, non è così che le persone che fanno statistiche scrivono le normali equazioni. Troverai il tuo pubblico più confuso se provi a farlo. Quando a Roma... $X$ $A\mathbf{x} = \mathbf{b}$
In un certo senso, il cuore della tua domanda rivista è "Quali sono le origini storiche delle statistiche che usano la lettera per rappresentare i dati e la lettera per rappresentare la variabile sconosciuta per cui risolvere?" β
- Questa è una domanda per gli storici statistici! Per una breve ricerca, vedo l'influente statistico britannico e accademico di Cambridge Udny Yule usato per rappresentare i dati nella sua Introduzione alla teoria della statistica (1911). Ha scritto un'equazione di regressione come , con l'obiettivo dei minimi quadrati come minimizzare e con la soluzione . Almeno risale a allora ... $x$ $x_1 = a + bx_2$ $\sum\left( x_1 - a - bx_2\right)^2$ $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$
- RA Fisher, ancora più influente, usò per la variabile dipendente e per la variabile indipendente nel suo libro Statistical Methods for Research Workers del 1925 . (Hat tip a @Nick Cox per fornire link con informazioni.) $y$ $x$

La buona notazione è come una buona lingua. Evitare il gergo specifico del campo, quando possibile. Scrivi nell'equivalente in matematica dell'alto inglese della BBC, lingua comprensibile a quasi tutti coloro che parlano inglese. Si dovrebbe scrivere, quando possibile, usando una notazione chiara e ampiamente compresa.

— Matthew Gunn
fonte

Questo storico dilettante di statistica può fornire una correzione pedante che Yule non è mai stato un professore ... Ancora più interessante c'è un sito Web pertinente su jeff560.tripod.com/stat.html, tranne per il fatto che al momento sembra non essere disponibile.

— Nick Cox,

math.hawaii.edu/~tom/history/stat.html sembra essere una copia. Convenzioni sistematiche come il greco per i parametri e il romano per le variabili che capisco siano in gran parte dovute a RA Fisher, ma ci sono molti ritardi, ad esempio per la statistica campione chi-quadro non mostra segni di svanire.

χ^{2}

$\chi^2$

— Nick Cox,

@NickCox Link fantastico jeff560.tripod.com/stat.html (su per me ...) che fa riferimento a Yule e RA Fisher! Le prime origini matematiche della regressione risalgono ovviamente prima a Gauss e Laplace, ma nella mia completa ricerca amatoriale, sembravano usare una notazione diversa.

— Matthew Gunn,

jeff560.tripod.com/stat.html mentre scrivo è un aggiornamento del 2014; www.math.hawaii.edu/~tom/history/stat.html è una copia di una versione del 2007.

— Nick Cox,