Quando leggiamo un libro, la comprensione delle notazioni gioca un ruolo molto importante nella comprensione dei contenuti. Sfortunatamente, comunità diverse hanno convenzioni di notazione diverse per la formulazione sul modello e il problema di ottimizzazione. Qualcuno potrebbe riassumere alcune notazioni di formulazione qui e fornire possibili ragioni?
Faccio un esempio qui: nella letteratura sull'algebra lineare, il libro classico è l' introduzione di Strang all'algebra lineare . La notazione più usata nel libro è
Dove è una matrice di coefficienti , è le variabili da risolvere e è un vettore sul lato destro dell'equazione . Il motivo per cui il libro sceglie questa notazione è l'obiettivo principale dell'algebra lineare è risolvere un sistema lineare e capire cos'è il vettore . Data tale formulazione, il problema dell'ottimizzazione OLS è
Nelle statistiche o nel machine learning (dal libro Elements of Statistical Learning ) le persone usano notazioni diverse per rappresentare la stessa cosa:
Dove è la matrice di dati , sono i coefficienti o i pesi da apprendere , è la risposta. Il motivo per cui le persone usano questo è perché le persone nelle statistiche o nella community di machine learning sono guidate dai dati , quindi i dati e la risposta sono la cosa più interessante per loro, dove usano e per rappresentare.
Ora possiamo vedere tutta la possibile confusione che può esserci: nella prima equazione è uguale a nella seconda equazione. E nella seconda equazione non è qualcosa da risolvere. Anche per i termini: è la matrice dei coefficienti nell'algebra lineare, ma sono i dati nelle statistiche. è anche chiamato "coefficienti".
Inoltre, ho detto che non è esattamente ciò che le persone usano ampiamente nell'apprendimento automatico, le persone usano una versione per metà vettorializzata che riassume tutti i punti dati. Ad esempio
Penso che la ragione di ciò sia che è positivo quando si parla della discesa gradiente stocastica e di altre diverse funzioni di perdita. Inoltre, la notazione della matrice concisa scompare per altri problemi oltre alla regressione lineare.
Notazione matriciale per la regressione logistica
Qualcuno potrebbe dare più sintesi sulle notazioni attraverso la letteratura diversa? Spero che le risposte intelligenti a questa domanda possano essere usate come un buon riferimento per le persone che leggono libri attraverso diverse pubblicazioni.
per favore non essere limitato dal mio esempio e . Ce ne sono molti altri. Ad esempio
Perché esistono due diverse formule / notazioni di perdita logistica?