Attualmente sto imparando le stime dei minimi quadrati (e altri) per la regressione, e da quello che sto leggendo anche in alcune letterature di algoritmi adattativi, spesso volte la frase "... e poiché la superficie dell'errore è convessa ..." appare e qualsiasi profondità sul perché sia convesso per cominciare non è da trovare.
... Quindi cosa lo rende esattamente convesso ?
Trovo questa ripetuta omissione leggermente fastidiosa perché voglio essere in grado di progettare i miei algoritmi adattativi, con le mie funzioni di costo, ma se non posso dire se la mia funzione di costo produce o meno una superficie di errore convessa, non sarò in grado di andare troppo lontano nell'applicare qualcosa come la discesa gradiente perché non ci sarà un minimo globale. Forse voglio diventare creativo - forse non voglio usare i minimi quadrati come criterio di errore, ad esempio.
Scavando più a fondo, (e le mie domande iniziano qui), ho scoperto che per essere in grado di dire se hai una superficie di errore convessa, devi assicurarti che la tua matrice hessiana sia semi-definita positiva. Per le matrici simmetriche, questo test è semplice: assicurati semplicemente che tutti gli autovalori della matrice hessiana siano non negativi. (Se la tua matrice non è simmetrica, puoi renderla simmetrica aggiungendola al suo proprio recepimento ed eseguendo lo stesso test sugli autovalori, in virtù della grammatica , ma qui non è importante).
Cos'è una matrice hessiana? La matrice hessiana codifica tutte le possibili combinazioni dei parziali della tua funzione di costo. Quanti parziali ci sono? Tanto quanto il numero di funzioni nel vettore delle caratteristiche. Come calcolare i parziali? Prendi i derivati parziali "a mano" dalla funzione di costo originale.
Quindi è esattamente quello che ho fatto: presumo che abbiamo una matrice di dati x , indicata dalla matrice , dove, indica il numero di esempi e indica il numero di funzioni per esempio. (che sarà anche il numero di parziali). Suppongo che possiamo dire che abbiamo campioni di tempo e campioni spaziali da sensori, ma l'applicazione fisica non è troppo importante qui.n X m n m n
Inoltre, abbiamo anche un vettore di dimensioni x . (Questo è il tuo vettore 'etichetta' o la tua 'risposta' corrispondente ad ogni riga di ). Per semplicità, ho assunto per questo esempio particolare. Quindi 2 "esempi" e 2 "caratteristiche".m 1 X m = n = 2
Quindi ora supponiamo che tu voglia accertare la "linea" o il polinomio di migliore adattamento qui. Ossia, proietti le funzionalità dei tuoi dati di input contro il tuo vettore polinomiale tale che la tua funzione di costo sia:
Ora prendiamo la prima derivata parziale wrt , (caratteristica 0) Quindi:
Ora, calcoliamo tutti i secondi parziali, quindi:
Sappiamo che l'Assia non è altro che:
Ora, in base al modo in cui ho costruito la matrice di dati , (le mie "caratteristiche" vanno per colonne e i miei esempi vanno per righe), l'Assia sembra essere:
... che non è altro che la matrice di covarianza del campione !
Quindi non sono del tutto sicuro di come interpretare - o dovrei dire, non sono del tutto sicuro di quanto dovrei essere generalista. Ma penso di poter dire che:
Sempre vero:
- La matrice hessiana controlla sempre se la superficie di errore / costo è convessa.
- Se la tua matrice hessiana è pos-semi-def, sei convesso (e puoi usare felicemente algoritmi come la discesa del gradiente per convergere alla soluzione ottimale).
Vero solo per LSE:
- La matrice hessiana per il criterio del costo LSE non è altro che la matrice di covarianza originale. (!).
- Per me questo significa che, se utilizzo il criterio LSE, i dati stessi determinano se ho o meno una superficie convessa? ... Ciò significherebbe quindi che gli autovettori della mia matrice di covarianza hanno in qualche modo la capacità di "modellare" la superficie dei costi? È sempre vero? O ha funzionato solo per i criteri LSE? Non è giusto che la convessità di una superficie di errore dipenda dai dati.
Quindi, rimettendolo nel contesto della domanda originale, come si determina se un errore di navigazione (basato su una funzione di costo selezionata) è convesso o no? Questa determinazione si basa sui dati o sull'Assia?
Grazie
TLDR: In che modo, esattamente e praticamente , posso determinare se la mia funzione di costo e / o set di dati produce una superficie di errore convessa o non convessa?