L'ipotesi di iid sulle coppie , , viene spesso fatta in statistica e nell'apprendimento automatico. A volte per una buona ragione, a volte per comodità e talvolta solo perché di solito facciamo questo assunto. Per rispondere in modo soddisfacente se il presupposto è veramente necessario e quali sono le conseguenze di non farlo, finirei facilmente per scrivere un libro (se mai finissi per fare qualcosa del genere). Qui proverò a dare una breve panoramica di quelli che trovo essere gli aspetti più importanti.i = 1 , … , N(Xi,yi)i=1,…,N
Un presupposto fondamentale
Supponiamo di voler apprendere un modello di probabilità di dato , che chiamiamo . Non facciamo alcuna ipotesi su questo modello un priorato, ma supponiamo minimamente che un tale modello esista in modo tale cheX p ( y ∣ X )yXp(y∣X)
- la distribuzione condizionale di dato è .X i p ( y i ∣ X i )yiXip(yi∣Xi)
Ciò che vale la pena notare su questo presupposto è che la distribuzione condizionale di dipende da solo attraverso . Questo è ciò che rende utile il modello, ad esempio per la previsione. L'ipotesi vale come conseguenza della parte identicamente distribuita sotto l'ipotesi IID, ma è più debole perché non facciamo alcuna ipotesi su . i X i X iyiiXiXi
Di seguito l'attenzione si concentrerà principalmente sul ruolo dell'indipendenza.
modellismo
Esistono due approcci principali per l'apprendimento di un modello di dato . Un approccio è noto come modellizzazione discriminativa e l'altro come modellistica generativa .XyX
- Modellazione discriminatoria : modelliamo direttamente , ad esempio un modello di regressione logistica, una rete neurale, un albero o una foresta casuale. L' ipotesi di modellizzazione funzionante sarà in genere che gli siano condizionatamente indipendenti dati dagli , sebbene le tecniche di stima basate sul sottocampionamento o sul bootstrap abbiano più senso sotto l'ipotesi di iid o di scambiabilità più debole (vedi sotto). Ma in generale, per la modellistica discriminatoria non abbiamo bisogno di fare ipotesi distributive sui . y i X i X ip(y∣X)yiXiXi
- Modellazione generativa : modelliamo la distribuzione congiunta, , di tipicamente modellando la distribuzione condizionale e il marginale distribuzione . Quindi usiamo la formula di Bayes per calcolare . L'analisi discriminante lineare e i metodi ingenui di Bayes sono esempi. L' ipotesi di modellazione funzionante sarà in genere l'assunzione di iid.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Per entrambi gli approcci di modellizzazione, il presupposto di modellizzazione di lavoro viene utilizzato per derivare o proporre metodi di apprendimento (o stimatori). Ciò potrebbe essere massimizzando la verosimiglianza (penalizzata), minimizzando il rischio empirico o usando i metodi bayesiani. Anche se l'assunto della modellazione funzionante è errato, il metodo risultante può comunque fornire una misura ragionevole di . p(y∣X)
Alcune tecniche utilizzate insieme alla modellizzazione discriminativa, come l'insaccamento (aggregazione bootstrap), funzionano adattando molti modelli ai dati campionati casualmente dal set di dati. Senza il presupposto iid (o scambiabilità) i set di dati ricampionati non avranno una distribuzione congiunta simile a quella del set di dati originale. Qualsiasi struttura di dipendenza è diventata "incasinata" dal ricampionamento. Non ci ho pensato a fondo, ma non vedo perché ciò debba necessariamente interrompere il metodo come metodo per l'apprendimento di . Almeno non per i metodi basati sulle ipotesi di indipendenza lavorativa. Sono felice di essere smentito qui.p(y∣X)
Coerenza e limiti di errore
Una domanda centrale per tutti i metodi di apprendimento è se si traducono in modelli vicini a . Esiste una vasta letteratura teorica in statistica e apprendimento automatico che si occupa di coerenza e limiti di errore. Un obiettivo principale di questa letteratura è dimostrare che il modello appreso è vicino a quando è grande. La coerenza è una garanzia qualitativa, mentre i limiti di errore forniscono un controllo quantitativo (semi) esplicito della vicinanza e forniscono tassi di convergenza.p(y∣X)p(y∣X)N
I risultati teorici si basano tutti su ipotesi sulla distribuzione congiunta delle osservazioni nell'insieme di dati. Spesso vengono fatte le ipotesi di modellazione di lavoro menzionate sopra (ovvero, indipendenza condizionale per la modellistica discriminativa e iid per la modellistica generativa). Per la modellizzazione discriminatoria, i limiti di coerenza ed errore richiederanno che le soddisfino determinate condizioni. Nella regressione classica una di queste condizioni è che per , dove indica la matrice del design con righeXi1NXTX→ΣN→∞XXTi. Condizioni più deboli possono essere sufficienti per coerenza. Nell'apprendimento scarso un'altra di queste condizioni è la condizione di autovalore limitato, vedere ad esempio sulle condizioni utilizzate per dimostrare i risultati dell'oracolo per il Lazo . L'ipotesi di iid insieme ad alcune ipotesi distributive tecniche implica che alcune di tali condizioni sufficienti sono soddisfatte con grande probabilità, e quindi l'assunto di iid può rivelarsi un presupposto sufficiente ma non necessario per ottenere limiti di coerenza ed errore per la modellizzazione discriminatoria.
L'ipotesi di indipendenza della modellistica di lavoro può essere errata per entrambi gli approcci di modellizzazione. Come regola empirica ci si può ancora aspettare coerenza se i dati provengono da un processo ergodico e ci si può ancora aspettare alcuni limiti di errore se il processo è una miscelazione sufficientemente veloce . Una definizione matematica precisa di questi concetti ci porterebbe troppo lontano dalla domanda principale. È sufficiente notare che esistono strutture di dipendenza oltre al presupposto per il quale si può dimostrare che i metodi di apprendimento funzionano come tende all'infinito.N
Se disponiamo di conoscenze più dettagliate sulla struttura delle dipendenze, potremmo scegliere di sostituire l'assunzione di indipendenza lavorativa utilizzata per la modellazione con un modello che acquisisca anche la struttura delle dipendenze. Questo viene spesso fatto per le serie storiche. Un modello di lavoro migliore può comportare un metodo più efficiente.
Valutazione del modello
Piuttosto che provare che il metodo di apprendimento fornisce un modello vicino a è di grande valore pratico ottenere una valutazione (relativa) di "quanto è buono un modello appreso". Tali punteggi di valutazione sono comparabili per due o più modelli appresi, ma non forniranno una valutazione assoluta della vicinanza di un modello appreso a . Le stime dei punteggi di valutazione vengono in genere calcolate empiricamente in base alla suddivisione del set di dati in un set di dati di addestramento e test o mediante la convalida incrociata.p(y∣X)p(y∣X)
Come nel caso del bagging, una suddivisione casuale del set di dati "rovinerà" qualsiasi struttura di dipendenza. Tuttavia, per i metodi basati sulle ipotesi di indipendenza lavorativa, le ipotesi di ergodicità più deboli di iid dovrebbero essere sufficienti affinché le stime di valutazione siano ragionevoli, sebbene gli errori standard su tali stime saranno molto difficili da trovare.
[ Modifica: la dipendenza tra le variabili comporterà una distribuzione del modello appreso che differisce dalla distribuzione sotto l'ipotesi IID. La stima prodotta dalla convalida incrociata non è ovviamente correlata all'errore di generalizzazione. Se la dipendenza è forte, molto probabilmente sarà una stima scadente.]
Riepilogo (tl; dr)
Tutto quanto sopra presuppone che esista un modello di probabilità condizionale fisso, . Quindi non ci possono essere tendenze o improvvisi cambiamenti nella distribuzione condizionale non catturati da .p(y∣X)X
Quando apprendi un modello di dato , l'indipendenza gioca un ruolo comeyX
- un'utile ipotesi di modellizzazione del lavoro che ci consente di derivare metodi di apprendimento
- un presupposto sufficiente ma non necessario per dimostrare coerenza e fornire limiti di errore
- un presupposto sufficiente ma non necessario per l'utilizzo di tecniche di suddivisione dei dati casuali come l'insaccamento per l'apprendimento e la convalida incrociata per la valutazione.
Comprendere con precisione quali alternative a Iid sono anche sufficienti non è banale e, in una certa misura, materia di ricerca.