Sull'importanza dell'assunzione di iid nell'apprendimento statistico


54

Nell'apprendimento statistico, implicitamente o esplicitamente, si presume sempre che l'insieme di addestramento sia composto da tuple input / response che sono disegnati indipendentemente dalla stessa distribuzione congiunta conD={X,y}N(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

e la relazione che stiamo cercando di acquisire attraverso un particolare algoritmo di apprendimento. Matematicamente, questo presupposto scrive:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Penso che possiamo essere tutti d'accordo sul fatto che questo presupposto è raramente soddisfatto nella pratica, vedi questa domanda SE relativa e i saggi commenti di @Glen_b e @Luca.

La mia domanda è quindi:

Dove esattamente l'ipotesi IID diventa in pratica critica?

[Contesto]

Lo sto chiedendo perché riesco a pensare a molte situazioni in cui un presupposto così rigoroso non è necessario per formare un certo modello (ad esempio metodi di regressione lineare), o almeno uno può aggirare il presupposto dell'IID e ottenere risultati affidabili. In realtà i risultati di solito rimangono gli stessi, sono piuttosto le inferenze che si possono trarre che cambieranno (ad es. Stimatori HAC coerenti con eteroschedasticità e autocorrelazione nella regressione lineare: l'idea è di riutilizzare i vecchi vecchi pesi di regressione OLS ma di adattare il comportamento a campione finito dello stimatore OLS per spiegare la violazione delle ipotesi di Gauss-Markov).

La mia ipotesi è quindi che l'ipotesi di iid non sia richiesta per essere in grado di addestrare un particolare algoritmo di apprendimento, ma piuttosto per garantire che tecniche come la validazione incrociata possano effettivamente essere utilizzate per inferire una misura affidabile della capacità del modello di generalizzare bene , che è l'unica cosa che ci interessa a fine giornata nell'apprendimento statistico perché dimostra che possiamo davvero imparare dai dati. Intuitivamente, posso davvero capire che l'uso della convalida incrociata su dati dipendenti potrebbe essere ottimisticamente distorto (come illustrato / spiegato in questo interessante esempio ).

Per me, quindi, non ho nulla a che fare con l' allenamento di un modello particolare, ma tutto con la generalizzabilità di quel modello . Ciò sembra concordare con un documento che ho trovato da Huan Xu et al. Vedere "Robustezza e generalizzabilità per i campioni markoviani" qui .

Sei d'accordo con quello?

[Esempio]

Se questo può aiutare la discussione, considera il problema dell'utilizzo dell'algoritmo LASSO per eseguire una selezione intelligente tra le funzioni dati campioni di addestramento con Possiamo ulteriormente supporre che:N ( X i , y i ) i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ]PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Gli input dipendono quindi portando a una violazione del presupposto iid (ad es. Per ogni caratteristica osserviamo una serie temporale in punti , introducendo quindi l'auto-correlazione temporale)j=1,. . ,PNXij=1,..,PN
  • Le risposte condizionali sono indipendenti.yi|Xi
  • Abbiamo .PN

In che modo la violazione dell'ipotesi IID può creare problemi in quel caso supponendo che abbiamo in programma di determinare il coefficiente di penalizzazione LASSO usando un approccio di validazione incrociata (sull'insieme completo di dati) + usare una validazione incrociata nidificata per avere un'idea dell'errore di generalizzazione di questa strategia di apprendimento (possiamo lasciare da parte la discussione sui pro / contro intrinseci di LASSO, tranne se è utile).λ


1
Puoi fornire un quadro di riferimento che ti interessa, quindi la discussione non è troppo ampia su tutti i metodi. Stiamo parlando di regressione lineare qui? Oppure stiamo parlando della stima puntuale dei parametri usando, diciamo MLE? O stiamo parlando del framework CLT?
Greenparker

2
Se si assume anche dipendente, quindi nella regressione logistica penalizzata, si penalizza la probabilità logaritmica. Se i dati non sono indipendenti, non è possibile annotare la verosimiglianza congiunta e quindi non è possibile completare il problema di ottimizzazione associato. yi
Greenparker,

1
No, sto pensando al contrario: se salti rapidamente a un'ipotesi, potresti non includere ritardi di , falsamente (per scopi come l'imparzialità, ma anche danneggiare il potere predittivo) credendo che non siano necessari. y
Christoph Hanck,

3
Non concordo sul fatto che l'assunzione dell'indipendenza sia "comunemente violata". Le serie storiche sono un caso molto speciale, piuttosto un'eccezione rispetto all'esempio tipico. Iid presuppone che ti consenta di semplificare il tuo modello e crearne uno più parsimonioso e può essere spesso realizzato (ad es. I tuoi casi sono disegnati in modo casuale , quindi possono essere considerati indipendenti).
Tim

2
Nell'esempio, secondo punto , gli non dovrebbero essere assunti condizionalmente se possono essere considerati condizionalmente indipendenti, ma si ritiene che la distribuzione condizionale dipenda da , e quindi cambi con . X i iyiXii
NRH,

Risposte:


32

L'ipotesi di iid sulle coppie , , viene spesso fatta in statistica e nell'apprendimento automatico. A volte per una buona ragione, a volte per comodità e talvolta solo perché di solito facciamo questo assunto. Per rispondere in modo soddisfacente se il presupposto è veramente necessario e quali sono le conseguenze di non farlo, finirei facilmente per scrivere un libro (se mai finissi per fare qualcosa del genere). Qui proverò a dare una breve panoramica di quelli che trovo essere gli aspetti più importanti.i = 1 , , N(Xi,yi)i=1,,N

Un presupposto fondamentale

Supponiamo di voler apprendere un modello di probabilità di dato , che chiamiamo . Non facciamo alcuna ipotesi su questo modello un priorato, ma supponiamo minimamente che un tale modello esista in modo tale cheX p ( y X )yXp(yX)

  • la distribuzione condizionale di dato è .X i p ( y iX i )yiXip(yiXi)

Ciò che vale la pena notare su questo presupposto è che la distribuzione condizionale di dipende da solo attraverso . Questo è ciò che rende utile il modello, ad esempio per la previsione. L'ipotesi vale come conseguenza della parte identicamente distribuita sotto l'ipotesi IID, ma è più debole perché non facciamo alcuna ipotesi su . i X i X iyiiXiXi

Di seguito l'attenzione si concentrerà principalmente sul ruolo dell'indipendenza.

modellismo

Esistono due approcci principali per l'apprendimento di un modello di dato . Un approccio è noto come modellizzazione discriminativa e l'altro come modellistica generativa .XyX

  • Modellazione discriminatoria : modelliamo direttamente , ad esempio un modello di regressione logistica, una rete neurale, un albero o una foresta casuale. L' ipotesi di modellizzazione funzionante sarà in genere che gli siano condizionatamente indipendenti dati dagli , sebbene le tecniche di stima basate sul sottocampionamento o sul bootstrap abbiano più senso sotto l'ipotesi di iid o di scambiabilità più debole (vedi sotto). Ma in generale, per la modellistica discriminatoria non abbiamo bisogno di fare ipotesi distributive sui . y i X i X ip(yX)yiXiXi
  • Modellazione generativa : modelliamo la distribuzione congiunta, , di tipicamente modellando la distribuzione condizionale e il marginale distribuzione . Quindi usiamo la formula di Bayes per calcolare . L'analisi discriminante lineare e i metodi ingenui di Bayes sono esempi. L' ipotesi di modellazione funzionante sarà in genere l'assunzione di iid.p(X,y)(X,y)p(Xy)p(y)p(yX)

Per entrambi gli approcci di modellizzazione, il presupposto di modellizzazione di lavoro viene utilizzato per derivare o proporre metodi di apprendimento (o stimatori). Ciò potrebbe essere massimizzando la verosimiglianza (penalizzata), minimizzando il rischio empirico o usando i metodi bayesiani. Anche se l'assunto della modellazione funzionante è errato, il metodo risultante può comunque fornire una misura ragionevole di . p(yX)

Alcune tecniche utilizzate insieme alla modellizzazione discriminativa, come l'insaccamento (aggregazione bootstrap), funzionano adattando molti modelli ai dati campionati casualmente dal set di dati. Senza il presupposto iid (o scambiabilità) i set di dati ricampionati non avranno una distribuzione congiunta simile a quella del set di dati originale. Qualsiasi struttura di dipendenza è diventata "incasinata" dal ricampionamento. Non ci ho pensato a fondo, ma non vedo perché ciò debba necessariamente interrompere il metodo come metodo per l'apprendimento di . Almeno non per i metodi basati sulle ipotesi di indipendenza lavorativa. Sono felice di essere smentito qui.p(yX)

Coerenza e limiti di errore

Una domanda centrale per tutti i metodi di apprendimento è se si traducono in modelli vicini a . Esiste una vasta letteratura teorica in statistica e apprendimento automatico che si occupa di coerenza e limiti di errore. Un obiettivo principale di questa letteratura è dimostrare che il modello appreso è vicino a quando è grande. La coerenza è una garanzia qualitativa, mentre i limiti di errore forniscono un controllo quantitativo (semi) esplicito della vicinanza e forniscono tassi di convergenza.p(yX)p(yX)N

I risultati teorici si basano tutti su ipotesi sulla distribuzione congiunta delle osservazioni nell'insieme di dati. Spesso vengono fatte le ipotesi di modellazione di lavoro menzionate sopra (ovvero, indipendenza condizionale per la modellistica discriminativa e iid per la modellistica generativa). Per la modellizzazione discriminatoria, i limiti di coerenza ed errore richiederanno che le soddisfino determinate condizioni. Nella regressione classica una di queste condizioni è che per , dove indica la matrice del design con righeXi1NXTXΣNXXiT. Condizioni più deboli possono essere sufficienti per coerenza. Nell'apprendimento scarso un'altra di queste condizioni è la condizione di autovalore limitato, vedere ad esempio sulle condizioni utilizzate per dimostrare i risultati dell'oracolo per il Lazo . L'ipotesi di iid insieme ad alcune ipotesi distributive tecniche implica che alcune di tali condizioni sufficienti sono soddisfatte con grande probabilità, e quindi l'assunto di iid può rivelarsi un presupposto sufficiente ma non necessario per ottenere limiti di coerenza ed errore per la modellizzazione discriminatoria.

L'ipotesi di indipendenza della modellistica di lavoro può essere errata per entrambi gli approcci di modellizzazione. Come regola empirica ci si può ancora aspettare coerenza se i dati provengono da un processo ergodico e ci si può ancora aspettare alcuni limiti di errore se il processo è una miscelazione sufficientemente veloce . Una definizione matematica precisa di questi concetti ci porterebbe troppo lontano dalla domanda principale. È sufficiente notare che esistono strutture di dipendenza oltre al presupposto per il quale si può dimostrare che i metodi di apprendimento funzionano come tende all'infinito.N

Se disponiamo di conoscenze più dettagliate sulla struttura delle dipendenze, potremmo scegliere di sostituire l'assunzione di indipendenza lavorativa utilizzata per la modellazione con un modello che acquisisca anche la struttura delle dipendenze. Questo viene spesso fatto per le serie storiche. Un modello di lavoro migliore può comportare un metodo più efficiente.

Valutazione del modello

Piuttosto che provare che il metodo di apprendimento fornisce un modello vicino a è di grande valore pratico ottenere una valutazione (relativa) di "quanto è buono un modello appreso". Tali punteggi di valutazione sono comparabili per due o più modelli appresi, ma non forniranno una valutazione assoluta della vicinanza di un modello appreso a . Le stime dei punteggi di valutazione vengono in genere calcolate empiricamente in base alla suddivisione del set di dati in un set di dati di addestramento e test o mediante la convalida incrociata.p(yX)p(yX)

Come nel caso del bagging, una suddivisione casuale del set di dati "rovinerà" qualsiasi struttura di dipendenza. Tuttavia, per i metodi basati sulle ipotesi di indipendenza lavorativa, le ipotesi di ergodicità più deboli di iid dovrebbero essere sufficienti affinché le stime di valutazione siano ragionevoli, sebbene gli errori standard su tali stime saranno molto difficili da trovare.

[ Modifica: la dipendenza tra le variabili comporterà una distribuzione del modello appreso che differisce dalla distribuzione sotto l'ipotesi IID. La stima prodotta dalla convalida incrociata non è ovviamente correlata all'errore di generalizzazione. Se la dipendenza è forte, molto probabilmente sarà una stima scadente.]

Riepilogo (tl; dr)

Tutto quanto sopra presuppone che esista un modello di probabilità condizionale fisso, . Quindi non ci possono essere tendenze o improvvisi cambiamenti nella distribuzione condizionale non catturati da .p(yX)X

Quando apprendi un modello di dato , l'indipendenza gioca un ruolo comeyX

  • un'utile ipotesi di modellizzazione del lavoro che ci consente di derivare metodi di apprendimento
  • un presupposto sufficiente ma non necessario per dimostrare coerenza e fornire limiti di errore
  • un presupposto sufficiente ma non necessario per l'utilizzo di tecniche di suddivisione dei dati casuali come l'insaccamento per l'apprendimento e la convalida incrociata per la valutazione.

Comprendere con precisione quali alternative a Iid sono anche sufficienti non è banale e, in una certa misura, materia di ricerca.


2
Questa è una risposta estremamente raffinata. È perfetto e mi dà abbastanza riferimenti per l'auto-studio, grazie mille per questo @NRH Sono elettrizzato. Lascerò solo la generosità per incoraggiare altri intenti sulla domanda, ma ho già contrassegnato questa come risposta accettata poiché risponde magnificamente a tutte le mie preoccupazioni originali.
Quantuple

10

Che IID assunzione stati è che le variabili casuali sono indipendenti e identicamente distribuite . Puoi definire formalmente cosa significa, ma informalmente dice che tutte le variabili forniscono lo stesso tipo di informazioni indipendentemente l'una dall'altra (puoi leggere anche sulla relativa scambiabilità ).

Dalle idee astratte passiamo un momento all'esempio concreto: nella maggior parte dei casi i dati possono essere archiviati in una matrice, con osservazioni in ordine di riga e variabili in ordine di colonna. Se ritieni che i tuoi dati siano iid , significa che devi preoccuparti solo delle relazioni tra le colonne e non devi preoccuparti delle relazioni tra le righe. Se ti preoccupassi di entrambi, modelleresti la dipendenza delle colonne dalle colonne e le righe dalle righe, cioè tutto su tutto. È molto difficile semplificare e costruire un modello statistico di tutto a seconda di tutto.

Hai notato correttamente che l'esagerabilità ci consente di utilizzare metodi come la convalida incrociata o il bootstrap, ma ci consente anche di usare il teorema del limite centrale e ci consente di rendere le semplificazioni utili per la modellazione (pensando in termini di colonne) ).

Come hai notato nell'esempio LASSO, il presupposto dell'indipendenza è spesso attenuato all'indipendenza condizionale . Anche in questo caso abbiamo bisogno di "parti" indipendenti e identicamente distribuite. Assunzioni simili e più morbide sono spesso fatte per i modelli di serie temporali, che lei ha citato, che assumono stazionarietà (quindi c'è dipendenza ma c'è anche una distribuzione comune e la serie si stabilizza nel tempo - di nuovo parti "iid"). Si tratta di osservare una serie di cose simili che portano la stessa idea su alcuni fenomeni generali. Se abbiamo un numero di cose distinte e dipendenti non possiamo fare generalizzazioni.

Quello che devi ricordare è che questo è solo un presupposto, non siamo severi al riguardo. Si tratta di avere abbastanza cose che tutte, indipendentemente, trasmettono informazioni simili su alcuni fenomeni comuni. Se le cose si influenzassero a vicenda, avrebbero ovviamente fornito informazioni simili in modo da non essere così utili.

Immagina di voler conoscere le abilità dei bambini in una classe, quindi dai loro dei test. Potresti usare i risultati del test come indicatore delle capacità dei bambini solo se li hanno fatti da soli, indipendentemente l'uno dall'altro. Se interagissero, probabilmente misureresti le abilità del bambino più intelligente o di quello più influente. Ciò non significa che devi supporre che non ci fosse interazione o dipendenza tra i bambini, ma semplicemente che hanno fatto i test da soli. I bambini devono anche essere "distribuiti in modo identico", quindi non possono venire da paesi diversi, parlare lingue diverse, essere in età diverse poiché renderà difficile interpretare i risultati (forse non hanno capito le domande e hanno risposto in modo casuale). Se puoi presumere che i tuoi dati siano iidquindi puoi concentrarti sulla costruzione di un modello generale. Puoi gestire i dati non iid ma devi preoccuparti molto di più del "rumore" nei tuoi dati.


Oltre alla tua domanda principale, ti stai anche chiedendo della convalida incrociata con dati non iid . Mentre sembri minimizzare l'importanza dell'ipotesi, allo stesso tempo sopravvaluti i problemi di non soddisfare questa ipotesi pone per la convalida incrociata. Esistono diversi modi per gestire tali dati quando si utilizzano metodi di ricampionamento come bootstrap o cross-validation. Se hai a che fare con serie temporali non puoi presumere che i valori siano indipendenti, quindi prendere la frazione casuale di valori sarebbe una cattiva idea perché ignorerebbe la struttura autocorrelata dei dati. Per questo motivo, con le serie storiche usiamo comunemente una validazione incrociata un passo avanti, ovvero prendi parte della serie per prevedere il valore successivo (non utilizzato per la modellazione). Allo stesso modo, se i tuoi dati hanno una struttura a cluster , campiona interi cluster per preservare la natura dei dati. Così come con la modellazione, siamo in grado di affrontare non IID -sness anche quando si fa la convalida incrociata, ma abbiamo bisogno di adattare i nostri metodi alla natura dei dati in quanto metodi progettati per IID dati non si applicano in questi casi.


Apprezzo che tu abbia impiegato del tempo per rispondere alle mie preoccupazioni. Mentre hai fornito una spiegazione davvero piacevole di ciò che trasmette l'ipotesi ... mi lascia frustrato. (1) Per l' addestramento di LASSO è sufficiente (poiché consente di scrivere la stima della probabilità logaritmica penalizzata), ma qual è l'impatto di non essere un iid sample (che è il caso se i predittori provengono da una serie temporale e sono quindi autocorrelati). (2) Inoltre, qual è il risultato di non avere scambiabilità sull'uso della convalida incrociata, ad esempio? (ctd) ...yi|XiXi
Quantuple

(ctd) ... In altre parole, anche se la tua risposta fa sicuramente luce sul concetto IID, vorrei saperne di più su base tecnica: quando questo viene violato, quali sono gli effetti?
Quantuple,

@Quantuple quindi usi metodi per dati non iid, ad es. In serie temporali campioni interi di dati in bootstrap ecc.
Tim

Grazie ancora. Ricordo davvero di aver letto da qualche parte su tali tecniche. Esiste una fonte che discute tutti i potenziali metodi candidati? Mi sono appena imbattuto nell'articolo di C. Bergmeir, R. Hyndman, B. Koo "Una nota sulla validità della convalida incrociata per la valutazione della previsione di serie temporali" che proverò a leggere al più presto.
Quantuple,

1
@Quantuple check classic "An Introduction to the Bootstrap" di Efron e Tibshirani e "Bootstrap Methods and Their Application" di Davison e Hinkley per leggere informazioni su bootstrap (le stesse idee si applicano alla cross-validation); i manuali delle serie temporali descrivono come utilizzare la convalida incrociata e il bootstrap per tali dati (ovvero un passo avanti di convalida incrociata). Controlla anche la mia modifica.
Tim

3

L'unico posto dove si può tranquillamente ignorare l'IID è nelle statistiche universitarie e nei corsi di apprendimento automatico. Hai scritto che:

si può aggirare il presupposto dell'IID e ottenere risultati robusti. In realtà i risultati di solito rimarranno gli stessi, sono piuttosto le inferenze che si possono trarre che cambieranno ...

Ciò è vero solo se si presume che la forma funzionale dei modelli sia sostanzialmente corretta. Ma un tale presupposto è persino meno plausibile di quanto non lo sia.

Esistono almeno due modi in cui iid è di fondamentale importanza in termini di modellazione applicata:

  1. È un presupposto esplicito nella maggior parte delle inferenze statistiche, come si nota nella domanda. Nella maggior parte dei modelli del mondo reale, ad un certo punto dobbiamo usare l'inferenza per testare le specifiche, come durante la selezione delle variabili e il confronto dei modelli. Quindi, sebbene ogni particolare adattamento del modello possa essere OK nonostante le violazioni, puoi comunque scegliere il modello sbagliato.

  2. Trovo che pensare attraverso le violazioni di iid sia un modo utile di pensare al meccanismo di generazione dei dati, che a sua volta mi aiuta a pensare a priori alla specifica appropriata di un modello. Due esempi:

    • Se i dati sono raggruppati, questa è una violazione di iid. Un rimedio a questo può essere un modello misto. L'inferenza che trarrò da un modello misto è generalmente completamente diversa da quella che traggo da OLS.
    • Le relazioni non lineari tra le variabili dipendenti e indipendenti spesso si presentano quando si ispezionano i residui come parte dell'indagine iid.

Ovviamente, in quasi tutti i modelli che io abbia mai costruito, ho fallito nella mia ricerca per ridurre la distribuzione dei residui a qualcosa di simile a una distribuzione veramente normale. Ma, comunque, guadagno sempre molto provando davvero, davvero, molto difficile a farlo.


Grazie per la tua risposta che è molto perspicace. Con l'ultima frase di (1) intendi che puoi avere diversi modelli che si adattano in modo decente ai dati osservati, ma quando utilizzerai tecniche standard di selezione dei modelli (ad es. Convalida incrociata) non sceglierai il migliore ( in termini di generalizzabilità) perché l'inferenza che tracci sarà distorta a causa della violazione dell'IID? (2) Mi sembra che tu parli di residui IID come parte di una specifica funzionale (ad esempio residui di regressione) che non invalida ciò che scrivi (ctd) ...
Quantuple

(ctd) ... ma la domanda originale era relativa agli esempi di addestramento non iid (x, y) e non ai residui non iid dopo aver stimato un modello. Immagino che la mia domanda potrebbe essere, quando hai esempi di formazione non iid (ad esempio serie temporali), devi aggiungere una fase di pre-elaborazione per renderli iid? In caso contrario e applicare la procedura standard per stimare / convalidare in modo incrociato il modello, dov'è l'avvertenza?
Quantuple

1
Quando si hanno esempi di addestramento non iid, l'idea è quella di trovare un modello che tenga conto della natura non iid e produca residui che sono iid. Mentre ci sono alcuni problemi in cui ha senso pre-elaborare i dati (ad es. Trasformazioni di variabili in regressione lineare), molti problemi iid vengono affrontati meglio trovando un modello che affronti esplicitamente il problema iid. Ad esempio, funzioni di trasferimento in serie temporali o modelli gerarchici in dati trasversali.
Tim

Concordo con il fatto che, poiché i dati relativi alle serie temporali mostrano solitamente una qualche forma di dipendenza, è naturale mirare a catturarlo tramite modelli statistici su misura per farlo, ad esempio le funzioni di trasferimento. Questo per quanto riguarda la formazione. Ora, per quanto riguarda la convalida incrociata (CV), suppongo di aver bisogno anche di metodi speciali per tenere conto della non identità? Intendo dire che l'utilizzo delle funzioni di trasferimento non ha cambiato il fatto che i miei dati non sono stati raccolti in primo luogo. C'è un elenco di tali metodi speciali da qualche parte? Quanto è grande il pregiudizio ottimistico quando si utilizza il metodo CV standard con dati non iid?
Quantuple,

1
Dipenderebbe dalla natura del metodo di convalida incrociata e dal problema. Penso che il trucco sia usare metodi di validazione incrociata che non siano implicitamente strutturati attorno a iid. Ad esempio, un coltellino avrebbe poco senso. Ma, dividere il campione in campioni di stima, test e validazione, probabilmente lo farebbe. Ma questa è davvero una domanda diversa dalla tua originale, e non è la mia area di competenza.
Tim

2

Secondo me ci sono due ragioni piuttosto banali per cui l'ipotesi IID è importante nell'apprendimento statistico (o nelle statistiche in generale).

  1. Molta matematica dietro le quinte dipende da questo presupposto. Se vuoi dimostrare che il tuo metodo di apprendimento funziona effettivamente per più di un set di dati, suppongo che alla fine emergerà. È possibile evitarlo, ma la matematica diventa più volte più difficile.

  2. Se vuoi imparare qualcosa dai dati, devi presumere che ci sia qualcosa da imparare. L'apprendimento è impossibile se ogni punto dati è generato da un meccanismo diverso. Quindi è essenziale supporre che qualcosa unifichi un dato set di dati. Se assumiamo che i dati siano casuali, allora questo è naturalmente una distribuzione di probabilità, poiché la distribuzione di probabilità comprende tutte le informazioni sulla variabile casuale.

    Quindi se abbiamo dati ( può essere un vettore o uno scalare), assumiamo che provenga dalla distribuzione :x1,...,xnxiFn

    (x1,...,xn)Fn.

    Qui abbiamo un problema. Dobbiamo assicurarci che sia correlato a , per diversi e , altrimenti abbiamo il problema iniziale, che ogni punto dati viene generato in modo diverso. Il secondo problema è che sebbene abbiamo punti di dati, fondamentalmente abbiamo un punto di dati per stimare , poiché è una distribuzione di probabilità -variata. La soluzione più semplice per questi due problemi è un presupposto. Con esso dove . Abbiamo una relazione molto chiara tra e e abbiamoFnFmnmnFnFnnFn=Fn,xiFFnFmnPunti Dati per stimare un . Esistono altri modi in cui questi due problemi vengono risolti, ma è essenziale notare che ogni metodo di apprendimento statistico deve risolvere questo problema e accade quindi che l'ipotesi sia di gran lunga il modo più semplice per farlo.F


Grazie per la tua interessante opinione sulla domanda. Per quanto riguarda il tuo primo punto, è davvero facile concepire che l'ipotesi IID scaturirà da qualche parte nel ragionamento, ma ti capita di avere un riferimento (non che non ci credo, solo che vorrei sapere dove esattamente). Il tuo secondo punto è chiarissimo e non ci avevo mai pensato in quel modo. Ma per l'addestramento, questa distribuzione di "input" di dati non preoccupa il modellista in generale, giusto? Nell'esempio di LASSO, ci occupiamo solo del condizionale indipendente delle risposte dati input (ctd) ...xyx
Quantuple

(ctd) ... ma come hai affermato nel tuo primo punto elenco, l'ipotesi di esempi di addestramento iid tornerà quando esamineremo le proprietà di generalizzazione di LASSO. Ciò che sarebbe bello (e quello che sto cercando disperatamente immagino) è un riferimento / una semplice spiegazione tecnica che mostri come la violazione dell'ipotesi iid introduce un pregiudizio ottimistico nello stimatore della validazione incrociata, ad esempio.
Quantuple,

La distribuzione dei dati di input è importante. Se non assumiamo che la distribuzione dei dati sia in qualche modo corretta, allora non possiamo avere fiducia che l'addestramento si tradurrà in un modello solido, cioè uno che si comporta bene sui dati di test. Supponiamo che l'ipotesi non vada a buon fine, o piuttosto che l'assunzione di indipendenza non sia violata ma i dati non debbano essere distribuiti in modo identico. Ciò significa che DGP può essere il seguente: per e , per . Supponiamo che e siano indipendenti. yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i
mpiktas,

Ora scegli un set di allenamento e un set di test . Indipendentemente dal metodo di allenamento scelto, funzionerà in modo orribile sul set di test, poiché i dati vengono generati da due processi diversi, che non sono identici. Questo è un esempio inventato, ma nulla gli impedisce di accadere nell'esempio di apprendimento statistico reale. i=1,...,n/2i=n/2+1,...,n
mpiktas,

Sì assolutamente ... Ho scritto troppo in fretta e il risultato è stato un commento molto poco chiaro. Quando ho scritto "la distribuzione dei dati di input è di interesse per il modellatore", in realtà stavo pensando al fatto che la parte indipendente dell'assunzione di iid non è rilevante durante la stima di un modello (poiché non influisce sulla funzione di regressione ). Per quanto riguarda la parte identica dell'ipotesi IID, è effettivamente un presupposto necessario mettere in moto l'intera ruota di inferenza statistica (evita nelle tue parole che "ogni punto di dati è generato da un meccanismo diverso"). xE[y|X]
Quantuple,

1

Vorrei sottolineare che, in alcune circostanze, i dati non sono disponibili e l'apprendimento statistico è ancora possibile. È fondamentale disporre di un modello identificabile per la distribuzione congiunta di tutte le osservazioni; se le osservazioni sono accettate, questa distribuzione congiunta viene facilmente ottenuta dalla distribuzione marginale di singole osservazioni. Ma in alcuni casi, la distribuzione congiunta viene data direttamente, senza ricorrere a una distribuzione marginale.

Un modello ampiamente usato in cui le osservazioni non sono accettate è il modello misto lineare: con , , , , e . Le matrici (design) e sono considerate fisse, è un vettore di parametri, è un vettore casuale e , e

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2 sono parametri del modello.

Questo modello si esprime al meglio dando la distribuzione di : I parametri da imparare sono , , . Si osserva un singolo vettore della dimensione ; i suoi componenti non sono iidY N ( X α , τ Z Z + σ 2 I n ) . α τ σ 2 Y nY

YN(Xα,τZZ+σ2In).
ατσ2Yn
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.