Quello che vuoi fare non esiste perché è, per mancanza di parole migliori, matematicamente imperfetto.
Ma prima, sottolineerò perché penso che le premesse della tua domanda siano solide. Cercherò quindi di spiegare perché ritengo che le conclusioni tratte da esse si basino su un malinteso sul modello logistico e, infine, suggerirò un approccio alternativo.
Indicheremo tue osservazioni (le lettere più in grassetto indicano i vettori) che giacciono nello spazio dimensionale (la prima voce di è 1) con , e è una funzione monotona della , come dire la curva logistica per fissare idee. Per convenienza, supporrò solo che sia sufficientemente grande rispetto a . np x{ ( xXio, yio) }ni = 1np p<n y i ∈[0,1]f( xXXiop < nyio∈ [ 0 , 1 ]xf( xXio) = f( xX'ioββ) n pXX'ioββnp
Hai ragione nel dire che se intendi utilizzare TVD come criterio per valutare il modello adattato, è ragionevole aspettarsi che la tua misura ottimizzi lo stesso criterio tra tutti i possibili candidati, sui tuoi dati. Quindi
ββ*= argminββ∈ Rp| | yy- f( xX'ioββ) | |1
Il problema è il termine di errore :
e se imponiamo (vogliamo semplicemente che il nostro modello sia asintoticamente imparziale ), quindi, deve essere eteroschedastico . Questo perché può assumere solo due valori, 0 e 1. Pertanto, dato
, può assumere solo due valori: quando , che si verifica con probabilità e quandoE ( ϵεio= yio- f( xX'ioββ)ϵ iE( ϵϵ )=0εio xyioXXio 1 - f ( xεioy i = 1 f ( x1 - f( xX'ioββ)yio= 1- f ( xf( xX'ioββ)y i = 1 1 - f ( x- f( xX'ioββ)yio= 1, che si verifica con probabilità .1 - f( xX'ioββ)
Queste considerazioni insieme implicano che:
var ( ϵϵ )=E( ϵε2) = ( 1 - f( xX'ββ) )2f( xX'ββ) + ( - f( xX'ββ) )2( 1 - f( xX'ββ) )= ( 1 - f( xX'ββ) ) f( xX'ββ) = E( yy| Xx )E( 1 - yy| Xx )
quindi non è costante ma a forma di parabola concava ed è massimizzato quando è tale che .xvar ( ϵϵ ) E ( y | xXXE( y| Xx ) ≈ .5
Questa intrinseca eteroschedasticità dei residui ha conseguenze . Ciò implica tra l'altro che quando si minimizza la funzione di perdita , si sta pesando in modo asintotico una parte del campione. Cioè, il montato non si adatta affatto ai dati ma solo alla parte di esso che è raggruppata attorno a luoghi in cui è tale che . Vale a dire, questi sono i punti di dati meno informativi nel tuo campione : corrispondono a quelle osservazioni per le quali il componente del rumore è il più grande. Quindi, il tuo adattamento è tirato verso , ad esempio reso irrilevante.βl1xββ*XXE( yy| Xx ) ≈ .5ββ*= ββ: f( xX'ββ) ≈ .5
Una soluzione, come risulta chiaramente dall'esposizione precedente, è quella di eliminare il requisito di imparzialità. Un modo popolare per distorcere lo stimatore (con qualche interpretazione bayesiana allegata) è includere un termine di restringimento. Se ridimensioniamo la risposta:
y+io= 2 ( yio- .5 ) , 1 ≤ i ≤ n
e, per convenienza computazionale, sostituisci con un'altra funzione monotona --è sarà conveniente per il seguito per indicare il primo componente del vettore di parametro come ed i restanti quelli - e comprendono un termine restringimento (per esempio una delle forme ), il problema di ottimizzazione risultante diventa:f( xX'ββ)c p - 1 γg( xx ,[ c , γγ] ) = xX'[ c , γγ]cp - 1| | γγγ| | γγ| |2
[ c*, γγ*] = argmin[[ c , γγ] ∈ RpΣi = 1nmax ( 0 , 1 - y+ioXX'io[[ c , γγ] ) + 12| | γγ| |2
Si noti che in questo nuovo problema di ottimizzazione (anche convesso), la penalità per osservazioni correttamente classificate è 0 e cresce linearmente con per una classificazione classificata erroneamente - come in perdita. La soluzione a questo secondo problema di ottimizzazione sono i celebri coefficienti lineari svm (con separazione perfetta). A differenza di , ha senso apprendere questi dai dati con una penalità di tipo TVD ('tipo' a causa del termine bias) . Di conseguenza, questa soluzione è ampiamente implementata. Vedi ad esempio il pacchetto R LiblineaR .l 1 [ c ∗ , γXX'[[ c,γ]l1 β[ c*, γγ*] [ c ∗ , γββ*[ c*, γγ*]