Regressione ad alta dimensione: perché il

Sto cercando di approfondire la ricerca nell'area della regressione ad alta dimensione; quando $p$ è maggiore di $n$ , cioè, $p >> n$ . Sembra che il termine $\log p/n$ appaia spesso in termini di tasso di convergenza per gli stimatori della regressione.

$\hat{\beta}$

\frac{1}{n} ‖ X \hat{β} - X β ‖_{2}^{2} = O_{P} (σ \sqrt{\frac{\log p}{n}} ‖ β ‖_{1}) .

$\dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,.$

Di solito, ciò implica anche che dovrebbe essere più piccolo di . $\log p$ $n$

C'è qualche intuizione sul perché questo rapporto di sia così importante? $\log p/n$
Inoltre, dalla letteratura sembra che il problema della regressione ad alta dimensione si complichi quando . Perché è così? $\log p \geq n$
C'è un buon riferimento che discute i problemi di quanto velocemente e dovrebbero crescere l'uno rispetto all'altro? $p$ $n$

— Greenparker
fonte

1. Il

termine

deriva dalla concentrazione (gaussiana) della misura. In particolare, se si dispone di

variabili IID gaussiane, il loro massimo è dell'ordine di

\sqrt{\log p}

$\sqrt{\log p}$

p

$p$

con alta probabilità. Ilfattore

deriva dal fatto che stai osservando un errore di previsione medio - cioè, corrisponde

dall'altra parte - se guardassi l'errore totale, non ci sarebbe.

σ \sqrt{\log p}

$\sigma \sqrt{\log p}$

n^{- 1}

$n^{-1}$

n^{- 1}

$n^{-1}$

— mweylandt,

2. In sostanza, hai due forze che devi controllare: i) le buone proprietà di avere più dati (quindi vogliamo che

sia grande); ii) le difficoltà hanno caratteristiche più (irrilevanti) (quindi vogliamo che

sia piccolo). In statistica classica, di solito fissiamo

e lasciamo

andiamo a infinito: questo regime non è super utile per la teoria ad alta dimensionale, perché è nel regime a bassa dimensionalità per costruzione. In alternativa, potremmo lasciare

andare all'infinito e

rimanere fissi, ma poi il nostro errore esplode e va all'infinito.

n

$n$

p

$p$

p

$p$

n

$n$

p

$p$

n

$n$

— mweylandt,

Quindi, dobbiamo considerare

andando entrambi all'infinito in modo che la nostra teoria sia pertinente (rimanga ad alta dimensione) senza essere apocalittica (caratteristiche infinite, dati finiti). Avere due "manopole" è generalmente più difficile che avere una singola manopola, quindi fissiamo

per qualche

e lasciamo

andare all'infinito (e quindi

indirettamente). La scelta di

determina il comportamento del problema. Per motivi nella mia risposta a Q1, si scopre che la "cattiveria" delle funzionalità extra cresce solo come

mentre la "bontà" dei dati extra cresce come

n, p

$n, p$

p = f (n)

$p = f(n)$

f

$f$

n

$n$

p

$p$

f

$f$

\log p

$\log p$

n

$n$ .

— mweylandt,

Pertanto, se il

rimane costante (equivalentemente,

per alcuni

), calpestiamo l'acqua. Se

(

) otteniamo asintoticamente zero errori. E se

(

\log p / n

$\log p / n$

p = f (n) = Θ (C^{n})

$p = f(n) = \Theta(C^n)$

C

$C$

\log p / n \to 0

$\log p / n \to 0$

p = o (C^{n})

$p = o(C^n)$

\log p / n \to \infty

$\log p / n \to \infty$

p = ω (C^{n})

$p = \omega(C^n)$ ), l'errore finisce infine all'infinito. Quest'ultimo regime è talvolta chiamato "ultra-dimensionale" in letteratura. Non è senza speranza (anche se è vicino), ma richiede tecniche molto più sofisticate di un semplice massimo di gaussiani per controllare l'errore. La necessità di utilizzare queste tecniche complesse è la fonte ultima della complessità che noti.

— mweylandt,

@mweylandt Grazie, questi commenti sono davvero utili. Potresti trasformarli in una risposta ufficiale, così posso leggerli in modo più coerente e votarti?

— Greenparker,

(Passato dai commenti a una risposta come richiesto da @Greenparker)

Parte 1)

Il termine deriva dalla concentrazione (gaussiana) della misura. In particolare, se si dispone divariabili IID gaussiane [F1], il loro massimo è dell'ordine di $\sqrt{\log p}$ $p$ $\sigma\sqrt{\log p}$ con alta probabilità.

Il fattore deriva dal fatto che stai osservando un errore di previsione medio, ovvero corrisponde a $n^{-1}$ $n^{-1}$ dall'altra parte - se guardassi l'errore totale, non ci sarebbe.

Parte 2)

In sostanza, hai due forze che devi controllare:

i) le buone proprietà di avere più dati (quindi vogliamo $n$ sia grande);
ii) le difficoltà hanno caratteristiche più (irrilevanti) (quindi vogliamo che sia piccolo). $p$

In statistica classica, di solito fissiamo e lasciamo andiamo a infinito: questo regime non è super utile per la teoria ad alta dimensionale, perché è (asintoticamente) nel regime a bassa dimensionalità per costruzione . $p$ $n$

In alternativa, potremmo lasciar andare verso l'infinito e soggiorno fisso, ma poi il nostro errore colpi proprio come il problema diventa praticamente impossibile. A seconda del problema, l'errore può andare all'infinito o arrestarsi in corrispondenza di un limite superiore naturale ( ad es . Errore di classificazione errata al 100%). $p$ $n$

Dal momento che entrambi questi casi sono un po 'inutili, consideriamo invece andando entrambi all'infinito in modo che la nostra teoria sia pertinente (rimanga ad alta dimensione) senza essere apocalittica (caratteristiche infinite, dati finiti). $n, p$

Avere due "manopole" è generalmente più difficile che avere una singola manopola, quindi fissiamo per qualche fisso e lasciamo andare all'infinito (e quindi va all'infinito indirettamente). [F2] La scelta di determina il comportamento del problema. Per motivi nella mia risposta alla parte 1, si scopre che la "cattiveria" delle funzionalità extra cresce solo come mentre la " cattività" dei dati extra cresce come . $p=f(n)$ $f$ $n$ $p$ $f$ $\log p$ $n$

Se rimane costante (equivalentemente,per qualche), percorriamo l'acqua e il problema è un lavaggio (l'errore rimane risolto in modo asintotico); $\frac{\log p}{n}$ $p=f(n)=Θ(C^n)$ $C$
se () otteniamo asintoticamente zero errori; $\frac{\log p}{n} \to 0$ $p=o(C^n)$
e se (), l'errore finisce infine all'infinito. $\frac{\log p}{n}→\infty$ $p=\omega(C^n)$

Quest'ultimo regime è talvolta chiamato "ultra-dimensionale" in letteratura. Il termine "ultra-dimensionale" non ha una definizione rigorosa per quanto ne so, ma è informalmente solo "il regime che rompe il lazo e stimatori simili".

Possiamo dimostrarlo con un piccolo studio di simulazione in condizioni abbastanza idealizzate. Qui prendiamo una guida teorica sulla scelta ottimale di da [BRT09] e scegliamo $\lambda$ . $\lambda = 3 \sqrt{\log(p)/n}$

Innanzitutto considera un caso in cui . Questo è nel regime ad alta dimensione "trattabile" descritto sopra e, come prevede la teoria, vediamo l'errore di previsione convergere a zero: $p = f(n) = 3n$

Codice da riprodurre:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Possiamo paragonarlo al caso in cui rimane approssimativamente costante: io chiamo questo regime "borderline" ultra-dimensionale, ma non è un termine standard: $\frac{\log p}{n}$

P <- 10 + ceiling(exp(N/120))

Qui vediamo che l'errore di previsione (usando lo stesso design di cui sopra) si livella invece di continuare a zero.

$P$ $e^n$ $e^{n^2}$ $e^{n^2}$

P <- 10 + ceiling(exp(N^(1.03)/120))

$X$ $e^{n^1.5}$

Nonostante ciò che ho detto sopra e come potrebbe apparire, il regime ultra-dimensionale non è in realtà completamente senza speranza (anche se è vicino), ma richiede tecniche molto più sofisticate di un semplice massimo di variabili casuali gaussiane per controllare l'errore. La necessità di utilizzare queste tecniche complesse è la fonte ultima della complessità che noti.

$p, n$ $p = f(n)$

Parte 3)

$\log p$ $n$

$n, p$ $n, p$

Se sei a tuo agio e disposto ad approfondire la letteratura di ricerca, guarderei i lavori di Jianqing Fan e Jinchi Lv, che hanno svolto gran parte del lavoro di base su problemi di dimensioni ultra-dimensionali. ("Screening" è un buon termine su cui cercare)

[F1] In realtà, qualsiasi variabile aleatoria subgaussiana , ma questo non aggiunge molto a questa discussione.

$s$ $n$ $s = g(n)$

[F3] T. Hastie, R. Tibshirani e M. Wainwright. Apprendimento statistico con sparsità. Monografie su statistiche e probabilità applicata 143. CRC Press, 2015. Disponibile per il download gratuito all'indirizzo https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel, Ya'acov Ritov e Alexandre B. Tsybakov. "Analisi simultanea del selettore di Lazo e Dantzig." Annals of Statistics 37 (4), pag. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620

— mweylandt
fonte

\log p / n

$\log p/n$

n

$n$