Effettuiamo davvero analisi di regressione multivariata con coefficienti * milioni * / variabili indipendenti?


18

Sto dedicando un po 'di tempo all'apprendimento automatico (mi dispiace per la ricorsione :) e non potrei fare a meno di essere incuriosito dalla regola empirica della scelta di Discendente pendenza rispetto alla risoluzione diretta dell'equazione per i coefficienti di regressione computazionale, nel caso della regressione lineare multivariata.

Regola empirica: se il numero di caratteristiche (coefficienti di lettura / variabili indipendenti) è compreso tra o superiore a un milione, andare con Discesa gradiente, altrimenti il ​​calcolo inverso della matrice è abbastanza gestibile sull'hardware delle materie prime e quindi calcolare direttamente i coefficienti dovrebbe funzionare abbastanza bene .10,000-1,000,000

Dal punto di vista computazionale, ottengo il compromesso / le limitazioni. Ma dal punto di vista statistico calcoliamo davvero modelli con così tanti coefficienti di sempre? Se ricordo le mie classi di regressione lineare multivariata alla scuola elementare, siamo stati avvertiti di non usare troppe variabili indipendenti poiché potrebbero avere un impatto molto trascurabile sulla variabile dipendente o le loro distribuzioni non obbedirebbero alle ipotesi che facciamo sui dati. Anche se avessi ampliato la mia mente per pensare "molti IV" non avrei mai pensato a milioni .

Domande):

  • Succede davvero o è un problema teorico?
  • Qual è il punto di analizzare un milione di IV? Ci dà davvero quel notevole aumento di valore delle informazioni acquisite anziché ignorarle?
  • O è perché inizialmente non abbiamo idea di ciò che è utile, quindi eseguiamo la dannata regressione per vedere cosa è utile e andare da lì e forse potare l'insieme di IV?

Continuo a credere solo perché possiamo analizzare "tutto" non significa davvero che dovremmo buttarlo in un risolutore (o lo fa) e alcune delle mie domande passate riflettono POV simili.

Devo ancora finire il corso e potrei presto porre la domanda, ma non riesco proprio a capire questo "Perché" dalla mia testa e sto cercando di capirlo al meglio delle mie capacità.

Risposte:


14

Succede davvero o è un problema teorico?

Succede, vedi qualsiasi modello di deep-learning popolare per la visione artificiale. Supponiamo che alexnet abbia una densa connessione tra 2048 e 2048 unità, ovvero 4 milioni di coefficienti.

Qual è il punto di analizzare un milione di IV? Ci dà davvero quel notevole aumento di valore delle informazioni acquisite anziché ignorarle?

Se stai analizzando dati altamente categorici (ad esempio dati di pubblicità su Internet ), il tuo modello deve conservare alcune "descrizioni" significative per ogni categoria (ad es. Città, ID pagina, nome sito, ID annuncio, ID utente, ecc.), L'effettivo la dimensione della "descrizione" dipende dal modello ML selezionato.

Anche la semplice regressione logistica avrà dozzine di migliaia di parametri da installare (uno per categoria). Modelli più avanzati come le macchine di fattorizzazione avranno tempi in più.

O è perché inizialmente non abbiamo idea di ciò che è utile, quindi eseguiamo la dannata regressione per vedere cosa è utile e andare da lì e forse potare l'insieme di IV?

In realtà, la maggior parte dei parametri adattati in questi modelli può essere eliminata, ma non puoi saperlo in anticipo, quindi lasci il problema di definire quali parametri sono importanti per l'apprendimento automatico e imponi alcune regolarizzazioni per mettere il "limite morbido" al numero effettivo di parametri per rimanere.

... e penso che troverai questi esempi più avanti nel tuo corso ML.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.