Sto dedicando un po 'di tempo all'apprendimento automatico (mi dispiace per la ricorsione :) e non potrei fare a meno di essere incuriosito dalla regola empirica della scelta di Discendente pendenza rispetto alla risoluzione diretta dell'equazione per i coefficienti di regressione computazionale, nel caso della regressione lineare multivariata.
Regola empirica: se il numero di caratteristiche (coefficienti di lettura / variabili indipendenti) è compreso tra o superiore a un milione, andare con Discesa gradiente, altrimenti il calcolo inverso della matrice è abbastanza gestibile sull'hardware delle materie prime e quindi calcolare direttamente i coefficienti dovrebbe funzionare abbastanza bene .
Dal punto di vista computazionale, ottengo il compromesso / le limitazioni. Ma dal punto di vista statistico calcoliamo davvero modelli con così tanti coefficienti di sempre? Se ricordo le mie classi di regressione lineare multivariata alla scuola elementare, siamo stati avvertiti di non usare troppe variabili indipendenti poiché potrebbero avere un impatto molto trascurabile sulla variabile dipendente o le loro distribuzioni non obbedirebbero alle ipotesi che facciamo sui dati. Anche se avessi ampliato la mia mente per pensare "molti IV" non avrei mai pensato a milioni .
Domande):
- Succede davvero o è un problema teorico?
- Qual è il punto di analizzare un milione di IV? Ci dà davvero quel notevole aumento di valore delle informazioni acquisite anziché ignorarle?
- O è perché inizialmente non abbiamo idea di ciò che è utile, quindi eseguiamo la dannata regressione per vedere cosa è utile e andare da lì e forse potare l'insieme di IV?
Continuo a credere solo perché possiamo analizzare "tutto" non significa davvero che dovremmo buttarlo in un risolutore (o lo fa) e alcune delle mie domande passate riflettono POV simili.
Devo ancora finire il corso e potrei presto porre la domanda, ma non riesco proprio a capire questo "Perché" dalla mia testa e sto cercando di capirlo al meglio delle mie capacità.