La regressione lineare è obsoleta? [chiuso]


12

Sono attualmente in una classe di regressione lineare, ma non riesco a scuotere la sensazione che ciò che sto imparando non è più rilevante né nelle statistiche moderne né nell'apprendimento automatico. Perché è trascorso così tanto tempo a dedurre la regressione lineare semplice o multipla quando così tanti set di dati interessanti oggigiorno violano spesso molti dei presupposti non realistici della regressione lineare? Perché non insegnare invece l'inferenza su strumenti più flessibili e moderni come la regressione usando macchine vettore di supporto o processo gaussiano? Sebbene sia più complicato di trovare un iperpiano in uno spazio, ciò non darebbe agli studenti uno sfondo molto migliore per affrontare i problemi dei nostri giorni?


10
I cacciaviti rendono i martelli obsoleti? O ognuno svolge un compito diverso?
Sycorax dice di reintegrare Monica il

6
Ho un multitool che funziona come un coltello, una sega, un paio di cacciaviti diversi, un paio di pinze e probabilmente un paio di altre cose, ma quando ho bisogno di uno di quegli strumenti è l'ultima cosa che raggiungerei. È utile solo in un pizzico, non è mai lo "strumento migliore per il lavoro".
Darren,

7
Molte, molte situazioni affrontate da persone reali coinvolgono set di dati molto piccoli con rumore elevato; in molti casi non sono fattibili modelli più complessi mentre almeno una buona parte del tempo è almeno sostenibile un modello lineare semplice. Mentre i set di dati di grandi dimensioni (e i relativi problemi associati) continueranno a crescere in proporzione all'analisi totale dei dati che continua, i set di dati molto piccoli e le analisi relativamente semplici su cui si basano non andranno mai via. A ciò si aggiungono che gli strumenti più sofisticati sono costruiti direttamente su quelli più semplici, non solo storicamente ma concettualmente.
Glen_b

6
Oltre alle molte situazioni in cui la regressione lineare è di uso pratico continuo, vale anche la pena sottolineare che è fondamentale nell'apprendimento di un'ampia classe di modelli additivi più sofisticati. A questo proposito, questa domanda è come chiedere se il calcolo rende l'aritmetica obsoleta.
Jacob Socolar,

1
@Aksakal Per favore, elabora. Che dire dell'utilizzo nell'ottimizzazione bayesiana?
Mark L. Stone,

Risposte:


24

È vero che i presupposti della regressione lineare non sono realistici. Tuttavia, questo vale per tutti i modelli statistici. "Tutti i modelli sono sbagliati, ma alcuni sono utili."

Immagino che tu abbia l'impressione che non ci sia motivo di usare la regressione lineare quando potresti usare un modello più complesso. Questo non è vero, perché in generale, i modelli più complessi sono più vulnerabili al overfitting e utilizzano più risorse di calcolo, che sono importanti se, ad esempio, si sta tentando di fare statistiche su un processore incorporato o un server web. I modelli più semplici sono anche più facili da capire e interpretare; al contrario, modelli complessi di apprendimento automatico come le reti neurali tendono a finire come scatole nere, più o meno.

Anche se un giorno la regressione lineare non sarà più praticamente utile (il che sembra estremamente improbabile nel prossimo futuro), sarà comunque teoricamente importante, perché modelli più complessi tendono a basarsi sulla regressione lineare come base. Ad esempio, per comprendere una regressione logistica regolarizzata ad effetti misti, è necessario prima capire la regressione lineare vecchia.

Questo non vuol dire che i modelli più complessi, più recenti e più brillanti non siano utili o importanti. Molti di loro lo sono. Ma i modelli più semplici sono più ampiamente applicabili e quindi più importanti e hanno chiaramente senso presentarsi prima se presenterai una varietà di modelli. Al giorno d'oggi ci sono molte cattive analisi dei dati condotte da persone che si definiscono "data scientist" o qualcosa del genere, ma che non conoscono nemmeno le cose fondamentali, come in realtà un intervallo di confidenza. Non essere una statistica!


Puoi chiarire cosa intendi per "modello complesso"? OP significa la stessa cosa?
Hatshepsut,

1
@Hatshepsut Praticamente tutto ciò che non è solo una regressione lineare o un suo caso speciale. L'OP ha fornito esempi di SVM e modelli di processi gaussiani. Ho citato modelli misti, regressione logistica e regressione penalizzata. Alcuni altri esempi sono alberi decisionali, reti neurali, MARS, modelli gerarchici bayesiani e modelli di equazioni strutturali. Se ci stai chiedendo come decidere se un modello è più complesso di un altro o cosa conta esattamente come modello, queste sono domande a convalida incrociata per se stesse.
Kodiologo il

"Overfitting"; come usare un polinomio del nono ordine per adattarsi a qualcosa che si è rivelato essere una somma ponderata di esponenziali. Si adattava così bene che la trama riproduceva gli errori dello strumento appena sopra il livello di rumore. Mi chiedo ancora se effettivamente usare quel polinomio avrebbe funzionato meglio.
Giosuè,

7

La regressione lineare in generale non è obsoleta . Ci sono ancora persone che stanno lavorando alla ricerca sui metodi correlati a LASSO e sul modo in cui si collegano a test multipli, ad esempio: puoi cercare su Google Emmanuel Candes e Malgorzata Bogdan.

Se stai chiedendo in particolare l'algoritmo OLS, la risposta al motivo per cui insegnano questo è che il metodo è così semplice da avere una soluzione a forma chiusa. Inoltre è più semplice della regressione della cresta o della versione con lasso / elasticnet. È possibile creare intuizioni / prove sulla soluzione per una semplice regressione lineare e quindi arricchire il modello con ulteriori vincoli.


3

Non penso che la regressione sia vecchia, potrebbe essere considerata banale per alcuni problemi che attualmente affrontano i data scientist, ma è ancora l'ABC dell'analisi statistica. Come dovresti capire se SVM funziona correttamente se non sai come funziona il modello più semplice? L'utilizzo di uno strumento così semplice ti insegna come esaminare i dati prima di passare a modelli complessi folli e comprendere a fondo quali strumenti possono essere utilizzati in ulteriori analisi e quali no. Una volta che ho avuto questa conversazione con un mio professore e collega, mi ha detto che i suoi studenti erano bravissimi nell'applicare modelli complessi ma non riuscivano a capire quale fosse l'effetto leva o leggere una semplice trama QQ per capire cosa c'era di sbagliato nei dati. Spesso nel modello più semplice e leggibile si trova la bellezza.


3

La risposta breve è no . Ad esempio, se provi un modello lineare con dati MNIST, otterrai comunque circa il 90% della precisione!

Una risposta lunga sarebbe "dipendente dal dominio", ma il modello lineare è ampiamente utilizzato.

  • In alcuni campi, per esempio, in studio medico, è super costoso ottenere un punto dati. E il lavoro di analisi è ancora simile a molti anni fa: la regressione lineare svolge ancora un ruolo molto importante.

  • Nell'apprendimento automatico moderno, diciamo, la classificazione del testo, il modello lineare è ancora molto importante, sebbene esistano altri modelli più elaborati. Questo perché il modello lineare è molto "stabile", avrà meno probabilità di adattarsi eccessivamente ai dati.

Infine, il modello lineare è in realtà l'elemento costitutivo della maggior parte degli altri modelli. Imparare bene ti gioverà in futuro.


2

In termini pratici, la regressione lineare è utile anche se si utilizza anche un modello più complesso per il proprio lavoro. La chiave è che la regressione lineare è facile da capire e quindi facile da usare per comprendere concettualmente cosa sta accadendo in modelli più complessi.

Posso offrirti un esempio pratico di applicazione dal mio vero lavoro dal vivo come analista statistico. Se ti ritrovi allo stato brado, senza supervisione, con un set di dati di grandi dimensioni e il tuo capo ti chiede di eseguire alcune analisi su di esso, da dove inizi? Bene, se non si ha familiarità con il set di dati e non si ha una buona idea di come ci si aspetta che le varie funzionalità siano in relazione tra loro, un modello complesso come quelli che è stato suggerito è un brutto posto per iniziare a indagare.

Invece, il punto migliore da cui iniziare è la semplice vecchia regressione lineare. Eseguire un'analisi di regressione, esaminare i coefficienti e rappresentare graficamente i residui. Una volta che inizi a vedere cosa sta succedendo con i dati, puoi prendere alcune decisioni sui metodi avanzati che proverai ad applicare.

Asserisco che se hai appena inserito i tuoi dati in una scatola nera di modello avanzato come sklearn.svm (se sei in Python), avrai una fiducia molto bassa che i tuoi risultati saranno significativi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.