Qual è la relazione tra correlazione e causalità nell'apprendimento automatico?

13

È risaputo che "la correlazione non equivale alla causalità", ma l'apprendimento automatico sembra essere quasi interamente basato sulla correlazione. Sto lavorando a un sistema per stimare le prestazioni degli studenti in base alle loro domande passate. A differenza di altre attività, come la ricerca di Google, questo non sembra il tipo di sistema che può essere facilmente giocato, quindi il nesso di causalità non è realmente rilevante a tale riguardo.

Chiaramente, se vogliamo fare esperimenti per ottimizzare il sistema, dovremo preoccuparci della distinzione correlazione / causalità. Ma, dal punto di vista della semplice costruzione di un sistema per selezionare domande che potrebbero essere del livello di difficoltà appropriato, questa distinzione ha qualche importanza?

machine-learning statistics

— Casebash
fonte

Per favore, definisci o almeno fai riferimento a cosa intendi per correlazione causale in "La correlazione non equivale a causalità"

— seteropere

11

Non tutte le AI funzionano sulla correlazione, le reti di credenze bayesiane sono costruite attorno alla probabilità che A causi B.

Sto lavorando a un sistema per stimare le prestazioni degli studenti in base alle loro domande passate.

Non penso che tu abbia bisogno di un nesso di causalità per questo. Una performance passata non provoca una performance corrente. Rispondere a una domanda iniziale non provoca una risposta a una domanda successiva.

Ma dal punto di vista della semplice costruzione di un sistema per scegliere domande che potrebbero essere del livello di difficoltà appropriato - questa distinzione ha qualche importanza?

No, non per il tuo esempio. Penso che la correlazione (o anche la semplice estrapolazione) risolva molto bene il tuo problema. Assegna un punteggio di difficoltà a ciascuna delle domande e poi invia le domande agli studenti a livelli sempre più difficili (che è come funziona la maggior parte degli esami) e quindi quando lo studente inizia a sbagliare, puoi risolvere la difficoltà. Questo è un algoritmo di feedback simile alla minimizzazione dell'errore eseguita su un neurone in un percettrone multistrato. Il pezzo non banale di spazi di input come questo sta decidendo quale sia una domanda difficile!

Un esempio migliore di causalità nell'intelligenza artificiale sarebbe:

La mia macchina sta rallentando. Il mio acceleratore è sul pavimento. Non c'è molto rumore. Ci sono luci sul cruscotto. Qual è la probabilità che io abbia esaurito il carburante?

In questo caso, rimanere senza carburante ha causato il rallentamento dell'auto. Questo è esattamente il tipo di problema che Bayesian Belief Networks risolve.

— Dott. Rob Lang
fonte

"Non credo che tu abbia bisogno di un nesso di causalità per questo. Una performance passata non provoca una performance attuale. La risposta a una domanda iniziale non provoca una risposta a una domanda successiva." - bene il fatto che uno studente abbia completato un esercizio può far sì che si esibiscano meglio in un altro esercizio (forniamo loro, suggerimenti, ect).

— Casebash,

Ma suppongo che tu abbia ragione, non si tratta tanto di correlazione contro causalità, ma se sia correlato a una causalità (cioè gli studenti di una determinata classe stanno facendo bene gli argomenti di geometria perché l'insegnante l'ha trattato in modo più dettagliato, rispetto agli studenti che completato gli argomenti più difficili, tendendo ad avere prestazioni elevate perché sono gli unici ad

— esserne

Ah! È interessante: completare un esercizio e conoscerne il risultato è la causa per cui si è migliori nelle domande. Ma questo non è osservabile qui. L'unica cosa che stai osservando sono le domande d'esame, che sono correlate. La correlazione non è sporca, va bene dire che due processi statistici hanno una relazione.

— Dott. Rob Lang,

A causa B è un'interpretazione di una rete di credenze.

— seteropere,

6

l'apprendimento automatico sembra essere quasi interamente basato sulla correlazione

Non credo, almeno in generale. Ad esempio, il presupposto principale per gli algoritmi ML in termini di analisi PAC e analisi dimensionale VC , è che i dati di addestramento / test provengono dalla stessa distribuzione dei dati futuri.

Quindi, nel tuo sistema, dovresti presumere che ogni studente imponga una sorta di distribuzione di probabilità condizionale che generi risposte a particolari tipi di domande su argomenti specifici. Un altro, e più problematico presupposto che devi fare, è che questa distribuzione non cambia (o non cambia velocemente).

— BartoszKP
fonte

2

Sono d'accordo con le risposte precedenti.

Se, tuttavia, sei interessato a guardare la correlazione / causalità in generale, due elementi che potresti voler esaminare sono:

Pearl (sì, quella Pearl ) ha prodotto uno dei pochissimi libri decenti su di esso.
L'apprendimento per rinforzo e il problema del multi-braccio armato sono tutti basati su un attore che cerca di inferire corsi d'azione ottimali in un ambiente sconosciuto - cioè devono imparare quali "azioni" daranno loro la migliore "ricompensa", e quindi implicitamente prendere in giro causali relazioni.

2

Oltre alle altre risposte, c'è un argomento interessante: se si selezionano manualmente le funzionalità, è possibile pensare alla "correlazione casuale" per ridurre il sovradimensionamento, vale a dire, evitare funzionalità che in qualche modo sono correlate ai dati di allenamento ma non non dovrebbe essere correlato nel caso generale - che non esiste alcuna relazione causale.

Come esempio approssimativo, supponiamo che prendiate una tabella di dati dei risultati degli esami storici e proviamo a prevedere i criteri fall / pass; includi semplicemente tutti i campi di dati disponibili come caratteristiche e che la tabella abbia anche il compleanno degli studenti. Ora, potrebbe esserci una valida correlazione nei dati di formazione che gli studenti nati il 12 febbraio passano quasi sempre e gli studenti nati il 13 febbraio quasi sempre falliscono ... ma poiché non esiste una relazione causale, dovrebbe essere escluso.

Nella vita reale è un po 'più sottile, ma aiuta a distinguere le correlazioni che adattano i tuoi dati a segnali validi che dovrebbero essere appresi dalla forma; e correlazioni che sono semplicemente schemi causati da rumore casuale nel tuo set di allenamento.

— Peter è
fonte