Sto cercando di capire alcuni articoli di Mark van der Laan. È uno statistico teorico di Berkeley che lavora su problemi che si sovrappongono in modo significativo con l'apprendimento automatico. Un problema per me (oltre alla matematica profonda) è che spesso finisce per descrivere approcci di machine learning familiari usando una terminologia completamente diversa. Uno dei suoi concetti principali è "Aspettativa di massima probabilità mirata".
TMLE viene utilizzato per analizzare i dati osservativi censurati da un esperimento non controllato in un modo che consenta la stima dell'effetto anche in presenza di fattori di confondimento. Sospetto fortemente che molti degli stessi concetti esistano sotto altri nomi in altri campi, ma non lo capisco ancora abbastanza bene da abbinarlo direttamente a qualsiasi cosa.
Un tentativo di colmare il divario con "Analisi dei dati computazionali" è qui:
E un'introduzione per gli statistici è qui:
Inferenza causale basata sulla massima verosimiglianza mirata: Parte I
Dal secondo:
In questo articolo, sviluppiamo uno stimatore mirato della massima verosimiglianza particolare degli effetti causali di più interventi temporali. Ciò comporta l'uso del superapprendimento basato sulla perdita per ottenere una stima iniziale dei fattori sconosciuti della formula di calcolo G e, successivamente, applicare una funzione di fluttuazione ottimale specifica per parametro target (sottomodello parametrico meno favorevole) a ciascun fattore stimato, stimare i parametri di fluttuazione con la stima della massima verosimiglianza e iterare questa fase di aggiornamento del fattore iniziale fino alla convergenza. Questa fase di aggiornamento della massima probabilità mirata iterativa rende lo stimatore risultante dell'effetto causale doppio robusto, nel senso che è coerente se lo stimatore iniziale è coerente, o lo stimatore della funzione di fluttuazione ottimale è coerente. La funzione di fluttuazione ottimale è correttamente specificata se le distribuzioni condizionali dei nodi nel grafico causale su cui si interviene sono specificate correttamente.
Nella sua terminologia, il "superapprendimento" è l'apprendimento d'insieme con uno schema di ponderazione non negativo teoricamente valido. Ma cosa intende con "applicare una funzione di fluttuazione ottimale specifica per parametro target (sottomodello parametrico meno favorevole) a ciascun fattore stimato".
O suddividendolo in tre domande distinte, TMLE ha un parallelo nell'apprendimento automatico, che cos'è un "sottomodello parametrico meno favorevole" e che cos'è una "funzione di fluttuazione" in altri campi?