Che cos'è "Aspettativa di massima verosimiglianza mirata"?


15

Sto cercando di capire alcuni articoli di Mark van der Laan. È uno statistico teorico di Berkeley che lavora su problemi che si sovrappongono in modo significativo con l'apprendimento automatico. Un problema per me (oltre alla matematica profonda) è che spesso finisce per descrivere approcci di machine learning familiari usando una terminologia completamente diversa. Uno dei suoi concetti principali è "Aspettativa di massima probabilità mirata".

TMLE viene utilizzato per analizzare i dati osservativi censurati da un esperimento non controllato in un modo che consenta la stima dell'effetto anche in presenza di fattori di confondimento. Sospetto fortemente che molti degli stessi concetti esistano sotto altri nomi in altri campi, ma non lo capisco ancora abbastanza bene da abbinarlo direttamente a qualsiasi cosa.

Un tentativo di colmare il divario con "Analisi dei dati computazionali" è qui:

Entrando nell'era della scienza dei dati: apprendimento mirato e integrazione di statistiche e analisi dei dati computazionali

E un'introduzione per gli statistici è qui:

Inferenza causale basata sulla massima verosimiglianza mirata: Parte I

Dal secondo:

In questo articolo, sviluppiamo uno stimatore mirato della massima verosimiglianza particolare degli effetti causali di più interventi temporali. Ciò comporta l'uso del superapprendimento basato sulla perdita per ottenere una stima iniziale dei fattori sconosciuti della formula di calcolo G e, successivamente, applicare una funzione di fluttuazione ottimale specifica per parametro target (sottomodello parametrico meno favorevole) a ciascun fattore stimato, stimare i parametri di fluttuazione con la stima della massima verosimiglianza e iterare questa fase di aggiornamento del fattore iniziale fino alla convergenza. Questa fase di aggiornamento della massima probabilità mirata iterativa rende lo stimatore risultante dell'effetto causale doppio robusto, nel senso che è coerente se lo stimatore iniziale è coerente, o lo stimatore della funzione di fluttuazione ottimale è coerente. La funzione di fluttuazione ottimale è correttamente specificata se le distribuzioni condizionali dei nodi nel grafico causale su cui si interviene sono specificate correttamente.

Nella sua terminologia, il "superapprendimento" è l'apprendimento d'insieme con uno schema di ponderazione non negativo teoricamente valido. Ma cosa intende con "applicare una funzione di fluttuazione ottimale specifica per parametro target (sottomodello parametrico meno favorevole) a ciascun fattore stimato".

O suddividendolo in tre domande distinte, TMLE ha un parallelo nell'apprendimento automatico, che cos'è un "sottomodello parametrico meno favorevole" e che cos'è una "funzione di fluttuazione" in altri campi?


1
Uno dei motivi per cui la terminologia potrebbe non essere familiare è che l'obiettivo di TMLE è stimare l'effetto medio del trattamento - inferenza causale, non previsione. Quando ho letto "super discente" in articoli su TMLE, ho pensato che gli autori prendessero in prestito il termine dal pacchetto SuperLearner in R per costruire modelli di ensemble.
RobertF,

Risposte:


24

Concordo sul fatto che van der Laan abbia la tendenza a inventare nuovi nomi per idee già esistenti (ad esempio il super-discente), ma TMLE non è uno di questi per quanto ne so. In realtà è un'idea molto intelligente, e non ho visto nulla dalla comunità di Machine Learning che assomigli (sebbene potrei essere semplicemente ignorante). Le idee derivano dalla teoria delle equazioni di stima semiparametriche efficienti, che è qualcosa su cui penso che gli statistici pensino molto più delle persone ML.

L'idea è essenzialmente questa. Supponiamo che sia un vero meccanismo di generazione di dati e che l'interesse sia per un particolare funzionale Ψ ( P 0 ) . Associata a tale funzionale è spesso un'equazione di stimaP0 Ψ(P0)

iφ(Yiθ)=0,

θ=θ(P)PΨφEPφ(Yθ)=0θP0Ψ(P0) è asintoticamente equivalente a uno che risolve questa equazione.(Nota: sto diventando un po 'lento con il termine "efficiente", dal momento che sto solo descrivendo l'euristico.) La teoria alla base di tali equazioni di stima è abbastanza elegante, con questo libro come riferimento canonico. È qui che si possono trovare definizioni standard di "sottomodelli meno favorevoli"; questi non sono termini inventati da van der Laan.

P0P0Ψ(P0)P0P^Ψ(P^)nP0Ψ

p^

p^1,ϵ=p^exp(ϵ φ(Yθ))p^exp(ϵ φ(yθ)) dy

where ϵ is called a fluctuation parameter. Now we do maximum likelihood on ϵ. If it happens to be the case that ϵ=0 is the MLE then one can easily verify by taking the derivative that p^ solves the efficient estimating equation, and hence is efficient for estimating Ψ! On the other hand, if ϵ0 at the MLE, we have a new density estimator p^1 which fits the data better than p^ (after all, we did MLE, so it has a higher likelihood). Then, we iterate this procedure and look at

p^2,ϵp^1,ϵ^exp(ϵ φ(Yθ).

and so on until we get something, in the limit, which satisfies the efficient estimating equation.


1
"I agree that van der Laan has a tendency to invent new names for already existing ideas" - Yes, see this introduction to TMLE: biostats.bepress.com/ucbbiostat/paper252, where van der Laan uses "coarsening at random" to mean exchangeability and "experimental treatment assignment (ETA) assumption" to mean positivity. :-) It's not terribly unusual in our field. Data scientists use terms such as recall, precision, and A/B testing which I learned as sensitivity, positive predictive value, and hypothesis testing in college.
RobertF

2
@RobertF CAR is due to Heitjan and Rubin, and is a generalization of MAR. Rubin invented MAR and also popularized the potential outcomes framework, so using CAR as a catch-all for ignorability/exchangeability type assumptions seems fair to me.
guy
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.