Andrew Gelman in uno dei suoi recenti post sul blog dice:
Non credo siano necessari controfattuali o potenziali esiti per il paradosso di Simpson. Dico questo perché si può impostare il paradosso di Simpson con variabili che non possono essere manipolate o per le quali le manipolazioni non sono direttamente di interesse.
Il paradosso di Simpson fa parte di un problema più generale secondo cui la regressione cambia se si aggiungono più predittori, il capovolgimento del segno non è realmente necessario.
Ecco un esempio che uso nel mio insegnamento che illustra entrambi i punti:
Sono in grado di eseguire una regressione predicendo il reddito da sesso e altezza. Trovo che il rapporto sessuale sia di $ 10.000 (cioè, confrontando un uomo e una donna della stessa altezza, in media l'uomo farà $ 10.000 in più) e il coefficiente di altezza è di $ 500 (cioè, confrontando due uomini o due donne di diverse altezze, in media la persona più alta farà $ 500 in più per pollice di altezza).
Come posso interpretare questi coef? Sento che il coef dell'altezza è facile da interpretare (è facile immaginare di confrontare due persone dello stesso sesso con diverse altezze), infatti sembrerebbe in qualche modo “sbagliato” regredire in altezza senza controllare il sesso, tanto quanto il grezzo la differenza tra persone alte e basse può essere “spiegata” essendo differenze tra uomini e donne. Ma il coef del sesso nel modello sopra sembra molto difficile da interpretare: perché confrontare un uomo e una donna che sono entrambi alti 66 pollici, per esempio? Sarebbe un paragone di un uomo basso con una donna alta. Tutto questo ragionamento sembra vagamente causale, ma non penso che abbia senso pensarci su potenziali risultati.
Ci ho riflettuto (e ho anche commentato il post) e penso che ci sia qualcosa che implora di essere compreso con maggiore chiarezza qui.
Fino alla parte sull'interpretazione del genere va bene. Ma non vedo quale sia il problema dietro il confronto tra un uomo basso e una donna alta. Ecco il mio punto: in effetti ha ancora più senso (dato l'assunto che gli uomini sono in media più alti). Non è possibile confrontare un "uomo basso" e una donna "bassa" esattamente per lo stesso motivo, che la differenza di reddito è spiegata in qualche parte dalla differenza di altezza. Lo stesso vale per uomini alti e donne alte e ancora di più per donne basse e uomini alti (che è ulteriormente fuori discussione, per così dire). Quindi, in pratica, l'effetto dell'altezza viene eliminato solo nel caso in cui si confrontino uomini bassi e donne alte (e questo aiuta a interpretare il coefficiente di genere). Non suona un campanello su simili concetti sottostanti dietro i popolari modelli di abbinamento?
L'idea alla base del paradosso di Simpson è che l'effetto della popolazione potrebbe essere diverso dagli effetti saggi del sottogruppo. Ciò è in qualche modo collegato al suo punto 2 e al fatto che riconosce che l'altezza non dovrebbe essere controllata da sola (ciò che diciamo ha omesso la distorsione variabile). Ma non potrei collegarlo alla controversia sul coefficiente di genere.
Forse potresti essere in grado di esprimerlo più chiaramente? O commentare la mia comprensione?