Paragonare l'importanza di diversi insiemi di predittori


13

Stavo consigliando uno studente di ricerca con un problema particolare ed ero desideroso di ottenere il contributo di altri su questo sito.

Contesto:

Il ricercatore aveva tre tipi di variabili predittive. Ogni tipo conteneva un numero diverso di variabili predittive. Ogni predittore era una variabile continua:

  • Sociale: S1, S2, S3, S4 (ovvero quattro predittori)
  • Cognitive: C1, C2 (ovvero due predittori)
  • Comportamentale: B1, B2, B3 (ovvero tre predittori)

Anche la variabile del risultato è stata continua. Il campione comprendeva circa 60 partecipanti.

Il ricercatore ha voluto commentare quale tipo di predittori fosse più importante nello spiegare la variabile del risultato. Ciò era collegato a più ampie preoccupazioni teoriche sull'importanza relativa di questi tipi di predittori.

Domande

  • Qual è un buon modo per valutare l'importanza relativa di una serie di predittori rispetto a un'altra serie?
  • Qual è una buona strategia per affrontare il fatto che ci sono diversi numeri di predittori in ogni set?
  • Quali avvertenze nell'interpretazione potresti suggerire?

Anche i riferimenti ad esempi o discussioni di tecniche sarebbero i benvenuti.

Risposte:


7

Supponiamo che il primo set di predittori richieda un grado di libertà (a 4 che consente termini non lineari), il secondo set richiede b, e il terzo richiede c (c 3) che consente termini non lineari. Calcolare il rapporto di verosimiglianza χ 2 test gli effetti combinati parziali di ciascuna serie, cedendo L 1 , L 2 , L 3χ2L1,L2,L3 . Il valore atteso di una variabile casuale con d gradi di libertà è d, d così sottrarre al livello del campo di gioco. Vale a dire, calcolare L 1 - a , L 2 - b , Lχ2. Se si utilizzano i test F, più F per il suo numeratore df per ottenere lascala χ 2 .L1a,L2b,L3cχ2


Per confermare, il tuo approccio consiste nel calcolare L1 come riduzione della devianza (-2 *) derivante dall'inclusione delle quattro variabili sociali, regolata dalla df di queste quattro variabili? E allo stesso modo a sua volta per L2 e L3?
B_Miner

Non ho usato la migliore notazione. Intendo il rapporto di verosimiglianza χ2 statistica, che è la variazione della probabilità di log -2 quando si rimuove l'insieme di variabili da testare.
Frank Harrell,

concederesti anche che esiste un rischio, nell'elaborare una soluzione puramente statistica, di perdere un possibile problema generale in base al quale tutti e 3 i gruppi di predittori potrebbero misurare le caratteristiche / i comportamenti che si verificano contemporaneamente. Senza una sorta di base prima-causa-successiva per una catena causale, potrebbe essere impossibile districare definitivamente le relazioni causali in questa situazione - qualunque siano i nostri calcoli? (Sto provando a pensare come James Davis in The Logic of Causal Order.)
rolando2

Di sicuro. La catena causale deve essere compresa prima ancora che inizi la modellazione.
Frank Harrell,

@FrankHarrell Questi risultati si applicano anche alla probabilità penalizzata? La probabilità penalizzata ha delle proprietà che la differenziano dalla probabilità rispetto a questa misura di importanza variabile? Potresti suggerire alcuni articoli che descrivono questo in modo più dettagliato? Grazie.
Julieth

7

suggerimenti

  • È possibile eseguire singole regressioni multiple per ciascun tipo di predittore e confrontare tra regressioni multiple, r-quadrato rettificato, r-quadrato generalizzato o qualche altra misura della varianza adattata alla parsimonia spiegata.
  • In alternativa, puoi esplorare la letteratura generale sull'importanza variabile ( vedi qui per una discussione con i collegamenti ). Ciò incoraggerebbe a concentrarsi sull'importanza dei singoli predittori.
  • In alcune situazioni la regressione gerarchica può fornire un quadro utile. Inserire un tipo di variabile in un blocco (ad es. Variabili cognitive) e nel secondo blocco un altro tipo (ad es. Variabili sociali). Ciò aiuterebbe a rispondere alla domanda se un tipo di variabile prevede oltre un altro tipo.
  • Come esame laterale, è possibile eseguire un'analisi fattoriale sulle variabili del predittore per esaminare se le correlazioni tra le variabili del predittore si associano all'assegnazione delle variabili ai tipi.

Avvertenze

  • Tipi di variabili come cognitive, sociali e comportamentali sono ampie classi di variabili. Un dato studio includerà sempre solo un sottoinsieme delle possibili variabili e in genere tale sottoinsieme è piccolo rispetto alle possibili variabili. Inoltre, le variabili misurate potrebbero non essere il mezzo più affidabile o valido per misurare il costrutto previsto. Pertanto, è necessario fare attenzione quando si trae l'inferenza più ampia sull'importanza relativa di un determinato tipo di variabile oltre a ciò che è stato effettivamente misurato.
  • È inoltre necessario considerare eventuali distorsioni nel modo in cui è stata misurata la variabile dipendente. Soprattutto negli studi psicologici, vi è la tendenza delle misure di auto-relazione a correlarsi bene con l'auto-relazione, la capacità con abilità, le altre relazioni con altre relazioni e così via. Il problema è che la modalità di misurazione ha un grande effetto al di là dell'attuale costrutto di interesse. Pertanto, se la variabile dipendente viene misurata in un modo particolare (ad es. Auto-report), allora non interpretare eccessivamente le correlazioni più ampie con un tipo di predittore se quel tipo utilizza anche auto-report.

Mi è piaciuto leggere questa risposta chiara e utile e la condividerò con un collega.
rolando2,

6

Importanza

La prima cosa da fare è rendere operativa "l'importanza dei predittori". Presumo che significhi qualcosa di simile alla "sensibilità del risultato medio ai cambiamenti nei valori dei predittori". Poiché i tuoi predittori sono raggruppati, la sensibilità del risultato medio nei confronti di gruppi di predittori è più interessante di un'analisi variabile per variabile. Lascio aperto se la sensibilità sia compresa in modo causale. Tale problema verrà risolto in seguito.

Tre versioni di importanza

Molte variazioni sono spiegate : suppongo che il primo punto di riferimento degli psicologi sia probabilmente una decomposizione della varianza che porta a una misura di quanto la varianza dei risultati è spiegata dalla struttura della varianza-covaranza in ciascun gruppo di predittori. Non essendo uno sperimentatore, non posso suggerire molto qui, se non per notare che l'intero concetto di "varianza spiegata" è un po 'infondato per i miei gusti, anche senza il problema "quale somma di quali quadrati". Altri sono invitati a non essere d'accordo e svilupparlo ulteriormente.

Grandi coefficienti standardizzati : SPSS offre la (erroneamente) beta per misurare l'impatto in modo comparabile tra le variabili. Ci sono diversi motivi per non usarlo, discusso nel libro di regressione di Fox, qui e altrove. Tutti si applicano qui. Ignora anche la struttura del gruppo.

D'altra parte, immagino che si possano standardizzare i predittori in gruppi e usare le informazioni sulla covarianza per giudicare l'effetto di un movimento di deviazione standard in ognuno di essi. Personalmente il motto: "se una cosa non vale la pena fare, non vale la pena farlo bene" smorza il mio interesse nel farlo.

Grandi effetti marginali : l'altro approccio è di rimanere sulla scala delle misurazioni e calcolare effetti marginali tra punti campione scelti con cura. Poiché sei interessato a gruppi, è utile scegliere punti per variare gruppi di variabili anziché singole, ad esempio manipolando entrambe le variabili cognitive contemporaneamente. (Molte opportunità per trame interessanti qui). Documento di base qui . Il effectspacchetto in R lo farà bene.

Ci sono due avvertenze qui:

  1. Se lo fai, vorrai fare attenzione a non scegliere due variabili cognitive che, sebbene individualmente plausibili, ad esempio le mediane, sono congiuntamente lontane da qualsiasi osservazione soggettiva.

  2. Alcune variabili non sono nemmeno teoricamente manipolabili, quindi l'interpretazione degli effetti marginali come causali è più delicata, sebbene sia ancora utile.

Diversi numeri di predittori

I problemi sorgono a causa della struttura di covarianza delle variabili raggruppate, di cui normalmente proviamo a non preoccuparci, ma per questo compito dovrebbe.

In particolare quando si calcolano effetti marginali (o coefficienti standardizzati per quella materia) su gruppi piuttosto che singole variabili, la maledizione della dimensionalità per gruppi più grandi renderà più facile per i paragoni spostarsi in regioni dove non ci sono casi. Più predittori in un gruppo portano a uno spazio più scarsamente popolato, quindi qualsiasi misura di importanza dipenderà più dalle ipotesi del modello e meno dalle osservazioni (ma non ti dirà che ...) Ma questi sono gli stessi problemi della fase di adattamento del modello veramente. Certamente gli stessi che emergerebbero in una valutazione d'impatto causale basata su modelli.


2

Un metodo consiste nel combinare gli insiemi di variabili in variabili sheaf. Questo metodo è stato ampiamente utilizzato in sociologia e aree correlate.

refs:

Whitt, Hugh P. 1986. "Il coefficiente del covone: un approccio semplificato ed esteso". Ricerca in scienze sociali 15: 174-189.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.