Un predittore con maggiore varianza è "migliore"?

13

Ho una domanda "statistica di base". Come studente vorrei sapere se sto pensando a questo totalmente sbagliato e perché, in tal caso:

Diciamo che sto ipoteticamente cercando di esaminare la relazione tra "problemi di gestione della rabbia" e dire il divorzio (sì / no) in una regressione logistica e ho la possibilità di utilizzare due diversi punteggi di gestione della rabbia - entrambi su 100.
Punteggio 1 proviene dallo strumento di valutazione del questionario 1 e dall'altra mia scelta; il punteggio 2 proviene da un questionario diverso. Ipoteticamente, abbiamo motivo di credere da precedenti lavori che i problemi di gestione della rabbia causano il divorzio.
Se, nel mio campione di 500 persone, la varianza del punteggio 1 è molto più alta di quella del punteggio 2, c'è motivo di ritenere che il punteggio 1 sarebbe un punteggio migliore da utilizzare come predittore di divorzio in base alla sua varianza?

Per me, questo istintivamente sembra giusto, ma è così?

regression logistic

— N26
fonte

Domanda interessante, credo che la risposta di Whuber lo spieghi perfettamente. La mia prima risposta alla domanda è stata: "una maggiore varianza non implica informazioni discriminatorie di classe superiore".

— Zhubarb,

11

Alcuni punti rapidi:

La varianza può essere aumentata o diminuita arbitrariamente adottando una scala diversa per la variabile. Moltiplicare una scala per una costante maggiore di una aumenterebbe la varianza, ma non cambierebbe il potere predittivo della variabile.
Potresti confondere la varianza con l'affidabilità. A parità di tutto il resto (e supponendo che ci sia almeno una vera previsione del punteggio), aumentare l'affidabilità con cui si misura un costrutto dovrebbe aumentare il suo potere predittivo. Dai un'occhiata a questa discussione sulla correzione per l'attenuazione .
Supponendo che entrambe le scale fossero composte da venti elementi a 5 punti e quindi avessero punteggi totali che variavano da 20 a 100, la versione con la maggiore varianza sarebbe anche più affidabile (almeno in termini di coerenza interna).
L'affidabilità della coerenza interna non è l'unico standard in base al quale giudicare un test psicologico, e non è l'unico fattore che distingue il potere predittivo di una scala rispetto a un'altra per un dato costrutto.

— Jeromy Anglim
fonte

9

Un semplice esempio ci aiuta a identificare ciò che è essenziale.

Y = C + γ X_{1} + ε

$Y = C + \gamma X_1 + \varepsilon$

$C$ $\gamma$ $X_1$ $\varepsilon$

X_{1} = α X_{2} + β .

$X_1 = \alpha X_2 + \beta.$

$X_1 = 2 X_2 - 50$ $X_1$ $\alpha^2$ $X_2$

Y = C + γ (α X_{2} + β) = (C + β γ) + (γ α) X_{2} + ε = C^{'} + γ^{'} X_{2} + ε .

$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$

I parametri cambiano e la varianza della variabile indipendente cambia , tuttavia la capacità predittiva del modello rimane invariata .

$X_1$ $X_2$ $Y$ $Y$ $X_i$

$X_1$ $X_2$ $Y$ $Y$ $X_1$ $X_2$ $X_2$

— whuber
fonte

1

Controlla sempre i presupposti per il test statistico che stai utilizzando!

Uno dei presupposti della regressione logistica è l'indipendenza degli errori, il che significa che i casi di dati non dovrebbero essere correlati. Per esempio. non puoi misurare le stesse persone in diversi momenti nel tempo che temo tu possa aver fatto con i tuoi sondaggi sulla gestione della rabbia.

Sarei anche preoccupato che con 2 sondaggi sulla gestione della rabbia stai fondamentalmente misurando la stessa cosa e la tua analisi potrebbe soffrire di multicollinearità.

— Parbury
fonte

1

Penso che N26 stia suggerendo un esperimento mentale. Cioè, se nel progettare uno studio hai una scelta tra due scale, preferisci, prima facie, quella con la varianza maggiore. Inoltre, avere due predittori che rappresentano lo stesso costrutto, ma che sono misurati in modo diverso, non viola l'assunzione di indipendenza delle osservazioni.

— Jeromy Anglim,