Una cosa come una correlazione ponderata?

Ho alcuni dati interessanti sugli artisti musicali più popolari trasmessi in streaming divisi per posizione in circa 200 distretti congressuali. Voglio vedere se è possibile sondare una persona sulle sue preferenze musicali e determinare se "ascolta come un democratico" o "ascolta come un repubblicano". (Naturalmente questo è leggero, ma c'è una vera entropia nei dati!)

Ho dati su circa 100 artisti, oltre alla percentuale media di voti per repubblicani e democratici in ciascun distretto negli ultimi tre cicli elettorali. Quindi ho eseguito una correlazione su ciascun artista per vedere quali erano ascoltati in modo sproporzionato in funzione della quota di voto per i democratici. Tali correlazioni vanno da circa -0,3 a 0,3 per un dato artista, con abbondanza nel mezzo che hanno poco o nessun potere predittivo.

Ho due domande: in primo luogo, il numero complessivo di flussi per distretto varia notevolmente. In questo momento, sto correlando la percentuale di tutti i flussi per distretto appartenenti, per esempio, a Beyonce, con la percentuale di voti espressi per i democratici. Ma i flussi totali in un distretto potrebbero essere in milioni, mentre un altro è in basso 100.000. Devo ponderare la correlazione in qualche modo per spiegare questo?

In secondo luogo, sono curioso di sapere come combinare queste correlazioni in un'ipotesi composita sulla politica dell'utente. Diciamo che prendo i 20 artisti con i più alti valori correlativi assoluti (positivi e negativi), dieci in ciascuna direzione, e scruto un utente su quanto gli piaccia ogni artista. Quindi ho voti positivi o negativi su ciascun artista e la correlazione con la politica per tutti i 20 valori. Esiste un modo standard per combinare queste correlazioni in un'unica stima? (Sto pensando a qualcosa come il famoso quiz dialettale di New York , in cui ha combinato le probabilità regionali per 25 domande in una mappa di calore. Ma in questo caso, ho solo bisogno di un singolo valore su quanto sia democratico o repubblicano il gusto della musica.

Grazie!

— Chris Wilson
fonte

La formula per la correlazione di Pearson ponderata può essere facilmente trovata sul Web , StackOverflow e Wikipedia ed è implementata in diversi pacchetti R, ad esempio psych , o pesi e nel pacchetto statsmodels di Python . Viene calcolato come una correlazione regolare ma con l'utilizzo di medie ponderate ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

varianze ponderate ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

e ponderata covarianza

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

avendo tutto questo puoi facilmente calcolare la correlazione ponderata

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

Per quanto riguarda la tua seconda domanda, a quanto ho capito, avresti dei dati sulle correlazioni tra orientamento politico e preferenza per i venti artisti e utenti risposte binarie sulle sue preferenze e vuoi ottenere una sorta di misura aggregata di essa.

Cominciamo con correlazioni medie. Ce ne sono molti $z$

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Fondamentalmente, prendendo le tangenti dei coefficienti di correlazione "appiattisce" i valori estremi (vedi sotto) in modo che abbiano una minore influenza sulla stima finale e rendano la loro distribuzione più vicina alla normalità. Questa procedura è stata descritta anche da Bushman e Wang (1995) e Corey, Dunlap e Burke (1998).

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Ma...

Non pensi che tutto ciò sia eccessivo per qualcosa che è fondamentalmente un problema di regressione multipla? Invece tutta la ponderazione e la media si potrebbe semplicemente usare la regressione multipla ponderata (lineare o logistica a seconda della previsione delle preferenze binarie o del grado di preferenza in entrambe le direzioni) in cui i pesi si basano sulle dimensioni dei sottocampioni. Utilizzeresti la preferenza musicale per ogni artista come predittore. Alla fine utilizzerai le preferenze dell'utente per fare previsioni. Questo approccio è più semplice e statisticamente più elegante. Si applica anche relativo $A$ $B$

Bushman, BJ e Wang, MC (1995). Una procedura per combinare i coefficienti di correlazione del campione e i conteggi dei voti per ottenere una stima e un intervallo di confidenza per il coefficiente di correlazione della popolazione. Bollettino psicologico, 117 (3), 530.

Corey, DM, Dunlap, WP e Burke, MJ (1998). Correlazioni medie: valori attesi e pregiudizi nelle trasformazioni combinate di Pearson r e Fisher's z, The Journal of General Psychology, 125 (3), 245-261.

— Tim
fonte

Grazie! Questo aiuta enormemente. Assegnerà la taglia quando sarà disponibile più tardi oggi.

— Chris Wilson,

x_{i}

$x_i$

y_{i}

$y_i$ pesi di affidabilità diversi?

— Kagaratsch,

@Kagaratsch Non ho mai visto una formula del genere. Questa è una bella domanda da porre.

— Tim