Ho il seguente dataframe panda Top15
:
Creo una colonna che stima il numero di documenti citabili per persona:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Voglio conoscere la correlazione tra il numero di documenti citabili pro capite e l'approvvigionamento energetico pro capite. Quindi utilizzo il .corr()
metodo (correlazione di Pearson):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Voglio restituire un singolo numero, ma il risultato è:
.corr
direttamente al tuo dataframe, restituirà tutte le correlazioni a coppie; ecco perché poi osservi 1s sulla diagonale della tua matrice (ogni colonna è perfettamente correlata con se stessa). Vedi la mia modifica di seguito.