Per quale tipo di selezione delle funzioni è possibile utilizzare il test Chi square?


11
  1. Qui sto chiedendo cosa fanno comunemente gli altri per usare il test chi quadrato per la selezione delle caratteristiche e il risultato nell'apprendimento supervisionato. Se capisco correttamente, testano l'indipendenza tra ogni caratteristica e il risultato e confrontano i valori p tra i test per ciascuna caratteristica?

  2. In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    Il test chi-quadrato di Pearson è un test statistico applicato a serie di dati categorici per valutare la probabilità che una differenza osservata tra le serie sia sorta per caso.

    ...

    Un test di indipendenza valuta se le osservazioni accoppiate su due variabili, espresse in una tabella di contingenza , siano indipendenti l'una dall'altra (ad esempio, le risposte di polling da persone di nazionalità diverse per vedere se la propria nazionalità è correlata alla risposta).

    Quindi le due variabili la cui indipendenza è testata dal test devono essere categoriche o discrete (permettendo ordinate oltre a quelle categoriche), ma non continue?

  3. Da http://scikit-learn.org/stable/modules/feature_selection.html , essi

    eseguire un test nel set di dati dell'iride per recuperare solo le due migliori caratteristiche.χ2

    Nel set di dati dell'iride , tutte le funzioni sono numeriche e valutate in modo continuo e il risultato sono etichette di classe (categoriche). Come si applica il test di indipendenza del chi quadrato alle caratteristiche continue?

    Per applicare il test di indipendenza del chi quadrato al set di dati, convertiamo innanzitutto le funzionalità continue in funzionalità discrete, eseguendo il binning (ovvero prima discretizzando i domini continui delle funzionalità in bin, quindi sostituendo le funzionalità con occorrenze dei valori delle funzionalità nei bin )?

    Le occorrenze in più bin formano una caratteristica multinomiale (o si verificano o meno in ogni bin), quindi il test di indipendenza chi quadrato può applicarsi a loro, giusto?

    A mio modo di vedere, possiamo applicare il test di indipendenza del chi quadrato a caratteristiche e risultati di qualsiasi tipo , giusto?

    Per la parte del risultato, possiamo selezionare le caratteristiche non solo per la classificazione, ma anche per la regressione, mediante il test di indipendenza del chi quadro, inserendo il risultato continuo, giusto?

  4. Lo dice anche il sito scikit learn

    Calcola le statistiche chi-quadrato tra ciascuna caratteristica e classe non negativa .

    Questo punteggio può essere utilizzato per selezionare le funzioni n_features con i valori più alti per la statistica chi-quadro di prova da X, che deve contenere solo funzioni non negative come valori booleani o frequenze (ad es. Conteggi dei termini nella classificazione dei documenti), relative al classi.

    Perché il test richiede funzionalità non negative?

    Se le caratteristiche non hanno segni ma sono categoriche o discrete, il test può ancora applicarle? (Vedi la mia parte 1)

    Se le funzionalità sono negative, possiamo sempre eseguire il bin dei loro domini e sostituirli con le loro occorrenze (proprio come quello che immagino di applicare il test al set di dati dell'iride, vedere la parte 2), giusto?

Nota: immagino che Scikit Learn segua i principi generali, ed è quello che chiedo qui. In caso contrario, va ancora bene.

Risposte:


2

Penso che parte della tua confusione riguardi quali tipi di variabili può confrontare un chi-quadrato. Wikipedia dice quanto segue al riguardo:

Verifica un'ipotesi nulla affermando che la distribuzione in frequenza di determinati eventi osservati in un campione è coerente con una particolare distribuzione teorica.

Quindi confronta le distribuzioni di frequenza , note anche come conteggi, note anche come numeri non negativi. Le diverse distribuzioni di frequenza sono definite dalla variabile categoriale; cioè per ciascuno dei valori di una variabile categoriale deve esserci una distribuzione di frequenza che può essere confrontata con le altre.

Esistono diversi modi per ottenere la distribuzione della frequenza. Potrebbe provenire da una seconda variabile categoriale in cui le co-occorrenze con la prima variabile categoriale vengono conteggiate per ottenere una distribuzione discreta della frequenza. Un'altra opzione è quella di utilizzare una (multipla) variabile numerica per valori diversi di una variabile categoriale, può (es.) Sommare i valori della variabile numerica. Infatti, se le variabili categoriali vengono binarizzate, la prima è una versione specifica della successiva.

Esempio

Ad esempio, guarda questi insiemi di variabili:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Le variabili categoriali xe ypossono essere confrontati per conteggio delle co-occorrenze, e questo è ciò che accade con un test chi-quadro:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Tuttavia, puoi anche binarizzare i valori di 'x' e ottenere le seguenti variabili:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Il conteggio dei valori è ora uguale alla somma dei valori che corrispondono al valore di z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Come puoi vedere una singola variabile categoriale ( x) o più variabili numeriche ( x1e x2) sono ugualmente rappresentate nella tabella di contingenza. Quindi i test chi-quadrati possono essere applicati su una variabile categoriale (l'etichetta in sklearn) combinata con un'altra variabile categoriale o più variabili numeriche (le caratteristiche di sklearn).


Quindi, se la selezione delle funzionalità di chi_square può essere utilizzata solo per le funzionalità non negative (freq, count, ect), che cosa significa per una situazione in cui esiste una funzione con valori negativi? Trasforma la funzionalità o utilizza un altro metodo di selezione delle funzionalità? Supponiamo di aver fatto nuove ricerche sull'Iris Dataset e di avere una funzione che misurava ogni giorno la variazione della lunghezza del sepal. Alla fine e ci sarebbero valori negativi. La pianta appassirebbe e si restringerebbe dando un cambiamento negativo di lunghezza. Forse stiamo cercando di classificare quale pianta è per quanto velocemente appassisce o qualcosa del genere.
Arash Howaida,

1
Il chi-quadrato si basa sulla proporzione di valori (ovvero la distribuzione della frequenza). Questo viene implementato sommando i valori della funzione (binarizzata). Quindi la parte dell'intera somma dovrebbe avere un significato. Con valori negativi non è così.
Pieter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.