Qui sto chiedendo cosa fanno comunemente gli altri per usare il test chi quadrato per la selezione delle caratteristiche e il risultato nell'apprendimento supervisionato. Se capisco correttamente, testano l'indipendenza tra ogni caratteristica e il risultato e confrontano i valori p tra i test per ciascuna caratteristica?
In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Il test chi-quadrato di Pearson è un test statistico applicato a serie di dati categorici per valutare la probabilità che una differenza osservata tra le serie sia sorta per caso.
...
Un test di indipendenza valuta se le osservazioni accoppiate su due variabili, espresse in una tabella di contingenza , siano indipendenti l'una dall'altra (ad esempio, le risposte di polling da persone di nazionalità diverse per vedere se la propria nazionalità è correlata alla risposta).
Quindi le due variabili la cui indipendenza è testata dal test devono essere categoriche o discrete (permettendo ordinate oltre a quelle categoriche), ma non continue?
Da http://scikit-learn.org/stable/modules/feature_selection.html , essi
eseguire un test nel set di dati dell'iride per recuperare solo le due migliori caratteristiche.
Nel set di dati dell'iride , tutte le funzioni sono numeriche e valutate in modo continuo e il risultato sono etichette di classe (categoriche). Come si applica il test di indipendenza del chi quadrato alle caratteristiche continue?
Per applicare il test di indipendenza del chi quadrato al set di dati, convertiamo innanzitutto le funzionalità continue in funzionalità discrete, eseguendo il binning (ovvero prima discretizzando i domini continui delle funzionalità in bin, quindi sostituendo le funzionalità con occorrenze dei valori delle funzionalità nei bin )?
Le occorrenze in più bin formano una caratteristica multinomiale (o si verificano o meno in ogni bin), quindi il test di indipendenza chi quadrato può applicarsi a loro, giusto?
A mio modo di vedere, possiamo applicare il test di indipendenza del chi quadrato a caratteristiche e risultati di qualsiasi tipo , giusto?
Per la parte del risultato, possiamo selezionare le caratteristiche non solo per la classificazione, ma anche per la regressione, mediante il test di indipendenza del chi quadro, inserendo il risultato continuo, giusto?
Lo dice anche il sito scikit learn
Calcola le statistiche chi-quadrato tra ciascuna caratteristica e classe non negativa .
Questo punteggio può essere utilizzato per selezionare le funzioni n_features con i valori più alti per la statistica chi-quadro di prova da X, che deve contenere solo funzioni non negative come valori booleani o frequenze (ad es. Conteggi dei termini nella classificazione dei documenti), relative al classi.
Perché il test richiede funzionalità non negative?
Se le caratteristiche non hanno segni ma sono categoriche o discrete, il test può ancora applicarle? (Vedi la mia parte 1)
Se le funzionalità sono negative, possiamo sempre eseguire il bin dei loro domini e sostituirli con le loro occorrenze (proprio come quello che immagino di applicare il test al set di dati dell'iride, vedere la parte 2), giusto?
Nota: immagino che Scikit Learn segua i principi generali, ed è quello che chiedo qui. In caso contrario, va ancora bene.