Supponiamo di avere un campione di due popolazioni: A
e B
. Supponiamo che queste popolazioni siano composte da individui e scegliamo di descriverli in termini di caratteristiche. Alcune di queste funzioni sono categoriche (ad esempio, guidano per funzionare?) E alcune sono numeriche (ad esempio, la loro altezza). Chiamiamo queste funzionalità: . Raccogliamo centinaia di queste funzionalità (ad es. N = 200), supponiamo per semplicità, senza errori né rumore tra tutti gli individui.
Ipotizziamo che le due popolazioni siano diverse. Il nostro obiettivo è rispondere alle seguenti due domande:
- In realtà sono significativamente diversi?
- Cosa c'è di significativamente diverso tra loro?
Metodi come alberi decisionali (ad es. Foreste casuali) e analisi di regressione lineare possono aiutare. Ad esempio, si potrebbe considerare l'importanza delle caratteristiche nelle foreste casuali o i coefficienti adattati nella regressione lineare per capire cosa può distinguere questi gruppi ed esplorare le relazioni tra caratteristiche e popolazioni.
Prima di percorrere questa strada, voglio avere un'idea delle mie opzioni qui, cosa è buono e moderno contro cattiva pratica. Tieni presente che il mio obiettivo non è la previsione in sé, ma testare e trovare differenze significative tra i gruppi.
Quali sono alcuni approcci di principio per affrontare questo problema?
Ecco alcune preoccupazioni che ho:
Metodi come l'analisi della regressione lineare potrebbero non rispondere completamente (2), giusto? Ad esempio, un singolo adattamento può aiutare a trovare alcune differenze, ma non tutte le differenze significative. Ad esempio, la multi-collinearità può impedirci di scoprire in che modo tutte le funzionalità variano tra i gruppi (almeno in un singolo adattamento). Per lo stesso motivo, mi aspetto che ANOVA non sia in grado di fornire una risposta completa a (2).
Non è del tutto chiaro come risponderebbe un approccio predittivo (1). Ad esempio, quale funzione di perdita di classificazione / previsione dovremmo minimizzare? E come possiamo verificare se i gruppi sono significativamente diversi una volta che ci siamo adattati? Infine, temo che la risposta a cui arrivo (1) possa dipendere dal particolare insieme di modelli di classificazione che utilizzo.