Indagare sulle differenze tra le popolazioni


9

Supponiamo di avere un campione di due popolazioni: Ae B. Supponiamo che queste popolazioni siano composte da individui e scegliamo di descriverli in termini di caratteristiche. Alcune di queste funzioni sono categoriche (ad esempio, guidano per funzionare?) E alcune sono numeriche (ad esempio, la loro altezza). Chiamiamo queste funzionalità: . Raccogliamo centinaia di queste funzionalità (ad es. N = 200), supponiamo per semplicità, senza errori né rumore tra tutti gli individui.X1Xn

Ipotizziamo che le due popolazioni siano diverse. Il nostro obiettivo è rispondere alle seguenti due domande:

  1. In realtà sono significativamente diversi?
  2. Cosa c'è di significativamente diverso tra loro?

Metodi come alberi decisionali (ad es. Foreste casuali) e analisi di regressione lineare possono aiutare. Ad esempio, si potrebbe considerare l'importanza delle caratteristiche nelle foreste casuali o i coefficienti adattati nella regressione lineare per capire cosa può distinguere questi gruppi ed esplorare le relazioni tra caratteristiche e popolazioni.

Prima di percorrere questa strada, voglio avere un'idea delle mie opzioni qui, cosa è buono e moderno contro cattiva pratica. Tieni presente che il mio obiettivo non è la previsione in sé, ma testare e trovare differenze significative tra i gruppi.

Quali sono alcuni approcci di principio per affrontare questo problema?

Ecco alcune preoccupazioni che ho:

  • Metodi come l'analisi della regressione lineare potrebbero non rispondere completamente (2), giusto? Ad esempio, un singolo adattamento può aiutare a trovare alcune differenze, ma non tutte le differenze significative. Ad esempio, la multi-collinearità può impedirci di scoprire in che modo tutte le funzionalità variano tra i gruppi (almeno in un singolo adattamento). Per lo stesso motivo, mi aspetto che ANOVA non sia in grado di fornire una risposta completa a (2).

  • Non è del tutto chiaro come risponderebbe un approccio predittivo (1). Ad esempio, quale funzione di perdita di classificazione / previsione dovremmo minimizzare? E come possiamo verificare se i gruppi sono significativamente diversi una volta che ci siamo adattati? Infine, temo che la risposta a cui arrivo (1) possa dipendere dal particolare insieme di modelli di classificazione che utilizzo.

Risposte:


5

Pensiamo al problema come segue.

Dì e è una variabile binaria che indica la popolazione: significa prima popolazione, significa seconda popolazione. L'ipotesi nulla può essere espressa in diversi modi equivalenti:Y Y = 0 Y = 1X=(X1,X2,..Xn)YY=0Y=1

  • H0 : le popolazioni sono uguali
  • X Y = 0 X Y = 1H0 : la distribuzione di dato è uguale alla distribuzione di datoXY=0XY=1
  • X YH0 : e sono indipendentiXY
  • f { 0 , 1 } f ( X ) YH0 : per qualsiasi funzione in , e sono indipendentif{0,1}f(X)Y

Non so molto sulle foreste casuali, ma possono essere pensate come un predittore per tutti gli usi che evita un eccesso di adattamento. Se li idealizziamo un po ': è qualcosa in grado di rilevare qualsiasi tipo di relazione tra e qualsiasi tipo di funzionalità senza adattamento eccessivo.XYX

È possibile provare qualcosa basato su questo. Dividi il set di dati originale in un set di allenamento e un set di test. Poi:

  • addestrare una foresta casuale che prevede da sul set di allenamento.Y XfYX
  • eseguire un semplice test di indipendenza chi-quadrato (con rischio ) tra e sul set di testf ( X ) Yαf(X)Y

Questo test è abbastanza conservativo. Se la foresta casuale è un metodo scadente, nella peggiore delle ipotesi emette una stupida , quindi rifiuterà comunque con una probabilità inferiore a (quando è vero). L'eccessivo adattamento non sarebbe nemmeno un problema poiché utilizziamo un test e un set di allenamento. Tuttavia, la potenza del test dipende direttamente dall'intelligenza del metodo di foresta casuale (o di qualsiasi predittore utilizzato).H 0 α H 0f(X)H0αH0

Nota che puoi usare diversi possibili predittori: come prima la semplice vecchia regressione logistica, quindi la regressione logistica con alcune caratteristiche trasversali, poi alcuni alberi decisionali, quindi una foresta casuale ... Ma se lo fai dovresti adattare al numero di test per evitare "false scoperte". Vedi: Regolazione alfa per test multipliα


Grazie Benoit (+1). Questo sembra applicabile alla domanda (1). Qualche idea su come affrontare (2) con questo o un approccio alternativo?
Amelio Vazquez-Reina,

Come sottolineato da DJohnson, la RF non è interpretabile. La regressione logistica può essere (con almeno singole funzionalità). Dipende davvero dal predittore. Seguendo un'idea vicina alla RF, è possibile usare molti alberi decisionali (casuali) (con un ben regolato ) e visualizzare l'albero con il valore p più piccolo (= migliore). α
Benoit Sanchez,

Grazie. Mi piace il suggerimento di adattare DT casuali e trovare quelli con il risultato più significativo in un test simile al chi-quadrato. Suppongo che ti riferisci alle correzioni Bonferroni quando hai menzionato l'utilizzo di un ben regolato . In che modo sarebbe diverso dall'uso delle RF e dal test di ogni albero? α
Amelio Vazquez-Reina,

Inoltre, la mia speranza con le RF è di identificare le caratteristiche che catturano le differenze (cioè ottenere almeno una risposta parziale a (2)). Non sono ideali per l'interpretabilità (anche se presumo che si possa farlo limitando la loro altezza). In entrambi i casi, lo stesso si può dire dei DT, giusto? Mi sto solo assicurando di capire bene il tuo commento.
Amelio Vazquez-Reina,

Sì, mi riferisco a Bonferroni. Con RF si crea un singolo predittore calcolando la media di molti DT. Quindi fai un singolo test con questa media, non con tutti i DT, con conseguente rischio . Con diversi DT si effettuano test con conseguente rischio (a meno che non si utilizzi Bonferroni). Questo deve essere considerato come un test multiplo mentre (una singola) media RF di molti DT è un singolo test. n 1 - ( 1 - α ) nαn1(1α)n
Benoit Sanchez,

3

Non dici quante funzioni sono disponibili nei dati. Pochi, molti, enormi? Possiamo supporre che abbiano le stesse caratteristiche tra le popolazioni, tutte misurate usando gli stessi strumenti, metodi e modalità? In caso contrario, hai un problema più grande in cui un modello di misurazione degli errori nelle variabili potrebbe funzionare.

@benoitsanchez sembra aver risposto alla domanda n. 1).

Wrt # 2), non sono sicuro che le RF possano aiutare. Utilizzando un modello più formale come ANOVA unidirezionale applicato a una caratteristica alla volta, è possibile sviluppare un test della differenza tra le popolazioni per caratteristiche. Riassumendo i risultati di questi test, in base alla grandezza del test e al suo significato, diventa possibile un profilo descrittivo di come le popolazioni differiscono tra le caratteristiche. Questa è certamente una soluzione euristica e ad hoc che potrebbe non essere abbastanza rigorosa per i tuoi gusti, preferenze e allenamento.

Non essendo bravo nella notazione di tipo Latex, lasciatemi semplicemente descrivere come potrebbero funzionare questi test: in primo luogo, costruisci una sorta di ciclo macro che passi attraverso tutte le funzionalità, una funzione alla volta. Ad ogni passaggio del loop, la nuova funzionalità diventa il target o DV con X costituito da una variabile fittizia per popolazione e da tutte le variabili di controllo appropriate. Assicurarsi che vengano utilizzati gli stessi controlli per ciascuna funzionalità e che i dati sottostanti siano esattamente gli stessi per tutti gli ANOVA, eliminando le variazioni attribuibili alle vicissitudini dei campioni di dati finiti. Aggrega i valori del test F per la variabile fittizia per ogni funzione. Ciò fornirà una metrica standardizzata che consente il confronto tra funzionalità. I test F sono preferibili ai beta montati rispetto ai betanon sono standardizzati, essendo espressi nell'unità e negli sviluppatori standard di ogni singola caratteristica.

Il tuo ultimo commento, "Temo che la risposta a cui arrivo (1) possa dipendere dal particolare insieme di modelli di classificazione / regressione che utilizzo", è sempre vero. È molto probabile che le risposte possano variare in funzione del modello o dei modelli utilizzati. È anche espressione di un malessere comunemente osservato tra gli statistici più fortemente teorici e di formazione classica che non si sentono a proprio agio o hanno difficoltà a riconoscere la natura non deterministica della modellistica statistica applicata. Un eccellente antidoto per questi sintomi è il recente libro Computer Age Statistical Inference di Efron e Hastie . Portano la modellistica statistica nella XXI secolo, un'era della scienza dei dati e dell'apprendimento automatico, riconoscendo candidamente la natura iterativa, approssimativa ed euristica di tuttimodelli in possesso di un termine di errore. Non si deve essere bayesiani per riconoscere la verità inerente a questa osservazione. La loro è una prospettiva rinfrescante che differisce dal rigido determinismo della pratica statistica classica del 20 ° secolo che ha alzato le mani quando, ad esempio, una matrice tra prodotti non si è invertita e / o non è stata assunta alcuna ipotesi di modello pedante.


Grazie @Johnson. Quando hai detto "Aggrega i valori del test F per la variabile fittizia per ogni caratteristica" cosa intendi esattamente? cioè cosa faresti esattamente con questo risultato? Inoltre, cosa intendi con beta in questo contesto? Infine, questo approccio iterativo non si limiterebbe a nessuna interazione? Ad esempio, usando l'esempio originale, cosa succede se c'è una differenza significativa nell '"altezza delle persone che guidano al lavoro?"
Amelio Vazquez-Reina,

Inoltre, perché dovresti procedere con una sequenza di test ANOVA a 1 via anziché fare ANOVA a più vie?
Amelio Vazquez-Reina,

2
Buone domande. In termini di profilo descrittivo risultante, stavo pensando di registrare semplicemente il test F e il significato associato o i valori p per ciascuna caratteristica e quindi classificarli dall'alto verso il basso. Poiché il test F è un rapporto di chi-quadrati e non è quindi simmetrico, i mezzi della popolazione potrebbero essere aggiunti al rapporto per aiutare a comprendere la direzionalità dei risultati. In alternativa, un test t potrebbe aiutare in questa comprensione. Questo profilo aiuterebbe a comprendere sia l'entità che la forza delle caratteristiche in funzione delle popolazioni sottostanti.
Mike Hunter,

Come notato, le variabili di controllo dovrebbero essere aggiunte come appropriato. Questi potrebbero includere interazioni, purché siano costantemente utilizzate su tutti i modelli. L'introduzione di ulteriori fattori, per definizione, estenderebbe il modello dalla regressione unidirezionale alla regressione multipla o all'ANOVA.
Mike Hunter,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.