Perché diversi tipi di modelli potrebbero dare risultati quasi identici?


10

Ho analizzato un set di dati di ~ 400k record e 9 variabili La variabile dipendente è binaria. Ho adattato una regressione logistica, un albero di regressione, una foresta casuale e un albero potenziato con gradiente. Tutti danno virtuale identica bontà dei numeri di adattamento quando li convalido su un altro set di dati.

Perché è così? Immagino che sia perché le mie osservazioni sul rapporto variabile sono così alte. Se questo è corretto, da quale osservazione al rapporto variabile inizieranno modelli diversi a dare risultati diversi?

Risposte:


7

Questo risultato significa che qualunque metodo tu usi, sei in grado di avvicinarti ragionevolmente alla regola di decisione ottimale (aka regola di Bayes ). Le ragioni sottostanti sono state spiegate in "Elements of Statistical Learning" di Hastie, Tibshirani e Friedman . Hanno dimostrato come si comportano i diversi metodi confrontando le Figg. 2.1, 2.2, 2.3, 5.11 (nella mia prima edizione - nella sezione sulle spline multidimensionali), 12.2, 12.3 (supportano macchine vettoriali) e probabilmente alcuni altri. Se non hai letto quel libro, devi abbandonare tutto RIGHT NOW e leggerlo. (Voglio dire, non vale la pena perdere il lavoro, ma vale la pena perdere uno o due compiti se sei uno studente.)

Non credo che le osservazioni sul rapporto variabile siano la spiegazione. Alla luce della mia logica offerta sopra, è la forma relativamente semplice del confine che separa le tue classi nello spazio multidimensionale che tutti i metodi che hai provato sono stati in grado di identificare.


Chiederò al mio capo se riesco a far pagare la compagnia.
JenSCDC,

1
ESL è 'gratuito' come pdf dalla loro homepage ... vale la pena anche scaricare ISL (di molti degli stessi autori) - più pratico www-bcf.usc.edu/~gareth/ISL
seanv507

4

vale la pena anche guardare gli errori di allenamento.

fondamentalmente non sono d'accordo con la tua analisi. se la regressione logistica ecc. sta dando tutti gli stessi risultati, suggerirebbe che il "miglior modello" è molto semplice (che tutti i modelli possono adattarsi ugualmente bene, ad esempio sostanzialmente lineari).

Quindi la domanda potrebbe essere: perché il miglior modello è un modello semplice ?: Potrebbe suggerire che le tue variabili non sono molto predittive. È ovviamente difficile da analizzare senza conoscere i dati.


1

Come suggerito da @ seanv507, le prestazioni simili potrebbero semplicemente essere dovute alla migliore separazione dei dati da un modello lineare. Ma in generale, l'affermazione che è perché le "osservazioni sul rapporto variabile è così elevato" non è corretta. Anche se il rapporto tra la dimensione del campione e il numero di variabili va all'infinito, non dovresti aspettarti che modelli diversi funzionino in modo quasi identico, a meno che non forniscano tutti lo stesso orientamento predittivo.


Ho appena modificato la mia domanda per aggiungere che la variabile dipendente è binaria. Quindi, un modello lineare non è adatto.
JenSCDC,

"non dovresti aspettarti che modelli diversi funzionino in modo quasi identico, a meno che non forniscano tutti lo stesso orientamento predittivo". Ho usato MAE e il rapporto tra risultati effettivi e previsti come misure di validazione e i rapporti erano molto vicini.
JenSCDC,

1
Andy, vorrei includere la regressione logistica (e SVM lineare) come modello "lineare". Stanno tutti semplicemente separando i dati da una somma ponderata degli input.
seanv507,

1
@ seanv507 Esatto: il limite della decisione è ancora lineare. Il fatto che venga eseguita la classificazione binaria non cambia questo.
Bogatron,

E gli alberi? Non mi sembrano davvero lineari.
JenSCDC,

0

Immagino che sia perché le mie osservazioni sul rapporto variabile sono così alte.

Penso che questa spiegazione abbia perfettamente senso.

Se questo è corretto, da quale osservazione al rapporto variabile inizieranno modelli diversi a dare risultati diversi?

Questo probabilmente dipenderà molto dai tuoi dati specifici (ad esempio, anche se le tue nove variabili sono continue, fattori, ordinari o binari), nonché da qualsiasi decisione di ottimizzazione presa durante l'adattamento del tuo modello.

Ma puoi giocare con il rapporto osservazione-variabile, non aumentando il numero di variabili, ma diminuendo il numero di osservazioni. Disegna casualmente 100 osservazioni, adatta i modelli e vedi se modelli diversi producono risultati diversi. (Immagino che lo faranno.) Fallo più volte con diversi campioni tratti dal tuo numero totale di osservazioni. Quindi guarda i sottocampioni di 1.000 osservazioni ... 10.000 osservazioni ... e così via.


1
Hm, perché? più osservazioni sembrano aumentare la possibilità che il limite di decisione sia più complesso, cioè sicuramente non lineare. E questi modelli fanno cose diverse in casi complessi e tendono a fare lo stesso in casi semplici.
Sean Owen,

@SeanOwen: penso di non capire il tuo commento. A quale parte della mia risposta si riferisce "perché è quello"? L'OP non ha detto nulla sull'uso dei confini delle decisioni lineari - dopotutto, potrebbe trasformare i predittori in qualche modo.
Stephan Kolassa,

Perché più osservazioni farebbero classificatori diversi dare decisioni più simili? la mia intuizione è l'opposto. Sì, non sto pensando solo a limiti di decisione lineari. Più complesso è il confine ottimale, meno è probabile che si adatteranno a qualcosa di simile a quel confine. E il confine tende ad essere più complesso con più osservazioni.
Sean Owen,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.