Nascondere un modello di regressione dal professore (Battaglia navale di regressione) [chiuso]


11

Sto lavorando a un compito a casa in cui il mio professore vorrebbe che noi creassimo un vero modello di regressione, simulassi un campione di dati e tenterà di trovare il nostro vero modello di regressione usando alcune delle tecniche che abbiamo imparato in classe. Allo stesso modo dovremo fare lo stesso con un set di dati che ci ha fornito.

Dice che è stato in grado di produrre un modello abbastanza preciso per tutti i tentativi passati di provare a ingannarlo. Ci sono stati alcuni studenti che hanno creato un modello folle, ma è stato probabilmente in grado di produrre un modello più semplice che era appena sufficiente.

Come posso fare per sviluppare un modello difficile da trovare per lui? Non voglio essere super economico facendo 4 termini quadratici, 3 osservazioni e una varianza enorme? Come posso produrre un set di dati apparentemente innocuo che ha un piccolo modello duro sotto di esso?

Ha semplicemente 3 regole da seguire:

  1. Il set di dati deve avere una variabile "Y" e 20 variabili "X" etichettate come "Y", "X1", ..., "X20".

  2. La variabile di risposta deve provenire da un modello di regressione lineare che soddisfa: dove e .Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ i ϵ iN ( 0 , σ 2 ) p 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Tutte le variabili utilizzate per creare sono contenute nel set di dati.YXY

Va notato che non tutte le 20 variabili X devono essere nel tuo modello reale

Stavo pensando di usare qualcosa come il Fama-French 3 Factor Model e di fargli iniziare con i dati di borsa (SPX e AAPL) e di dover trasformare quelle variabili in rendimenti costantemente composti al fine di offuscarlo un po 'di più. Ma questo mi lascia con valori mancanti nella prima osservazione ed è una serie temporale (di cui non abbiamo ancora discusso in classe).

Non sono sicuro se questo è il posto giusto per pubblicare qualcosa di simile. Ho pensato che potesse generare qualche buona discussione.

Modifica: non sto nemmeno chiedendo modelli "precostruiti" in particolare. Sono più curioso di argomenti / strumenti in Statistica che permetterebbe a qualcuno di fare questo.


4
Sarà difficile se ti sta limitando a un modello lineare ...
Frank H.

4
Se il tuo professore vince se i tuoi coefficienti reali rientrano negli intervalli di confidenza del 95%, allora la multicollinearità non ti aiuterà, perché la multicollinearità gonfia enormemente gli EC. Se, d'altra parte, la valutazione viene fatta sulla differenza tra i dati previsti e quelli effettivi su nuovi predittori (i dati "effettivi" sono stati generati usando il vero DGP), allora la multicollinearità sarà un approccio molto migliore. Bottom line: scopri qual è la funzione target e personalizza il tuo approccio ad essa. (Questo vale più in generale nella vita ...)
Stephan Kolassa,

4
@dylanjm Potresti definire con precisione le tue condizioni di vittoria?
Matthew Gunn,

11
Il punto di tale esercizio è che tu impari cercando di pensare a qualcosa da solo . Se metti gli esperti qui contro di lui, la tua opportunità di allungare il tuo cervello consolidando diverse informazioni che ti sono state date in relazione alla regressione è drasticamente ridotta (oltre ad essere ingiusta nei confronti del professore). Inoltre, in qualsiasi istituzione rispettabile che presenta un lavoro come tuo, quando è stato in parte svolto da qualcun altro, potrebbe trovarsi a metà strada tra la cattiva condotta accademica e la frode (specialmente se vale qualsiasi parte del tuo marchio). Fai molta attenzione a come lo chiedi esattamente.
Glen_b

4
Nonostante la popolarità di questa domanda, mi sento obbligato a chiuderla a questo punto perché anche dopo ripetute richieste di chiarimenti riguardanti le regole del gioco (quali criteri verranno utilizzati per valutare il successo, quanti campioni devi fornire, ecc.) Questo importante le informazioni non sono ancora apparse nella domanda. I nostri obiettivi sono più ristretti e più focalizzati rispetto a "generare discussioni": consultare il nostro centro assistenza per i tipi di domande che possiamo rivolgere su questo sito.
whuber

Risposte:


6

yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Buona fortuna a identificare la fase con questo rapporto rumore / segnale.


Questo non sembra funzionare per il criterio di vittoria CI, vero? Otterremo semplicemente enormi EC che copriranno sicuramente 1. E naturalmente una certa instabilità numerica.
Stephan Kolassa,

L'instabilità non sarà un problema, tutto ciò che sto facendo è seppellire il segnale nel rumore. Questo verrà fuori come puro rumore bianco.
Aksakal

4
questo fu considerato un modello economico indesiderabile dall'OP
Sesto Empirico

5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

YX1X1YX1X2

X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY ecc. Puoi ribattere che non era quello che ha detto, dal momento che afferma:

la variabile Y deve provenire da un modello di regressione lineare che soddisfa (...) le variabili utilizzate per creare Y (...) il tuo modello reale (...)

E potresti dare una buona discussione in classe sulla causalità, sul vero DGP e sull'identificabilità in generale.


stai proponendo un modello conforme al n. 2 nel post
Aksakal

3

Usa variabili con multicollinearità ed eteroscedasticità come il reddito rispetto all'età: fai qualche dolorosa ingegnerizzazione delle caratteristiche che fornisce problemi di ridimensionamento: dai NA ad alcuni cosparsi di scarsità. Il pezzo di linearità lo rende davvero più impegnativo, ma potrebbe essere doloroso. Inoltre, gli outlier aumenterebbero il problema per lui in anticipo.


Penso che l'eteroscedasticità esuli dall'ambito del problema, ma sono sicuramente d'accordo sul fatto che la multicollinearità sia uno dei modi migliori per rendere difficile trovare la vera specifica.
JDL


0

Scegli un modello lineare. Dagli un set di dati in cui la maggior parte dei campioni è intorno a x = 0. Dagli alcuni campioni intorno a x = 1.000.000.

La cosa bella qui che i campioni intorno a x = 1.000.000 non sono anomali. Sono generati dalla stessa fonte. Tuttavia, poiché le scale sono così diverse, gli errori intorno a 1 milione non si adattano agli errori intorno a 0.

Yi=β0+β1Xi1+ϵi

Abbiamo un set di dati di n campioni, vicino a x = 0. Sceglieremo altri 2 punti in valori "abbastanza lontani". Partiamo dal presupposto che questi due punti hanno qualche errore.

Un valore "abbastanza lontano" è tale che l'errore per una stima che non passa direttamente in questi due punti è molto più grande dell'errore del resto del set di dati.

Quindi, la regressione lineare sceglierà i coefficienti che passeranno in questi due punti e mancherà il resto del set di dati e sarà diverso dal modello sottolineato.

Vedi il seguente esempio. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Questo è in formato serie WolfarmAlpha. In ogni coppia il primo elemento è x e il secondo è stato generato in Excel usando la formula = A2 + NORMINV (RAND (), 0,2000).

β0=1,β1=1

y=178433.x426805y=x


Come dovrebbe funzionare esattamente e quale effetto dovrebbe creare?
Richard Hardy,

Funziona poiché il rumore e la precisione funzioneranno in modo diverso nelle diverse scale. Nei numeri alti, che prendono l'estremo e considerano un singolo punto, la linea dovrebbe passare direttamente attraverso di essa o subire molti costi. È sufficiente un po 'di rumore per perdere i giusti valori. Intorno allo zero, di nuovo all'estremo - nessuna inteczione, ti rimane il rumore.
DaL

Usa un valore piccolo per la variabile con il coefficiente sbagliato e stai pagando il costo.
DaL

Sì, ma perché sarebbe difficile per il professore scoprire il modello che ha generato questo? Sembra un compito particolarmente facile quando ci sono così tante variazioni nel regressore dato.
Richard Hardy,

Perché nessun modello si adatta bene ad entrambi i gruppi.
DaL
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.