Domanda di intervista per data scientist: regressione lineare bassa


10

Ho affrontato una domanda di intervista per un lavoro in cui l'intervistatore mi ha chiesto supponiamo che il tuo sia molto basso (tra il 5 e il 10%) per un modello di elasticità dei prezzi. Come risolveresti questa domanda?R2

Non potevo pensare a nient'altro che al fatto che eseguirò la diagnostica di regressione per vedere cosa è andato storto o se dovrebbe essere applicato un metodo non lineare. In qualche modo penso che l'intervistatore non fosse soddisfatto della mia risposta. C'è qualcos'altro che viene fatto in uno scenario simile per adattarsi a un modello e usarlo per la previsione del livello di produzione nonostante abbia un basso ?R2

Modifica : In una fase successiva mi hanno dato i dati per modellare il problema durante l'intervista e ho provato ad aggiungere variabili ritardate, impatto del prezzo della concorrenza, manichini della stagionalità per vedere se faceva differenza. andato al 17,6 percento e le sue prestazioni sul campione di controllo erano scarse. Personalmente ritengo poco etico mettere un simile modello per la previsione in un ambiente dal vivo in quanto darà risultati errati e comporterà la perdita dei clienti (immagina di utilizzare le raccomandazioni sui prezzi di un tale modello sulle entrate della tua azienda!). C'è qualcos'altro che viene fatto in tali scenari che è troppo ovvio che tutti devono sapere? Qualcosa di cui non sono a conoscenza, che sono tentato di dire "un proiettile d'argento"?R2

Inoltre, immaginiamo che dopo l'aggiunta della variabile esogena migliora ulteriormente del 2%, allora cosa si può fare in questo scenario? Dovremmo scartare il progetto di modellazione o c'è ancora qualche speranza di sviluppare un modello di qualità a livello di produzione che è indicato dalle prestazioni sul campione di controllo?R2

Edit2 : ho pubblicato questa domanda nel forum economics.stackexchange.com per comprendere questo problema dal punto di vista economico


12
"Supponiamo che la tua sia molto bassa (tra il 5 e il 10%) per un modello di elasticità dei prezzi" non è una domanda . La mia risposta a "supponiamo che la tua R 2 sia molto bassa (tra il 5 e il 10%) per un modello di elasticità dei prezzi" sarebbe "ok, fatto". Posso supporre che nessun problema, quindi non c'è altro da fare. Se davvero non fossero imminenti, avrei dovuto chiedere quale aspetto di quello consideravano un problema da risolvere. In loro assenza, quale vedi come il problema qui? R2R2
Glen_b

1
L'ho taggato per studio personale @Glen_b fammi sapere se devo aggiungere ulteriori dettagli. Grazie!
Entusiasta

2
Grazie, è una buona cosa da fare. Ma maggiori dettagli includeranno la vera domanda che dovevi risolvere. "Supponiamo che X" presenti una situazione che non ti chiede di risolvere nulla.
Glen_b

1
Pubblicazione incrociata su economics.stackexchange.com/q/16617 . Prova a decidere il sito migliore per una domanda: se ritieni che valga la pena personalizzare le varianti per siti diversi, continua a collegarle.
Scortchi - Ripristina Monica

1
@Scortchi, ho aggiunto il link come modifica aggiuntiva in entrambi i forum. Grazie!
Entusiasta

Risposte:


11

E se guardassimo il problema da questa prospettiva. L'elasticità del prezzo è il rapporto tra domanda e prezzo di un prodotto.

Quando r-square in questa situazione è basso, potremmo quindi implicare che il rapporto tra prezzo e domanda per quel particolare prodotto non è forte.

Dal punto di vista dei prezzi potrebbe significare che hai trovato un prodotto per il quale puoi stabilire un prezzo arbitrario senza un grande impatto sulla domanda O che la domanda è piuttosto irregolare nonostante i prezzi differenziali.

Se guardi i prodotti Veblen , sono esempi in cui l'elasticità è inversa. All'aumentare del prezzo, aumenta la domanda.

Se, d'altra parte, r-square è basso, potrebbe semplicemente significare una categoria di prodotto per cui il prezzo è relativamente irrilevante quando si tratta di domanda. Della parte superiore della mia testa, un farmaco antitumorale potrebbe essere qualcosa che potrebbe aderire a questa proprietà. Laddove l'importanza del farmaco supera il prezzo che comanda e non può mostrare alcun cambiamento nella domanda.

E, in conclusione, suppongo che l'intento dell'intervistatore sarebbe stato quello di giudicare se sapessi cosa significasse l'implicazione di un basso r-quadrato invece di scoprire come costruire un modello migliore con un r-quadrato più alto.


+1 per la conclusione. Penso anche che lo scopo di questa domanda sia cercare di vedere se il candidato persegue ciecamente una metrica senza comprenderla appieno.
Haitao Du,

5

Non sono sicuro di cosa cercasse l'intervistatore, ma di fronte a un modello scarsamente preformato sono queste le cose che considero e una risposta che mi piacerebbe sentire come intervistatore (intervista da un paio d'anni ormai).

  1. Ottenere più dati : questo potrebbe non essere sempre utile, ma ci sono alcune cose che possono aiutarti a valutare gli effetti di questa soluzione:

    • Esegui il modello con dimensioni del campione diverse: se i risultati migliorano con più dati, è ragionevole supporre che ottenere più dati continuerà a migliorare le prestazioni del modello.
    • Rapporto caratteristiche / campione: dopo aver selezionato le caratteristiche, prova a capire se hai abbastanza campioni per ogni valore di funzione. Vedi una domanda con risposta su questo argomento .
    • Valori target mancanti: l'elasticità potrebbe non comportarsi in modo simile tra fasce di prezzo diverse. In una situazione in cui i dati dei campioni sono distorti verso un intervallo specifico, è possibile che non si riesca a generalizzare (ad esempio il 90% dei campioni è per prezzi compresi tra 0-10 e l'altro 10% per prezzi compresi tra 1000-10000). Ci sono modi per affrontare questo problema oltre a ottenere più dati (dividere la formazione del modello, non usare la regressione).
  2. Migliore ingegneria delle funzionalità : se disponi di dati sufficienti e conosci l'apprendimento profondo, forse questo è irrilevante. Nel caso in cui non soddisfi i criteri indicati, concentra i tuoi sforzi su questo. Nei modelli di comportamento degli utenti, ci sono molte relazioni che la nostra intuizione umana comprende meglio di un modello addestrato meccanicamente.
    Come nel tuo caso in cui hai progettato un paio di funzionalità in più e migliorato notevolmente le prestazioni del modello. Questo passaggio è soggetto a errori poiché di solito comporta un codice basato sulla logica (se altro / formule matematiche).

  3. Migliore selezione del modello : come hai suggerito, forse un modello non lineare funzionerà meglio. I tuoi dati sono omogenei? Hai motivi per credere che le caratteristiche trasversali spiegheranno meglio l'elasticità dei prezzi? (stagionalità * prezzo del concorrente).

  4. Ottimizzazione dei parametri iper: i parametri iper del modello di ricerca in griglia (+ risultati con convalida incrociata) sono una buona pratica, ma per quanto riguarda la mia esperienza raramente migliorano notevolmente le prestazioni (sicuramente non dal 5% al ​​90%).

Ci sono più cose che si possono fare, ma questi punti sono abbastanza generici.


1

Oltre a quanto suggerito da @DaFanat e @Arun, vorrei aggiungere che alcune ispezioni visive potrebbero aiutare.

R2


Grazie per aver condiviso l'input specifico del dominio in quanto questo è davvero un problema di gestione delle entrate
Entusiasta
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.