Domande sulle interviste statistiche


65

Sto cercando alcune domande di interviste statistiche (e di probabilità, immagino), dalle più elementari alle più avanzate. Le risposte non sono necessarie (anche se i collegamenti a domande specifiche su questo sito andrebbero bene).



Sarebbe molto interessante se qualcuno potesse dare esempi che si sono dati quando sono stati intervistati ...
kjetil b halvorsen

Risposte:


40

Non sono sicuro di quale sia il lavoro, ma penso che "Spiegare x a un novizio" probabilmente sarebbe buono-

a) perché probabilmente dovranno farlo nel lavoro

b) è una buona prova di comprensione, credo.


8
(+1): Non riesco a contare le volte in cui pensavo di aver capito qualcosa, ma poi non sono riuscito a spiegarlo a qualcun altro in parole semplici. Esempio: p-value;)
steffen,

6
"Se non riesci a spiegarlo a un bambino di sei anni, probabilmente non lo capisci da solo" - Albert Einstein. Forse non così estremo, ma ottieni il punto ... :)
JM non è uno statistico il

1
Mi piace "Spiega un valore p", con o senza la parte "a un principiante".
Shabbychef,

ecco perché la validazione incrociata è ottima. molte domande e risposte "laiche".
Neil McGuigan,

Davvero un buon consiglio se stai intervistando o no!
JMS,

21

Lo standard Q in cui lavoro è sulla falsariga di:

Dai un'occhiata a questo output di una regressione logistica multipla da un pacchetto statistico che ritieni di aver usato (preferibilmente uno che usiamo anche noi). XXX è la variabile indipendente di interesse principale. In che modo interpreti i risultati per un collega con conoscenza dell'argomento ma nessuna formazione statistica formale? (Se necessario, richiedere un'interpretazione separata della stima puntuale, CI, valore p).


15
In più contesti accademici ci si potrebbe anche chiedere: 'dai un'occhiata a questo modello prodotto in questo documento che tu (co) hai creato . Dimmi cosa significa. " Le risposte deludenti sono quindi fatali perché non ci sono scuse di familiarità disponibili, ma purtroppo comuni.
conjugateprior,

4
@conjugateprior Non vero. Finché c'è almeno un coautore che non è presente, è stata l'area del coautore non presente. L'uso principale di questa tecnica è nelle presentazioni alla conferenza.
Mark L. Stone,

18

Potresti anche voler riflettere se l'intervista è il mezzo migliore per misurare il costrutto di interesse. Se si desidera misurare la conoscenza preliminare della probabilità o delle statistiche, è meglio fare affidamento maggiormente su una prova scritta. È possibile porre più domande e quindi aumentare l'affidabilità della misurazione. È più standardizzato sia nell'amministrazione che nel punteggio. E una volta sviluppato lo strumento, probabilmente utilizza meno risorse per amministrare.

È quindi possibile utilizzare l'intervista come uno strumento più mirato alla ricerca di fattori come le abilità verbali e interpersonali.


1
Questo è un buon punto. Ho scoperto in passato che è molto difficile dire se un determinato candidato funzionerà, a meno che tu non abbia lavorato con loro in passato.
Shabbychef,

15

Sono state poste due domande:

1) Adatti una regressione multipla per esaminare l'effetto di una particolare variabile a cui un lavoratore in un altro reparto è interessato. La variabile ritorna insignificante, ma il tuo collega dice che ciò è impossibile in quanto è noto che ha un effetto. Cosa vorresti dire / fare?

2) Hai 1000 variabili e 100 osservazioni. Vorresti trovare le variabili significative per una risposta particolare. Cosa faresti?


Potresti pubblicare anche le risposte? Per 1) suppongo che potrebbero esserci alcune variabili dipendenti che causano il problema. Per 2) Probabilmente farei un test statistico di χ² (chi-quadrato)
Rishi Dua,

2
Ci sono molte risposte ragionevoli ad entrambi, ecco i miei pensieri rapidi: 1) il modello di regressione è da un campione, questo campione ha una variazione casuale e quindi il modello è solo una stima e può causare errori di tipo 1 o di tipo 2. Potrebbe esserci anche una forte collinearità tra i predittori. Per 2) è il problema P grande vs N piccolo. Esistono molte tecniche per gestire questa situazione, come la riduzione delle dimensioni e del Lazo.
Glen,

2) eseguire adattamenti univariati delle variabili e identificare quelli che sono più significativi per ridurre l'insieme delle variabili
adam

11

Ecco un grande set di dati. Qual è il tuo piano per gestire i valori anomali? Che ne dici di valori mancanti? Che ne dici di trasformazioni?

Possono gestire i dati del mondo reale?


Caro utente anonimo, ti preghiamo di non utilizzare la modifica per i commenti (non è per te, Neil).

10

Molte domande / risposte su questo sito potrebbero dare idee per buone domande. Darò un elenco con alcuni di questi collegamenti che ritengo siano buoni. I post a cui ho risposto sono sovrarappresentati, perché conosco meglio quei post, non perché sono necessariamente i migliori! Fornisco brevi commenti a ciascun link, così puoi decidere se vuoi seguire il link.

Qual è l'intuizione dietro SVD? "Puoi spiegare a uno dei nostri clienti come funziona SVD?"

Stima della massima verosimiglianza (MLE) in termini profani "Puoi spiegare in un linguaggio non tecnico l'idea della stima della massima verosimiglianza?"

Taleb e il cigno nero "Dimmi, cos'è un cigno nero e perché è rilevante? Quando è rilevante?"

Inferenza statistica quando il campione "è" la popolazione "Cosa si può dire dell'inferenza statistica quando il campione è l'intera popolazione?"

Bontà di adattamento e quale modello scegliere la regressione lineare o Poisson "Abbiamo un problema di regressione in cui la risposta è una variabile di conteggio. Quale sceglieresti in questo contesto, minimi quadrati ordinari o regressione di Poisson (o forse un altro)? Spiega la tua scelta , quali sono le principali differenze tra questi modelli? "

Qual è la differenza tra varianza finita e infinita "Puoi spiegare, in una lingua quanto più semplice possibile, che cosa significa per una variabile casuale avere aspettative infinite o varianza infinita? Qual è l'importanza pratica di questa distinzione? Spiega con un esempio."

Quali sono le alternative moderne e facilmente utilizzabili alla regressione graduale? "Come costruiresti un complesso modello di regressione quando ci sono molte possibili variabili predittive? Descrivi diverse possibili strategie e racconta i problemi con ognuna di esse"

Come affrontare la perfetta separazione nella regressione logistica? "Qual è il problema della separazione nella regressione logistica, le sue cause, i sintomi? Cosa puoi fare per risolverlo, se è davvero un problema?"

Perché la matrice di correlazione deve essere semi-definita positiva e cosa significa essere o meno semi-definita positiva? e
cosa mi dice una matrice di covarianza definita non positiva sui miei dati? "Spiega perché una matrice di covarianza deve essere positiva (semi) definita e cosa significa. Come può essere usato quel fatto?"

Quali sono le versioni multidimensionali della mediana "Puoi proporre un modo per generalizzare la mediana ai dati multivariati?"

Interpretazione dei termini di interazione nella regressione del logit con variabili categoriali e Quali sono le migliori pratiche per identificare gli effetti di interazione? e due effetti principali negativi ma effetti di interazione positivi? e Includere l'interazione ma non i principali effetti in un modello e Come interpretare gli effetti principali quando l'effetto di interazione non è significativo? "Spiegare cosa si intende per interazione nei modelli di regressione. In particolare, cosa significa se l'interazione è significativa mentre gli effetti principali non lo sono? C'è qualche differenza nell'interpretazione dell'interazione tra regressione lineare ordinaria e regressione logistica?"

Quale potrebbe essere la ragione per usare la trasformazione della radice quadrata sui dati? e appropriata trasformazione dei dati "Quando, come e perché trasformi la variabile di risposta in un modello di regressione (o ANOVA)? Ci sono alternative?

Posso fidarmi dei risultati ANOVA per un DV non distribuito normalmente? "Come tratteresti un ANOVA con residui non normali?

Perché le statistiche sono utili quando molte cose che contano sono un colpo solo?

Come posso modellare efficacemente la somma delle variabili casuali di Bernoulli?

Quando utilizzare equazioni di stima generalizzate rispetto a modelli di effetti misti?

Cosa sta succedendo qui, quando utilizzo la perdita quadrata nell'impostazione della regressione logistica? "Perché utilizziamo la massima verosimiglianza per la regressione logistica? Perché non i minimi quadrati?"


9

Mi è stato chiesto una volta come avrei spiegato la pertinenza del teorema del limite centrale a una classe di matricole nelle scienze sociali che a malapena hanno conoscenza delle statistiche.


4
L'importanza del teorema del limite centrale è di far pensare alle persone che tutto sia normale, mentre in realtà nulla lo è. E quindi porta a molte conclusioni errate.
Mark L. Stone,


8

Come si evita l'adattamento eccessivo quando si crea un modello statistico?

Buona risposta: convalida incrociata


6

Spesso chiedo "come definiresti / spiegheresti cos'è la previsione?"

La risposta a quel tipo di domanda molto generale mi aiuta a vedere se le persone sono collegate a un caso particolare di previsione. Non c'è una risposta giusta ma rispondere sinteticamente durante un'intervista non è sempre facile :)


5

Per un contesto di dati osservativi:

Considera questo modello di regressione applicato a questo problema sostanziale. Cosa, se non altro, può essere interpretato causalmente? [Ulteriore indagine] Cosa dovresti imparare per cambiare opinione?


4

Come conteggi il numero di alberi di legno di sandalo a Bangalore?


1
È inteso come una specie di domanda di Fermi ?
Thies Heidecke,

2
Buona domanda. Ho usato una versione di questo in classe (alberi in un parco). Hanno l'idea del campionamento, ma tendono a perdere la necessità di una definizione operativa: quando inizi a chiamarlo albero?
zbicyclist,

4

Sotto l'intestazione Causazione vs correlazione :

È comune utilizzare il coinvolgimento cliente / utente come funzionalità per un modello predittivo. Ad esempio, le persone che fanno clic su questo pulsante hanno maggiori probabilità di abbonarsi rispetto alle persone che non lo fanno. Le persone che acquistano il lunedì hanno maggiori probabilità di acquistare di nuovo rispetto a quelle che acquistano il martedì.

Se lo portiamo all'estremo: gli utenti che fanno clic su "acquista" hanno maggiori probabilità di acquistare un prodotto rispetto agli utenti che non fanno clic su acquisto.

Ma ovviamente non è molto utile per spiegare perché alcuni utenti si iscrivono e altri no.

Come farebbe a bilanciare utilizzando le funzionalità del cliente che spiegano perché si abbonano rispetto a quelle che sono altamente correlate con l'abbonamento, ma che sono necessarie per svolgere l'attività?


3

Ecco un set di TinkerToy . Mostrami come funziona la distanza euclidea in tre dimensioni. Ora mostrami come funziona la regressione multipla.

Possono spiegare come funzionano le statistiche nel mondo fisico?


1
NN

1
se vuoi spargere due variabili con 100 osservazioni, hai solo bisogno di 2 dimensioni, non 100 :) e così via
Neil McGuigan,

3

Gestiamo un centro di assistenza clienti. Riceviamo 1 milione di chiamate al mese. Come lo riduciamo a diecimila?


5
rimuovi il 99% dei tuoi telefoni!
Shabbychef,

5
Smetti di pagare la bolletta del telefono.
Glen,

3
Supporta una commissione per la chiamata. (un numero di 900 negli Stati Uniti ...)
gWaldo

7
Questa domanda è circa 80-20 regola. È una regola empirica comune negli affari; ad es. "L'80% delle vendite proviene dal 20% dei clienti". Microsoft ha osservato che correggendo il 20% dei bug più segnalati, sarebbe stato eliminato l'80% degli errori e degli arresti anomali. Quindi significherebbe impostare una FAQ per identificare l'indirizzo di questo 20% dei problemi
Rishi Dua,

3

Molte delle domande che poniamo sono simili a quelle che sono già state descritte. Ma alcuni che non ho ancora letto, che vengono utilizzati: potrebbe essere chiesto di disegnare un programma su una lavagna per fare qualcosa del genere: simulare un lancio di dadi o altri problemi di probabilità o calcolare una serie di numeri primi (ad es. Tutti i numeri primi che sono meno di 1.000.000) - saresti in grado di farlo in qualunque lingua tu volessi, ma la maggior parte delle persone sceglie R, e alcuni scelgono Python (credo), ma credo che potresti scegliere Stata, SAS, SPSS , Matlab, ecc. Probabilmente ti verranno poste domande per sondare la profondità della tua conoscenza del linguaggio di programmazione preferito, ad esempio perché use apply anziché un ciclo for in R.

Potrebbe anche essere chiesto di progettare un esperimento o un altro studio per indagare su qualcosa - di solito qualcosa di pratico - a volte questo sarà correlato al lavoro che facciamo, ma spesso no. (Non dovresti avere conoscenza del lavoro che facciamo, ma dovresti essere in grado di cogliere l'essenza di un problema di cui non hai sentito parlare e speculare su di esso in modo intelligente, anche se avessi una certa conoscenza del dominio che avresti saputo era sbagliato - va bene, non ci si aspetta che tu abbia conoscenza del dominio). Potrebbe esserti chiesto di prendere in considerazione cose come il potere.


2

Durante l'analisi della varianza della variabile quantitativa, a volte è emerso che la frequenza della variabile è molto alta (> 5), quindi utilizziamo il test esatto di Fisher per trovare l'indipendenza della variabile.


Ciò verrebbe probabilmente riassunto nella risposta di Chris.
JM non è uno statistico il

4
La risposta corretta a questo include sapere che esiste una controversia sul fatto che i margini fissi abbiano un senso e che abbia un'opinione informata sull'argomento?
Ben Bolker,

1

La partecipazione media pagata alle partite di Yankees lo scorso anno è stata di 55.000. Chiedete a caso a un gruppo di persone a New York se hanno partecipato a una partita di Yankees la scorsa stagione e, se lo hanno fatto, registrate le presenze pagate. Qual è la frequenza media pagata per i giochi a cui hanno partecipato le persone a cui hai chiesto di partecipare a un gioco?

Ti darò un suggerimento per la mia risposta (il suggerimento non è stato fornito): campionamento di parte. Ho segnato una gara di casa su questo, ma non era abbastanza per vincere la partita, ah ah. Nota: ho citato molte avvertenze relative al modo in cui è stato eseguito il campionamento e l'intervistatore mi ha detto di ignorarle tutte.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.