Sto cercando alcune domande di interviste statistiche (e di probabilità, immagino), dalle più elementari alle più avanzate. Le risposte non sono necessarie (anche se i collegamenti a domande specifiche su questo sito andrebbero bene).
Sto cercando alcune domande di interviste statistiche (e di probabilità, immagino), dalle più elementari alle più avanzate. Le risposte non sono necessarie (anche se i collegamenti a domande specifiche su questo sito andrebbero bene).
Risposte:
Non sono sicuro di quale sia il lavoro, ma penso che "Spiegare x a un novizio" probabilmente sarebbe buono-
a) perché probabilmente dovranno farlo nel lavoro
b) è una buona prova di comprensione, credo.
Lo standard Q in cui lavoro è sulla falsariga di:
Dai un'occhiata a questo output di una regressione logistica multipla da un pacchetto statistico che ritieni di aver usato (preferibilmente uno che usiamo anche noi). XXX è la variabile indipendente di interesse principale. In che modo interpreti i risultati per un collega con conoscenza dell'argomento ma nessuna formazione statistica formale? (Se necessario, richiedere un'interpretazione separata della stima puntuale, CI, valore p).
Potresti anche voler riflettere se l'intervista è il mezzo migliore per misurare il costrutto di interesse. Se si desidera misurare la conoscenza preliminare della probabilità o delle statistiche, è meglio fare affidamento maggiormente su una prova scritta. È possibile porre più domande e quindi aumentare l'affidabilità della misurazione. È più standardizzato sia nell'amministrazione che nel punteggio. E una volta sviluppato lo strumento, probabilmente utilizza meno risorse per amministrare.
È quindi possibile utilizzare l'intervista come uno strumento più mirato alla ricerca di fattori come le abilità verbali e interpersonali.
Sono state poste due domande:
1) Adatti una regressione multipla per esaminare l'effetto di una particolare variabile a cui un lavoratore in un altro reparto è interessato. La variabile ritorna insignificante, ma il tuo collega dice che ciò è impossibile in quanto è noto che ha un effetto. Cosa vorresti dire / fare?
2) Hai 1000 variabili e 100 osservazioni. Vorresti trovare le variabili significative per una risposta particolare. Cosa faresti?
Ecco un grande set di dati. Qual è il tuo piano per gestire i valori anomali? Che ne dici di valori mancanti? Che ne dici di trasformazioni?
Possono gestire i dati del mondo reale?
Molte domande / risposte su questo sito potrebbero dare idee per buone domande. Darò un elenco con alcuni di questi collegamenti che ritengo siano buoni. I post a cui ho risposto sono sovrarappresentati, perché conosco meglio quei post, non perché sono necessariamente i migliori! Fornisco brevi commenti a ciascun link, così puoi decidere se vuoi seguire il link.
Qual è l'intuizione dietro SVD? "Puoi spiegare a uno dei nostri clienti come funziona SVD?"
Stima della massima verosimiglianza (MLE) in termini profani "Puoi spiegare in un linguaggio non tecnico l'idea della stima della massima verosimiglianza?"
Taleb e il cigno nero "Dimmi, cos'è un cigno nero e perché è rilevante? Quando è rilevante?"
Inferenza statistica quando il campione "è" la popolazione "Cosa si può dire dell'inferenza statistica quando il campione è l'intera popolazione?"
Bontà di adattamento e quale modello scegliere la regressione lineare o Poisson "Abbiamo un problema di regressione in cui la risposta è una variabile di conteggio. Quale sceglieresti in questo contesto, minimi quadrati ordinari o regressione di Poisson (o forse un altro)? Spiega la tua scelta , quali sono le principali differenze tra questi modelli? "
Qual è la differenza tra varianza finita e infinita "Puoi spiegare, in una lingua quanto più semplice possibile, che cosa significa per una variabile casuale avere aspettative infinite o varianza infinita? Qual è l'importanza pratica di questa distinzione? Spiega con un esempio."
Quali sono le alternative moderne e facilmente utilizzabili alla regressione graduale? "Come costruiresti un complesso modello di regressione quando ci sono molte possibili variabili predittive? Descrivi diverse possibili strategie e racconta i problemi con ognuna di esse"
Come affrontare la perfetta separazione nella regressione logistica? "Qual è il problema della separazione nella regressione logistica, le sue cause, i sintomi? Cosa puoi fare per risolverlo, se è davvero un problema?"
Perché la matrice di correlazione deve essere semi-definita positiva e cosa significa essere o meno semi-definita positiva? e
cosa mi dice una matrice di covarianza definita non positiva sui miei dati? "Spiega perché una matrice di covarianza deve essere positiva (semi) definita e cosa significa. Come può essere usato quel fatto?"
Quali sono le versioni multidimensionali della mediana "Puoi proporre un modo per generalizzare la mediana ai dati multivariati?"
Interpretazione dei termini di interazione nella regressione del logit con variabili categoriali e Quali sono le migliori pratiche per identificare gli effetti di interazione? e due effetti principali negativi ma effetti di interazione positivi? e Includere l'interazione ma non i principali effetti in un modello e Come interpretare gli effetti principali quando l'effetto di interazione non è significativo? "Spiegare cosa si intende per interazione nei modelli di regressione. In particolare, cosa significa se l'interazione è significativa mentre gli effetti principali non lo sono? C'è qualche differenza nell'interpretazione dell'interazione tra regressione lineare ordinaria e regressione logistica?"
Quale potrebbe essere la ragione per usare la trasformazione della radice quadrata sui dati? e appropriata trasformazione dei dati "Quando, come e perché trasformi la variabile di risposta in un modello di regressione (o ANOVA)? Ci sono alternative?
Posso fidarmi dei risultati ANOVA per un DV non distribuito normalmente? "Come tratteresti un ANOVA con residui non normali?
Perché le statistiche sono utili quando molte cose che contano sono un colpo solo?
Come posso modellare efficacemente la somma delle variabili casuali di Bernoulli?
Quando utilizzare equazioni di stima generalizzate rispetto a modelli di effetti misti?
Cosa sta succedendo qui, quando utilizzo la perdita quadrata nell'impostazione della regressione logistica? "Perché utilizziamo la massima verosimiglianza per la regressione logistica? Perché non i minimi quadrati?"
Mi è stato chiesto una volta come avrei spiegato la pertinenza del teorema del limite centrale a una classe di matricole nelle scienze sociali che a malapena hanno conoscenza delle statistiche.
Come si numera qualcosa che non è numerico?
Esempio, "Estrazione automatica delle caratteristiche per la classificazione dei dati audio"
Motivazione: Riescono a capire come analizzare statisticamente qualcosa che non è già in un grande tavolo?
Come si evita l'adattamento eccessivo quando si crea un modello statistico?
Buona risposta: convalida incrociata
Spesso chiedo "come definiresti / spiegheresti cos'è la previsione?"
La risposta a quel tipo di domanda molto generale mi aiuta a vedere se le persone sono collegate a un caso particolare di previsione. Non c'è una risposta giusta ma rispondere sinteticamente durante un'intervista non è sempre facile :)
Per un contesto di dati osservativi:
Considera questo modello di regressione applicato a questo problema sostanziale. Cosa, se non altro, può essere interpretato causalmente? [Ulteriore indagine] Cosa dovresti imparare per cambiare opinione?
Come conteggi il numero di alberi di legno di sandalo a Bangalore?
Sotto l'intestazione Causazione vs correlazione :
È comune utilizzare il coinvolgimento cliente / utente come funzionalità per un modello predittivo. Ad esempio, le persone che fanno clic su questo pulsante hanno maggiori probabilità di abbonarsi rispetto alle persone che non lo fanno. Le persone che acquistano il lunedì hanno maggiori probabilità di acquistare di nuovo rispetto a quelle che acquistano il martedì.
Se lo portiamo all'estremo: gli utenti che fanno clic su "acquista" hanno maggiori probabilità di acquistare un prodotto rispetto agli utenti che non fanno clic su acquisto.
Ma ovviamente non è molto utile per spiegare perché alcuni utenti si iscrivono e altri no.
Come farebbe a bilanciare utilizzando le funzionalità del cliente che spiegano perché si abbonano rispetto a quelle che sono altamente correlate con l'abbonamento, ma che sono necessarie per svolgere l'attività?
Ecco un set di TinkerToy . Mostrami come funziona la distanza euclidea in tre dimensioni. Ora mostrami come funziona la regressione multipla.
Possono spiegare come funzionano le statistiche nel mondo fisico?
Gestiamo un centro di assistenza clienti. Riceviamo 1 milione di chiamate al mese. Come lo riduciamo a diecimila?
Molte delle domande che poniamo sono simili a quelle che sono già state descritte. Ma alcuni che non ho ancora letto, che vengono utilizzati: potrebbe essere chiesto di disegnare un programma su una lavagna per fare qualcosa del genere: simulare un lancio di dadi o altri problemi di probabilità o calcolare una serie di numeri primi (ad es. Tutti i numeri primi che sono meno di 1.000.000) - saresti in grado di farlo in qualunque lingua tu volessi, ma la maggior parte delle persone sceglie R, e alcuni scelgono Python (credo), ma credo che potresti scegliere Stata, SAS, SPSS , Matlab, ecc. Probabilmente ti verranno poste domande per sondare la profondità della tua conoscenza del linguaggio di programmazione preferito, ad esempio perché use apply anziché un ciclo for in R.
Potrebbe anche essere chiesto di progettare un esperimento o un altro studio per indagare su qualcosa - di solito qualcosa di pratico - a volte questo sarà correlato al lavoro che facciamo, ma spesso no. (Non dovresti avere conoscenza del lavoro che facciamo, ma dovresti essere in grado di cogliere l'essenza di un problema di cui non hai sentito parlare e speculare su di esso in modo intelligente, anche se avessi una certa conoscenza del dominio che avresti saputo era sbagliato - va bene, non ci si aspetta che tu abbia conoscenza del dominio). Potrebbe esserti chiesto di prendere in considerazione cose come il potere.
Durante l'analisi della varianza della variabile quantitativa, a volte è emerso che la frequenza della variabile è molto alta (> 5), quindi utilizziamo il test esatto di Fisher per trovare l'indipendenza della variabile.
La partecipazione media pagata alle partite di Yankees lo scorso anno è stata di 55.000. Chiedete a caso a un gruppo di persone a New York se hanno partecipato a una partita di Yankees la scorsa stagione e, se lo hanno fatto, registrate le presenze pagate. Qual è la frequenza media pagata per i giochi a cui hanno partecipato le persone a cui hai chiesto di partecipare a un gioco?
Ti darò un suggerimento per la mia risposta (il suggerimento non è stato fornito): campionamento di parte. Ho segnato una gara di casa su questo, ma non era abbastanza per vincere la partita, ah ah. Nota: ho citato molte avvertenze relative al modo in cui è stato eseguito il campionamento e l'intervistatore mi ha detto di ignorarle tutte.