Quali sono alcune buone domande di intervista per i candidati sviluppatori di algoritmi statistici?


15

Sto intervistando persone per una posizione di sviluppatore / ricercatore di algoritmi in un contesto di statistiche / apprendimento automatico / data mining.

Sto cercando domande da porre per determinare, in particolare, la familiarità, la comprensione e la fluidità di un candidato con la teoria di base, ad esempio proprietà di base di aspettativa e varianza, alcune distribuzioni comuni, ecc.

La mia domanda attuale è: "C'è una quantità sconosciuta che vorremmo stimare. A tal fine abbiamo stimatori che, dato , sono tutti imparziali e indipendenti, e ognuno ha una varianza nota , diversa per ciascuna. Trova lo stimatore ottimale che è imparziale e presenta una varianza minima. "XY1,Y2,...,YnXσio2Y=f(Y1,...,Yn)

Mi aspetterei che qualsiasi candidato serio lo gestisca con facilità (dopo un po 'di tempo per elaborare i calcoli), eppure sono sorpreso dal numero di candidati che presumibilmente provengono da settori pertinenti non riescono a fare nemmeno il minimo progresso. La considero quindi una buona domanda discriminatoria. L'unico problema con questa domanda è che è solo uno.

Quali altre domande possono essere utilizzate per questo? In alternativa, dove posso trovare una raccolta di tali domande?


7
Per molte persone di machine learning (comprese quelle buone), questa domanda è molto lontana dalla loro zona di comfort. Questa è una domanda ovvia per gli statistici.
Marc Claesen,

4
Questa domanda è legittimamente borderline on / off topic. Tuttavia, ha molti punti di vista, diversi voti positivi, una risposta con diversi voti positivi e, inoltre, è CW. Potrebbe rimanere aperto, IMO.
gung - Ripristina Monica

2
La domanda iniziale potrebbe essere formulata in modo confuso. Ad esempio, l'uso di con un capitale farebbe sembrare casuale. Ma dal momento che stai menzionando la varianza minima, sembrerebbe che tu voglia che sia non casuale (nel qual caso, perché la varianza degli stimatori non ha una dipendenza scritta da ?)XXXX
Batman,

4
Un punto di cautela, Google ha studiato a fondo il processo interno delle risorse umane e ha scoperto che i punteggi degli intervistatori non erano in alcun modo correlati con le successive prestazioni lavorative !! La mia impressione della letteratura qui è che (1) le domande sul tipo di puzzle sono le peggiori in assoluto, servendo solo a far sentire l'intervistatore intelligente (cioè 0 potere di previsione) e (2) riprendere, le domande basate sull'esperienza possono avere un valore predittivo. La performance passata prevede la performance futura e potresti voler focalizzare le domande per accertare quale fosse la performance passata, ma l'intervista è molto meno istruttiva di quanto pensino gli intervistatori.
Matthew Gunn,

3
L'imparzialità è garantita dal fatto che i pesi si sommano all'unità. Tuttavia, anche limitando la soluzione alle combinazioni lineari degli stimatori, sarà quasi sempre il caso che più stimatori basati sugli stessi dati siano altamente correlati. (Se sono veramente indipendenti, verrebbero applicati a sottoinsiemi indipendenti e indipendenti dei dati.) Tuttavia, non è affatto evidente che una combinazione lineare di stimatori sarà ottimale.
whuber

Risposte:


12

Cosa vuoi che faccia il tuo sviluppatore statistico?

L'esercito degli Stati Uniti dice "allenati combatterai, perché combatterai come se fossi allenato". Mettili alla prova su ciò che vuoi che facciano tutto il giorno. Davvero, vuoi che "creino valore" o "facciano soldi" per l'azienda.

Boss 101

Pensa "mostrami i soldi".

  • Il denaro cresce sugli alberi chiamati impiegati. Inserisci un "centesimo" (il loro salario) e ti pagano un "quarto" (il loro valore).
  • Se non riesci a mettere in relazione il loro lavoro con il modo in cui fanno soldi per l'azienda, né tu né loro state facendo il loro lavoro correttamente.

Nota: se la tua domanda di manipolazione simbolica non si collega in modo pulito ai "soldi", potresti farti la domanda sbagliata.

Ci sono 3 cose che ogni dipendente deve fare per essere un dipendente:

  • Essere effettivamente in grado di fare il lavoro
  • Lavora bene con il team
  • Sii disposto / motivato a fare davvero il lavoro

Se non riuscirai a risolverli, nessun'altra risposta ti farà del bene.

Se riesci a sostituirli con un buon software o un adolescente ben addestrato, alla fine dovrai farlo e ti costerà.

Dati 101

Cosa dovrebbero essere in grado di fare:

  • usa i tuoi gusti interni di software (rete, sistema operativo, ufficio, presentazione e analisi)
  • utilizzare alcuni software standard del settore (Excel, R, JMP, MatLab, pick_three )
  • ottenere i dati stessi. Dovrebbero conoscere set di dati di base per le attività di base. Dovrebbero conoscere i repository. Dovrebbero sapere quali dati famosi vengono utilizzati per quale compito. Fisher Iris. Pearson Crab. ... ci sono forse 20 elementi che dovrebbero andare qui. UCI, NIST, NOAA.
  • Dovrebbero conoscere le regole di gestione dei dati. i dati binari (T / F) hanno un contenuto informativo molto diverso da quello categorico (A, B, C, D) o continuo. La corretta gestione dei dati per tipo di dati è importante.
  • Alcuni compiti statistici di base includono: sono questi due uguali o diversi (alias cluster / classifica), in che modo ciò si collega a ciò
    (regressione / adattamento inclusi modelli lineari, glm, base radiale,
    equazioni alle differenze), è vero che "x "(test di ipotesi), di quanti campioni ho bisogno (campionamento di accettazione), come posso ottenere la maggior parte dei
    dati da pochi esperimenti / economici / efficienti (disegno statistico
    dell'esperimento) - disclaimer, sono ingegnere non statistico Potresti chiedere loro la domanda "quali sono i diversi compiti fondamentali e come si può verificare che lo statistico possa svolgerli in modo efficiente e corretto?
  • accedere / utilizzare i dati stessi. Si tratta di formati e strumenti.
    Dovrebbero essere in grado di leggere da CSV, XLSX (Excel), SQL e
    immagini. (HDF5, Rdata) Se hai un formato personalizzato, dovrebbero
    essere in grado di leggerlo e lavorare con gli strumenti in modo rapido ed
    efficiente. Dovrebbero conoscere la forza / debolezza del formato. CSV è un utilizzo rapido, disponibile da sempre, prototipo veloce, ma gonfio, inefficiente e lento da eseguire.
  • elaborare i dati correttamente, usando le migliori pratiche e non commettere peccati. Non buttare via i dati, mai. Non adattare i dati binomiali con una linea continua. Non sfidare la fisica.
  • trovare risultati ripetibili e riproducibili. Alcuni
    dicono "ci sono bugie, maledette bugie e statistiche" ma non alla mia
    compagnia. Lo stesso buon input dà lo stesso buon output. L'output non è un numero, è sempre una decisione aziendale che informa
    un'azione tecnica e si traduce in un risultato aziendale. Test diversi possono impostare il quadrante su 5.5 o 6.5, ma la capacità è sempre superiore a 1,33.
  • presentare scoperte nel linguaggio e al livello che i
    decisori, e / o gli sviluppatori di minion e / o se stessi in un anno, possono
    comprendere con il minimo errore. Una cosa bella è riuscire a spiegarlo in modo che tua nonna lo capisca. Questa ( link ) è la mia risposta, ma mi piace.

Zinger analitici:

Penso che le domande impossibili siano grandi. Sono impossibili per un motivo. Essere in grado di sapere se qualcosa è impossibile fuori dal cancello è una buona cosa. Sapere perché, avere qualche modo di coinvolgerlo o essere in grado di porre una domanda diversa può essere migliore.

Altre domande sul CV. ( link ) Su reddit. ( link ) altri ( link )

A proposito: questa è stata una buona domanda. Potrei dover aggiornare questa risposta nel tempo.


3
Questa sembra essere una buona risposta, per una domanda diversa da quella che ho posto. Non ho chiesto come scegliere buoni impiegati (probabilmente avrei chiesto qualcosa del genere sul posto di lavoro. Se ne avessi avuto bisogno), ho chiesto di provare una specifica qualifica.
Meni Rosenfeld,

Lo ridurrò alle statistiche solo allora.
EngrStudent - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.