Fare statistiche corrette in un ambiente di lavoro?


20

Non sono sicuro di dove appartenga questa domanda: Cross Validated o The Workplace. Ma la mia domanda è vagamente correlata alle statistiche.

Questa domanda (o immagino domande) è nata durante il mio lavoro come "stagista di scienza dei dati". Stavo costruendo questo modello di regressione lineare ed esaminando la trama residua. Ho visto un chiaro segno di eteroschedasticità. Ricordo che l'eteroschedasticità distorce molte statistiche di test come l'intervallo di confidenza e il test t. Quindi ho usato il quadrato meno ponderato, seguendo quello che ho imparato al college. Il mio manager lo vide e mi consigliò di non farlo perché "stavo rendendo le cose complicate", il che non era affatto una ragione molto convincente per me.

Un altro esempio potrebbe essere "la rimozione di una variabile esplicativa poiché il suo valore p è insignificante". Ad essere, questo consiglio non ha senso da un punto di vista logico. Secondo quanto ho appreso, un valore p insignificante potrebbe essere dovuto a diversi motivi: possibilità, uso del modello sbagliato, violazione delle ipotesi, ecc.

Un altro esempio è che ho usato la validazione incrociata di k-fold per valutare il mio modello. Secondo il risultato, è semplicemente migliore di . Ma abbiamo un inferiore per il modello 1 e la ragione ha qualcosa a che fare con l'intercetta . Il mio supervisore, tuttavia, sembra preferire il modello 2 perché ha più alto . Le sue ragioni (come è solida, o la convalida incrociata è l'approccio all'apprendimento automatico, non l'approccio statistico) non sembrano essere abbastanza convincenti da cambiare idea. C V m o d e l 2 R 2 R 2 R 2CVmodel1CVmodel2R2R2R2

Come qualcuno che si è appena laureato, sono molto confuso. Sono molto appassionato di applicare statistiche corrette per risolvere i problemi del mondo reale, ma non so quale delle seguenti affermazioni sia vera:

  1. Le statistiche che ho imparato da solo sono sbagliate, quindi sto solo facendo errori.
  2. C'è un'enorme differenza tra le statistiche teoriche e i modelli di costruzione nelle aziende. E sebbene la teoria della statistica sia corretta, la gente non la segue.
  3. Il gestore non sta usando correttamente le statistiche.

Aggiornamento al 17/04/2017: ho deciso di perseguire un dottorato di ricerca. nelle statistiche. Grazie a tutti per la risposta.


1
Relativi alla tua domanda sono i commenti (specialmente quelli alla fine) sotto questa risposta: stats.stackexchange.com/questions/229193/…

Questa discussione può anche essere rilevante . In pratica, a volte puoi usare modelli in cui i tuoi dati violano alcuni presupposti richiesti (ad esempio, Naive Bayes su variabili dipendenti) e avere comunque risultati interessanti. Ma devi quindi stare molto attento alle conclusioni tratte, ed è qui che si trova il problema principale: la maggior parte delle persone non si preoccupa del significato dei tuoi risultati finché li ottieni. Pubblica o
muori

1
Le risposte "hai ragione e ha torto" sono probabilmente corrette e valgono per il tuo caso. Comunque, attenzione che a volte la risposta può essere "ha torto ma il suo modo sbagliato funziona per i suoi scopi - forse funziona anche meglio del modo giusto che farebbe per i suoi scopi non statistici di gestione degli affari". Penso che ciò accada spesso con ogni tipo di conoscenza scientifica, non solo statistica. Forse in SE Workplace possono darti esempi non statistici.
Pere,

3
@Aksakal: da quello che l'OP descrive statisticamente è probabilmente più corretto. Il tuo aneddoto personale è solo un aneddoto. Posso contrastarlo dicendo che mi sono trasferito in un lavoro in cui i test A / B sarebbero stati eseguiti con solo 30 campioni; mostrando calcoli di potenza di base ha cambiato l'intera mentalità dei team riguardo alle dimensioni del campione e al processo decisionale. Tornando alla domanda del PO, concordo sul fatto che quanto descritto non significa che il supervisore del PO abbia fatto una chiamata sbagliata. Flussi di lavoro aziendali hanno una particolare inerzia ad essi associati e il "nuovo ragazzo" deve dimostrare a se stesso come predicatore, prima di diventare un profeta ...
usεr11852 dice Ripristinare Monic

1
@ usεr11852, il mio commento è stato un rant :) ma ha un punto, penso io: per qualcuno che è nuovo sul campo, è più sicuro presumere che un boss lo sappia meglio. con esperienza può rilassare questa ipotesi, forse dare più peso alla propria opinione e meno al capo '. per un tirocinante il peso secondo la propria opinione dovrebbe essere vicino a ZERO.
Aksakal,

Risposte:


12

In poche parole, hai ragione e lui ha torto. La tragedia dell'analisi dei dati è che molte persone lo fanno, ma solo una minoranza di persone lo fa bene, in parte a causa di una scarsa istruzione nell'analisi dei dati e in parte a causa dell'apatia. Dai un'occhiata critica alla maggior parte degli articoli di ricerca pubblicati che non hanno uno statistico o un esperto di apprendimento automatico nell'elenco degli autori e noterai rapidamente errori elementari come l'interpretazione di valori come la probabilità che l'ipotesi nulla sia vera .p

Penso che l'unica cosa da fare, di fronte a questo tipo di situazione, sia di spiegare attentamente cosa non va nella pratica della testa sbagliata, con un esempio o due.


3
Grazie per la risposta. Immagino che una "domanda del passo successivo" sia, c'è qualche lavoro là fuori che effettivamente corregge le statistiche? Capisco che la scienza dei dati è molto popolare al giorno d'oggi, ma in qualche modo ho l'impressione che molti "data scientist" non si preoccupino davvero di fare statistiche corrette ...
3x89g2

1
@Misakov Penso che dipenda davvero dalla persona o dall'organizzazione. Ma parole d'ordine come "scienza dei dati", "analisi" e "business intelligence" sono bandiere rosse. E non dimenticare che in un colloquio di lavoro, anche tu li stai intervistando. Non ti fa solo sembrare bello porre domande dettagliate su come vengono fatte le cose; ti consente di vedere quanto sono seri sull'analisi dei dati.
Kodiologist,

@Misakov Probabilmente dovresti andare in università se vuoi davvero fare statistiche corrette. La stragrande maggioranza (vedi la mia risposta sopra) di uso industriale sarà sbagliata.
Mooks,

@Kodiologist: penso che tu stia adottando un approccio " giusto " in questo senso e non stai aiutando l'OP confermando il suo pregiudizio nei confronti delle statistiche del settore. Anche l'idea di contraddire un membro senior dopo aver preso una decisione diretta (" Vai con "R2 ) è un po 'ingenua ... Dato che l'impresa esiste ancora, le decisioni del manager non sono così sbagliate e l'eccessiva semplificazione di alcune regole potrebbe non essere troppo catastrofico nel contesto del loro lavoro. Nuove persone (come l'OP) entrano a far parte e il team si evolve; l'evoluzione è un processo di Wiener, non un volo Lévy!
usεr11852 dice Reinstate Monic,

1
@ usεr11852 Un bravo manager (ad esempio, non con i capelli a punta) rimanderà ai dipendenti quando lo sanno meglio di lui. "Dato che l'impresa esiste ancora, le decisioni del manager non sono così sbagliate " - La corsa non è rapida.
Kodiologo il

11

Kodiologist ha ragione: hai ragione, ha torto. Tuttavia purtroppo questo è un problema posto ancora più comune di quello che stai incontrando. In realtà sei in un settore che sta andando relativamente bene.

mean+3σ

Ora, a parte il fatto che questo intervallo di confidenza non sta dicendo loro ciò di cui hanno effettivamente bisogno (hanno bisogno di un intervallo di tolleranza per quello), questo viene fatto alla cieca su parametri che si aggirano vicino ad un valore massimo o minimo (ma dove l'intervallo ha vinto ' effettivamente superare questi valori). Poiché Excel calcolerà ciò di cui hanno bisogno (sì, ho detto Excel), impostano le loro specifiche in base a ciò, nonostante il parametro non sarà quasi ovunque distribuito normalmente. A queste persone sono state insegnate statistiche di base, ma non trame qq o simili. Uno dei maggiori problemi è che le statistiche ti daranno un numero, anche se usato in modo inappropriato, quindi la maggior parte delle persone non sa quando lo ha fatto.

In altre parole, le specifiche sulla stragrande maggioranza dei prodotti, nella stragrande maggioranza delle industrie, sono senza senso.

Uno dei peggiori esempi che ho di persone che seguono ciecamente le statistiche, senza capire, è l'uso di Cpk nell'industria automobilistica. Un'azienda ha trascorso circa un anno a discutere di un prodotto con il proprio fornitore, poiché riteneva che il fornitore potesse controllare il proprio prodotto a un livello semplicemente impossibile. Stavano impostando solo una specifica massima (nessun minimo) su un parametro e hanno usato Cpk per giustificare la loro richiesta - fino a quando non è stato sottolineato che i loro calcoli (quando usati per impostare un livello minimo teorico) non volevano che non avessero controllato ) implicava un enorme valore negativo. Questo, su un parametro che non potrebbe mai andare inferiore a 0. Cpk presuppone normale, il processo non ha fornito dati vicino ai normali. Ci è voluto molto tempo prima che questo affondasse. Tutto ciò ha sprecato tempo e denaro perché la gente non capisco cosa stessero calcolando - e avrebbe potuto essere molto peggio se non fosse stato notato. Questo potrebbe essere un fattore che contribuisce al motivo per cui ci sono richiami regolari nel settore automobilistico!

Io stesso vengo da un background scientifico e, francamente, l'insegnamento delle statistiche in scienze e ingegneria è sorprendentemente insufficiente. Non avevo mai sentito parlare della maggior parte di ciò che ho bisogno di usare ora - è stato tutto autodidatta e ci sono (rispetto a un vero statistico) enormi lacune nelle mie conoscenze anche ora. Per questo motivo, non elogio le persone che fanno un uso improprio delle statistiche (probabilmente lo faccio ancora regolarmente), è scarsa istruzione.

Quindi, tornando alla tua domanda originale, non è davvero facile. Concordo con la raccomandazione di Kodiologist di provare a spiegare delicatamente queste cose in modo da utilizzare le statistiche giuste. Ma aggiungerei un avvertimento in più a questo e ti consiglio anche di scegliere saggiamente le tue battaglie, per il bene della tua carriera.

È un peccato, ma è un dato di fatto che non sarai in grado di convincere tutti a fare le migliori statistiche ogni volta. Scegli di correggerli quando è veramente importante per la conclusione finale finale (che a volte significa fare le cose in due modi diversi per verificare). Ci sono momenti (ad esempio il tuo esempio di modello 1,2) in cui l'uso del modo "sbagliato" potrebbe portare alle stesse conclusioni. Evita di correggere troppe persone troppo frequentemente.

So che è intellettualmente frustrante e il mondo dovrebbe funzionare in modo diverso - purtroppo non lo fa. In una certa misura dovrai imparare a giudicare le tue battaglie in base alle personalità individuali dei tuoi colleghi. Il tuo obiettivo (di carriera) è di essere l'esperto a cui vanno quando hanno davvero bisogno di aiuto, non la persona esigente che cerca sempre di correggerli. E, infatti, se diventi quella persona, è probabilmente lì che avrai il maggior successo nel far sì che le persone ascoltino e facciano le cose nel modo giusto. In bocca al lupo.


Excel è probabilmente il software di analisi dei dati più utilizzato. Non c'è bisogno dell'osservazione " sì, l'ho detto! ". A meno che qualcuno non sia uscito dal mondo accademico (e forse dal grande farmaceutico), non avrebbe attaccato la tua affermazione originale. (Bella risposta, +1)
usεr11852 dice Reinstate Monic,

1
È il più usato e penso che evidenzi il mio punto originale. Excel presenta enormi carenze per l'analisi dei dati. Se ciò che stai facendo viene eseguito su Excel, non puoi davvero chiamarlo analisi dei dati, a meno che tu non stia inserendo manualmente tutti i calcoli. Nulla contro Excel come foglio di calcolo, ma è uno strumento di analisi dei dati rudimentale, nella migliore delle ipotesi. Ma le persone non sanno niente di meglio, perché non vengono insegnate meglio. Non provengo da un background statistico, ma sono stato fortunato che qualcuno mi abbia menzionato R per aver creato grafici migliori - e ciò, per coincidenza, mi ha portato a statistiche migliori.
Mooks

"Concordo con la raccomandazione di Kodiologist di provare a spiegare delicatamente queste cose in modo da utilizzare le statistiche giuste". - Voglio essere un testimone. Un tirocinante che spiega al suo datore di lavoro come fare affari.
Aksakal,

1
Questo ti aiuterà, controlla # 9. È un consiglio comune che viene sempre inserito in questo tipo di elenchi. Primi 100 giorni di lavoro: non suggerire di cambiare le cose, capire prima perché le persone fanno le cose nel modo in cui le fanno, spesso quando c'è un motivo valido. Ti prenderai in giro da solo, e l'ho visto succedere con nuovi ragazzi ancora e ancora.
Stai

@Aksakal Quello che hai detto ha sicuramente senso. Mi sto comportando un po '"audace" nella mia situazione principalmente perché sono uno stagista e so che me ne andrò abbastanza presto comunque.
3x89g2,

3

Ciò che viene descritto sembra un'esperienza piuttosto negativa. Tuttavia non dovrebbe essere qualcosa che induce a mettere immediatamente in discussione il proprio background educativo né il giudizio statistico del proprio supervisore / manager.

R2il lavoro, piuttosto che il comportamento asintotico da qualche parte in futuro, non significa molto. Le persone saranno riluttanti ad accettarlo; perché spendere energia per cambiare quando tutto funziona (in qualche modo)? Il tuo manager non è necessariamente sbagliato dal punto di vista aziendale. È responsabile delle decisioni statistiche e commerciali del vostro dipartimento; tali decisioni non coincidono necessariamente sempre e molto probabilmente non coincidono con risultati a breve termine (i vincoli temporali sono un fattore molto importante nell'analisi dei dati del settore).

Il mio consiglio è di attenersi alle tue pistole (statistiche) ma di essere aperto a ciò che fanno le persone, di essere paziente con le persone che potrebbero staccarsi dalle nuove pratiche statistiche e di offrire consigli / opinioni quando richiesto , far crescere una pelle più spessa e imparare dal proprio ambiente. Se stai facendo le cose giuste, questo mostrerà lentamente, le persone vorranno la tua opinione perché riconosceranno che puoi offrire soluzioni dove il loro flusso di lavoro attuale non lo fa. Infine, sì certo, se dopo un ragionevole periodo di tempo (almeno un paio di mesi) senti di essere svalutato e mancato di rispetto, vai avanti.

Inutile dire che ora sei nel settore non puoi rilassarti e pensare di non aver bisogno di affinare la tua formazione in Statistica. Modellazione predittiva, strategie di regressione, algoritmi di clustering continuano a evolversi. Ad esempio, l'utilizzo della regressione dei processi gaussiani in un ambiente industriale era vicino alla fantascienza 10 anni fa; ora può vedere quasi come una cosa pronta da provare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.