Ci sono già dei bei commenti già fatti qui, ma aggiungerò i miei 2 centesimi. Prefarrò tutto questo dicendo che presumo che stiamo parlando di una situazione in cui l'uso delle tecniche tradizionali "in scatola" danneggerà le conclusioni sostanziali raggiunte dall'analisi. In caso contrario, penso che a volte fare un'analisi eccessivamente semplicistica sia scusabile sia per brevità sia per facilità di comprensione quando il pubblico target è laico. È davvero un tale crimine assumere indipendenza quando la correlazione intraclasse è .02 o assumere linearità quando la verità è Direi di no.log(x); x∈(1,2)?
Nella mia carriera svolgo molte ricerche interdisciplinari e mi ha portato a lavorare a stretto contatto con ricercatori di abuso di sostanze, epidemiologi, biologi, criminologi e medici in varie occasioni. Questo in genere implicava l'analisi di dati in cui i consueti approcci "in scatola" fallivano per vari motivi (ad esempio una combinazione di campionamento parziale e dati raggruppati, longitudinalmente e / o spazialmente indicizzati). Ho anche trascorso un paio di anni a consultare part-time nella scuola di specializzazione, dove ho lavorato con persone provenienti da una grande varietà di settori. Quindi, ho dovuto pensarci molto.
La mia esperienza è che la cosa più importante è spiegare perché i soliti approcci in scatola sono inappropriati e fanno appello al desiderio della persona di fare "buona scienza". Nessun ricercatore rispettabile vuole pubblicare qualcosa che sia palesemente fuorviante nelle sue conclusioni a causa di analisi statistiche inadeguate. Non ho mai incontrato qualcuno che dicesse qualcosa del tipo "Non mi interessa se l'analisi è corretta o meno, voglio solo farla pubblicare" anche se sono sicuro che esistano persone del genere - la mia risposta sarebbe porre fine alla relazione professionale, se possibile. Come statistico, è la mia reputazione che potrebbe essere danneggiata se qualcuno che effettivamente sa di cosa stanno parlando capita di leggere il giornale.
Ammetto che può essere difficile convincere qualcuno che una particolare analisi è inappropriata, ma penso che come statistici dovremmo (a) avere le conoscenze necessarie per sapere esattamente cosa può andare storto con l'approccio "in scatola" e (b) avere la capacità di spiegarlo è un modo ragionevolmente comprensibile. A meno che tu non stia lavorando come professore di statistica o matematica, una parte del tuo lavoro sarà quella di lavorare con non statistici (e anche a volte se sei un professore statistico / matematico).
Per quanto riguarda (a) , se lo statistico non ha questa conoscenza, perché dovrebbero scoraggiare l'approccio fisso? Se lo statistico sta dicendo "usa un modello di effetti casuali" ma non può spiegare perché supporre che l'indipendenza sia un problema, allora non sono colpevoli di arrendersi al dogma allo stesso modo del cliente? Qualsiasi revisore, statistico o meno, può fare critiche pedanti su un approccio di modellistica statistica perché, ammettiamolo, tutti i modelli sono sbagliati. Ma richiede esperienza per sapere esattamente cosa potrebbe andare storto.
Per quanto riguarda (b) , ho scoperto che le rappresentazioni grafiche di ciò che potrebbe andare storto in genere "colpiscono maggiormente". Esempi:
Nell'esempio fornito da Peter sulla categorizzazione dei dati continui, il modo migliore per mostrare perché questa è una cattiva idea è di rappresentare graficamente i dati nella sua forma continua e confrontarli con la sua forma categorica. Ad esempio, se stai rendendo binaria la tua variabile di risposta, traccia la variabile continua rispetto a e, se non assomiglia molto a una funzione di passaggio, sai che la discretizzazione ha perso informazioni preziose. Se questa differenza non è drastica o non comporta cambiamenti nelle conclusioni sostanziali, puoi anche vederlo dalla trama.x
Quando la "forma" proposta del modello (ad es. Lineare) è inappropriata. Ad esempio, se la funzione di regressione "plateau" come per ma per l'inclinazione di un adattamento lineare sarà troppo superficiale e, a seconda dei dati, potrebbe spingere la -value sotto significato nonostante vi sia una relazione evidente tra ed .x ∈ ( 0 , 1 ) y = 1 x > 1 p x yy=xx∈(0,1)y=1x>1pxy
Un'altra situazione comune (menzionata anche da Peter) sta spiegando perché assumere l'indipendenza è una cattiva idea. Ad esempio, è possibile dimostrare con una trama che l'autocorrelazione positiva in genere produrrà dati più "raggruppati" e la varianza sarà sottostimata per tale motivo, dando una certa intuizione del perché gli ingenui errori standard tendano ad essere troppo piccoli. Oppure, è anche possibile tracciare i dati con la curva adattata che presuppone l'indipendenza e si può vedere visivamente come i cluster influenzano l'adattamento (riducendo effettivamente la dimensione del campione) in un modo che non è presente nei dati indipendenti.
Ci sono un milione di altri esempi, ma sto lavorando con vincoli spazio / tempo qui :) Quando le immagini semplicemente non funzionano per qualsiasi motivo (ad esempio mostrando perché un approccio è sottodimensionato), anche gli esempi di simulazione sono un'opzione che ho usato di volta in volta.