Sono necessari buoni esempi di dati con la covariata interessata dai trattamenti


19

Ho esaminato molti set di dati R, pubblicazioni in DASL e altrove e non sto trovando molti esempi validi di set di dati interessanti che illustrano l'analisi della covarianza per i dati sperimentali. Esistono numerosi set di dati "giocattolo" con dati inventati nei libri di testo delle statistiche.

Vorrei fare un esempio in cui:

  • I dati sono reali, con una storia interessante
  • C'è almeno un fattore di trattamento e due covariate
  • Almeno una covariata è influenzata da uno o più dei fattori di trattamento e una non è influenzata dai trattamenti.
  • Preferibilmente sperimentale piuttosto che osservativo

sfondo

Il mio vero obiettivo è trovare un buon esempio da inserire nella vignetta per il mio pacchetto R. Ma un obiettivo più grande è che le persone hanno bisogno di vedere buoni esempi per illustrare alcune importanti preoccupazioni nell'analisi della covarianza. Considera il seguente scenario inventato (e per favore comprendi che la mia conoscenza dell'agricoltura è al massimo superficiale).

  • Facciamo un esperimento in cui i fertilizzanti sono randomizzati in trame e viene piantato un raccolto. Dopo un periodo di crescita adeguato, raccogliamo il raccolto e misuriamo alcune caratteristiche di qualità - questa è la variabile di risposta. Ma registriamo anche precipitazioni totali durante il periodo di crescita e acidità del suolo al momento del raccolto - e, naturalmente, quale fertilizzante è stato utilizzato. Quindi abbiamo due covariate e un trattamento.

Il solito modo di analizzare i dati risultanti sarebbe quello di adattare un modello lineare al trattamento come fattore e effetti additivi per le covariate. Quindi per riassumere i risultati, si calcolano i "mezzi corretti" (mezzi dei minimi quadrati dell'AKA), che sono previsioni dal modello per ciascun fertilizzante, alla piovosità media e all'acidità media del suolo 3. Questo pone tutto su un piano di parità, perché quando confrontiamo questi risultati, manteniamo costante la pioggia e l'acidità.

Ma questa è probabilmente la cosa sbagliata da fare, perché il fertilizzante probabilmente influenza l'acidità del suolo e la risposta. Questo rende i mezzi adeguati fuorvianti, perché l'effetto del trattamento include il suo effetto sull'acidità. Un modo per gestirlo sarebbe quello di togliere l'acidità dal modello, quindi i mezzi adeguati alla pioggia fornirebbero un confronto equo. Ma se l'acidità è importante, questa equità ha un costo elevato, nell'aumento della variazione residua.

Esistono modi per aggirare questo problema utilizzando una versione modificata di acidità nel modello anziché i suoi valori originali. Il prossimo aggiornamento del mio pacchetto R lsmeans renderà tutto ciò estremamente semplice. Ma voglio avere un buon esempio per illustrarlo. Sarò molto grato e riconoscerò debitamente chiunque sia in grado di indicarmi alcuni buoni set di dati illustrativi.


1
Sebbene questa sia senza dubbio una domanda importante e interessante, sembra che potrebbe non essere conforme alle regole su ciò che è in argomento : "Le domande su come ottenere determinati set di dati sono fuori tema (sono troppo specializzate). "
Glen_b -Reinstate Monica,


1
La mia impressione delle risposte finora è che siamo cauti nel dare ad altre domande come questa un assegno in bianco giudicandoci fermamente a favore, ma che siamo principalmente a favore di questa domanda particolare e anche un po 'ansiosi di vedere cosa tipi di risposte che potresti ricevere (forse quel pezzetto sono solo io). Ciò che non vorremmo sono knockoff scritti male di questa domanda che richiedono set di dati con cui dimostrare punti con le statistiche ma non sulle statistiche. Cioè, una cosa è chiedere aiuto nella dimostrazione di un principio statistico, ma sarebbe un'altra cosa chiedere set di dati specifici del dominio ...
Nick Stauner

3
OK, sembra una buona idea. Ho fatto cose molto peggiori in passato per abbassare la mia reputazione ...
rvl

2
@SteveS Sono d'accordo che è un buon candidato per una taglia; in effetti sono appena venuto qui per metterne uno da solo , solo per scoprire che Russ l'aveva già fatto. Se non ci sono buone risposte in una settimana, potrei prendere in considerazione l'idea di fare una seconda ricompensa. Russ: i doni su questioni interessanti tendono ad attirare abbastanza attenzione che i successivi voti spesso li pagano comunque, quindi la perdita di reputazione spesso è molto meno ripida di quanto sembri a prima vista.
Glen_b -Restate Monica

Risposte:


6

Potresti voler dare un'occhiata al mediationpacchetto R. Include dati sperimentali come jobse in framingcui la variabile di trattamento influenza sia una variabile di risposta sia le covariate (cioè i mediatori dell'effetto del trattamento), insieme alle covariate non interessate dal trattamento.

Ho esaminato la letteratura sulla mediazione perché ho pensato che tu abbia descritto esattamente uno studio di mediazione: l'effetto del fertilizzante sulla qualità delle colture è mediato dal suo effetto sull'acidità del suolo. Anche se i set di dati nel mediationpacchetto non ti soddisfano, potresti trovarne uno se dai un'occhiata alla letteratura sulla mediazione.


Grazie. Ho installato il pacchetto e lo guarderò. E un'opportunità per imparare qualcosa di nuovo.
rvl

Interessante che i dati sui lavori siano stati menzionati in due dei tre colloqui in una sessione di JSM a cui ho appena partecipato ...
rvl

1
Beh, vorrei poter dividere la taglia in qualche modo. Ma questo pacchetto ha set di dati pronti che sono molto adatti a quello che ho chiesto, quindi @MasatoNakazawa ottiene la generosità. Grazie mille. Utilizzando i framingdati, i diagrammi di interazione di LSmeans (basati su un modello logistico) quando la variabile mediatrice sono fissati sono drammaticamente diversi da quelli in cui è impostato su valori previsti da trattamenti e altre covariate, mostrando così quanto sia importante assumere la mediazione variabile in considerazione.
rvl

1
Grazie dottor Lenth. In realtà ho citato i tuoi articoli nella mia tesi di laurea. Sono onorato di essere stato in qualche modo in grado di aiutare uno statistico affermato come te.
Masato Nakazawa,

4

Ho pensato di mostrare come esce un'analisi con uno dei set di dati nel pacchetto di mediazione . In framing, viene condotto un esperimento in cui i soggetti hanno l'opportunità di inviare un messaggio al Congresso sull'immigrazione. Tuttavia, ad alcuni soggetti ( treat=1) è stato inizialmente mostrato un telegiornale che ritrae i latini in modo negativo. Oltre alla risposta binaria (indipendentemente dal fatto che abbiano inviato o meno un messaggio), abbiamo anche misurato emplo stato emotivo dei soggetti dopo l'applicazione del trattamento. Esistono anche varie variabili demografiche.

Innanzitutto, cariciamo i pacchetti necessari in R e cambiamo le etichette per educstringhe più brevi.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Adatta ora un modello di regressione logistica

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Ecco una visualizzazione dei mezzi adeguati convenzionali, dove predizioni sono fatte con covariate age, incomee emoimpostate sui valori medi:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Grafico di interazione dei "mezzi adeguati" convenzionali, trasformato nella scala di risposta)

Questo è un risultato curioso perché gli effetti del trattamento visualizzati sono l'opposto per le donne come per i maschi e l'effetto dell'educazione non è monotono come ci si potrebbe aspettare.

Nota, hHowever, emoè una misurazione post-trattamento. Ciò significa che il trattamento avrebbe potuto influenzarlo, ovvero emouna covariata mediatrice; e quindi potrebbe non essere significativo confrontare le previsioni della variabile di risposta mantenendo emocostante. Invece, diamo un'occhiata alle previsioni su dove emosono impostati i valori previsti treate alle variabili demografiche.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Diagramma di interazione delle previsioni che tengono conto degli effetti di mediazione)

Questo risultato è abbastanza diverso, suggerendo che emosvolge un forte ruolo di mediazione. (Il pacchetto di mediazione ha funzioni per stimare la forza di questi effetti.) Le predizioni di cui sopra suggeriscono che, tenendo conto della risposta emotiva, i soggetti maschi esposti alla notizia negativa hanno maggiori probabilità di inviare il messaggio rispetto alle femmine o a coloro che non vedono il storia di notizie negative. Inoltre, l'effetto di educè (quasi) monotono.

Grazie ancora a @MasatoNakagawa per avermi indicato questo interessante esempio e avermi sintonizzato su alcune recenti ricerche sulla causalità.


3

Cerca gli studi GWAS sulle interazioni gene-ambiente. L'analisi statistica che svolgono in sostanza è ciò che hai descritto. La domanda è: il tuo ambiente è importante per un fenotipo (caratteristica osservabile)? Una scuola di pensiero generalmente ignora tutte le informazioni ambientali e afferma che la tua composizione genetica descrive il tuo fenotipo. Ciò è in completo contrasto con gli studi ecologici in cui la storia è l'ambiente è tutto e ignorano i geni. Dal momento che entrambe le parti stanno cercando di capire lo stesso problema, ci sono stati recenti tentativi di fondere i due.

Supponiamo che stiamo studiando BMI. Prendiamo i primi pochi componenti principali della matrice genetica come effetti fissi dovuti ai geni. Adattiamo l'educazione con un indice 1 per i più istruiti e 0 per i meno istruiti come effetto fisso. Esiste una correlazione ragionevolmente forte tra l'indice di istruzione e la ricchezza della comunità di provenienza. Quindi si potrebbe sostenere che le comunità a basso reddito hanno maggiori probabilità di avere più fast food. Il fast food agisce come un innesco obesogenico. "Attiva qualcosa nella tua struttura genetica che incoraggia l'accumulo di grasso", quindi apparirà nella composizione genetica in qualche forma.

La simulazione di tali dati non è un problema. Consultare

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Questo ti consente di simulare i dati GWAS (pensali come unità genetiche) responsabili di un sintomo. Se non indicato diversamente, genererà 1000 con il sintomo e 1000 controlli. La norma in queste simulazioni che utilizzo è 9990 SNP non causano il sintomo e 10 SNP. Leggi le istruzioni su come vengono simulate.

L'output sarà 1 se la persona è obesa e 0 se non lo è. Simula i fattori educativi (istruzione universitaria terminata / istruzione universitaria non finita) in base a una ragionevole correlazione con i livelli di obesità.

Spero che sia di aiuto!!!


Grazie. Continuo a cercare dati reali però ... Inoltre non sono sicuro di cosa sia uno studio GWAS. DUH, appena scoperto seguendo il link.
rvl

Anche se ho dato la generosità a un altro intervistato, apprezzo questo suggerimento e intendo seguirlo. Grazie.
rvl

1

Consiglio di leggere Freakonomics e di trovare i documenti su cui si basa il loro lavoro, e di vedere se riesci a prendere quei dati. Hanno un lavoro davvero interessante su set di dati davvero interessanti e in alcuni casi escogitano modi molto intelligenti per testare le ipotesi nonostante le limitazioni nei dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.