Ho esaminato molti set di dati R, pubblicazioni in DASL e altrove e non sto trovando molti esempi validi di set di dati interessanti che illustrano l'analisi della covarianza per i dati sperimentali. Esistono numerosi set di dati "giocattolo" con dati inventati nei libri di testo delle statistiche.
Vorrei fare un esempio in cui:
- I dati sono reali, con una storia interessante
- C'è almeno un fattore di trattamento e due covariate
- Almeno una covariata è influenzata da uno o più dei fattori di trattamento e una non è influenzata dai trattamenti.
- Preferibilmente sperimentale piuttosto che osservativo
sfondo
Il mio vero obiettivo è trovare un buon esempio da inserire nella vignetta per il mio pacchetto R. Ma un obiettivo più grande è che le persone hanno bisogno di vedere buoni esempi per illustrare alcune importanti preoccupazioni nell'analisi della covarianza. Considera il seguente scenario inventato (e per favore comprendi che la mia conoscenza dell'agricoltura è al massimo superficiale).
- Facciamo un esperimento in cui i fertilizzanti sono randomizzati in trame e viene piantato un raccolto. Dopo un periodo di crescita adeguato, raccogliamo il raccolto e misuriamo alcune caratteristiche di qualità - questa è la variabile di risposta. Ma registriamo anche precipitazioni totali durante il periodo di crescita e acidità del suolo al momento del raccolto - e, naturalmente, quale fertilizzante è stato utilizzato. Quindi abbiamo due covariate e un trattamento.
Il solito modo di analizzare i dati risultanti sarebbe quello di adattare un modello lineare al trattamento come fattore e effetti additivi per le covariate. Quindi per riassumere i risultati, si calcolano i "mezzi corretti" (mezzi dei minimi quadrati dell'AKA), che sono previsioni dal modello per ciascun fertilizzante, alla piovosità media e all'acidità media del suolo 3. Questo pone tutto su un piano di parità, perché quando confrontiamo questi risultati, manteniamo costante la pioggia e l'acidità.
Ma questa è probabilmente la cosa sbagliata da fare, perché il fertilizzante probabilmente influenza l'acidità del suolo e la risposta. Questo rende i mezzi adeguati fuorvianti, perché l'effetto del trattamento include il suo effetto sull'acidità. Un modo per gestirlo sarebbe quello di togliere l'acidità dal modello, quindi i mezzi adeguati alla pioggia fornirebbero un confronto equo. Ma se l'acidità è importante, questa equità ha un costo elevato, nell'aumento della variazione residua.
Esistono modi per aggirare questo problema utilizzando una versione modificata di acidità nel modello anziché i suoi valori originali. Il prossimo aggiornamento del mio pacchetto R lsmeans renderà tutto ciò estremamente semplice. Ma voglio avere un buon esempio per illustrarlo. Sarò molto grato e riconoscerò debitamente chiunque sia in grado di indicarmi alcuni buoni set di dati illustrativi.