Spero sinceramente di aver formulato questa domanda in modo tale da poter dare una risposta definitiva - in caso contrario, per favore fatemi sapere e proverò di nuovo! Dovrei anche supporre che userò R per queste analisi.
Ho diverse misure di plant performance (Ys)
cui sospetto siano state influenzate da quattro trattamenti che ho imposto-- flower thinning (X1), fertilization (X2), leaf clipping (X3)
e biased flower thinning (X4)
. Per tutte le possibili Y, N è almeno 242, quindi le dimensioni del mio campione erano grandi. Tutti i grafici sono stati sottoposti a diradamento o meno, ma ogni diagramma è stato anche sottoposto a uno (e solo uno) degli altri tre trattamenti (oppure no - c'erano anche diagrammi di controllo). L'idea di questo progetto era di verificare se gli altri tre trattamenti fossero in grado di "mascherare" o "migliorare" gli effetti del diradamento. Pertanto, in base alla progettazione, questi ultimi tre trattamenti (X2-X4) non potevano interagire l'uno con l'altro perché non erano incrociati, ma ciascuno di essi può interagire con il diradamento dei fiori - e probabilmente lo fanno.
Le mie ipotesi esplicite sono che 1) il diradamento della fioritura sarà significativo e che 2) anche i termini di interazione, X1*X2, X1*X3, and X1*X4,
tra il diradamento dei fiori e gli altri tre trattamenti saranno significativi. Cioè, il diradamento dei fiori dovrebbe avere importanza, ma i modi in cui conta dovrebbero essere modificati in modo significativo da ciò che hanno fatto gli altri tre trattamenti.
Vorrei includere tutte queste informazioni in un modello misto:
Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)
Ma c'è un problema: ho buone ragioni per credere che gli effetti del diradamento su Y non siano lineari. Probabilmente sono quadratici ma forse anche cubici in alcuni casi. Questo perché è molto probabile che gli effetti del diradamento sulle prestazioni aumentino più rapidamente a livelli più elevati di diradamento. Se provo a modellare questa relazione non lineare tramite l'equazione sopra aggiungendo termini quadratici e cubici per X1, allora non sono sicuro di come modellare i termini di interazione - dovrei includere ogni possibile combinazione di X1, (X1) ^ 2 e (X1) ^ 3 * X2, X3 e X4? Perché sembra che ci siano molti parametri da provare per stimare, anche con il numero di punti dati che ho, e non sono sicuro di come interpretare i risultati che otterrei. Detto questo, non ho alcun motivo biologico per pensare che questo sarebbe un modo imprudente per modellare la situazione.
Quindi, ho tre pensieri su come affrontare questo problema:
- Montare prima un modello più piccolo, ad esempio
Y ~ X1 + X1^2 + X^3 + Random effects
, con l'unico scopo di capire se la relazione tra l'assottigliamento e Y sia lineare, quadratica o cubica, quindi trasformare l'assottigliamento tramite una radice quadrata o cubica per linearizzare la relazione in modo appropriato. Da lì, i termini di interazione possono essere modellati come sopra con la variabile trasformata.- Supponiamo che interazioni significative, se si verificano, influenzano solo uno dei termini X1 (ovvero solo il termine lineare, quadratico o cubico) e modellano le interazioni di conseguenza. Non sono nemmeno sicuro che questo approccio abbia senso.
- Basta adattare il "modello completo" con ogni possibile termine di interazione tra i termini di assottigliamento e gli altri trattamenti come discusso sopra. Quindi, elimina i termini di interazione insignificanti e usa grafici e altre tecniche per interpretare i risultati.
Quale di questi approcci, se del caso, ha più senso e perché, dato che sono interessato al test delle ipotesi e non alla selezione dei modelli? In particolare, se il n. 1 sopra non ha senso fare, perché? Ho letto questo articolo e questo articolo e ho cercato di digerire cosa potrebbero significare per me, ma anche qualsiasi fonte per ulteriori letture sarebbe molto apprezzata!