Vorrei iniziare dicendo che penso che la tua prima domanda e il primo modello R siano incompatibili tra loro. In R, quando scriviamo una formula con uno -1
o +0
, stiamo sopprimendo l'intercetta. Pertanto, ti lm(y ~ group + x:group - 1)
impedisce di essere in grado di dire se le intercettazioni differiscono significativamente da 0. Nella stessa vena, nei tuoi due modelli seguenti, questo +1
è superfluo, l'intercettazione viene stimata automaticamente in R. Ti consiglio di utilizzare la codifica delle celle di riferimento ( chiamato anche 'codifica fittizia') per rappresentare i tuoi gruppi. Cioè, con i gruppi , creagg−1nuove variabili, selezionare un gruppo come predefinito e assegnare 0 alle unità di quel gruppo in ciascuna delle nuove variabili. Quindi ogni nuova variabile viene utilizzata per rappresentare l'appartenenza a uno degli altri gruppi; le unità che rientrano in un dato gruppo sono indicate con 1 nella variabile corrispondente e 0 altrove. Quando vengono restituiti i coefficienti, se l'intercettazione è "significativa", il gruppo predefinito ha un'intercetta diversa da zero. Sfortunatamente, i test di significatività standard per gli altri gruppi non ti diranno se differiscono da 0, ma piuttosto se differiscono dal gruppo predefinito. Per determinare se differiscono da 0, aggiungere i loro coefficienti all'intercetta e dividere la somma per i loro errori standard per ottenere i loro valori t. La situazione con le pendenze sarà simile: cioè la prova diXti dirà se la pendenza del gruppo predefinito differisce in modo significativo da 0 e i termini di interazione ti diranno se le pendenze di tali gruppi differiscono dai gruppi predefiniti. I test per le pendenze degli altri gruppi rispetto a 0 possono essere costruiti proprio come per le intercettazioni. Ancora meglio sarebbe adattarsi a un modello "limitato" senza nessuna delle variabili dell'indicatore di gruppo o dei termini di interazione e testare questo modello rispetto al modello completo con anova()
, che ti dirà se i tuoi gruppi differiscono in modo significativo.
Detto questo, la tua domanda principale è se tutto ciò sia accettabile . Il problema di fondo qui è il problema di confronti multipli . Questa è una questione di vecchia data e spinosa, con molte opinioni. (Puoi trovare maggiori informazioni su questo argomento nel CV esaminando le domande taggate con questa parola chiave .) Mentre le opinioni sono certamente diverse su questo argomento, penso che nessuno ti biasimerebbe per aver eseguito molte analisi sullo stesso set di dati a condizione che le analisi fossero ortogonali . Generalmente, i contrasti ortogonali sono pensati nel contesto di capire come confrontare un insieme di gruppi tra di lorog, tuttavia, non è questo il caso qui; la tua domanda è insolita (e, penso, interessante). Per quanto posso vedere, se volessi semplicemente partizionare il tuo set di dati in sottogruppi separati ed eseguire un semplice modello di regressione su ciascuno che dovrebbe essere OK. La domanda più interessante è se l'analisi "crollata" può essere considerata ortogonale all'insieme delle singole analisi; Non credo, perché dovresti essere in grado di ricreare l'analisi collassata con una combinazione lineare delle analisi di gruppo. g
Una domanda leggermente diversa è se farlo sia davvero significativo. Immagine che si esegue un'analisi iniziale e scoprire che i gruppi differiscono l'uno dall'altro in modo sostanzialmente significativo; che senso ha riunire questi gruppi divergenti in un insieme non combinato? Ad esempio, immagina che i gruppi differiscano (in qualche modo) nelle loro intercettazioni, quindi almeno alcuni gruppi non hanno un'intercetta 0. Se esiste un solo gruppo, l'intercettazione per l'intero sarà solo 0 se quel gruppo ha nella popolazione pertinente. In alternativa, supponiamo che ci siano esattamente 2 gruppi con intercettazioni diverse da zero con una positiva e una negativa, quindi l'intero avrà un'intercetta 0 solo seng=0nQuesti gruppi sono in proporzione inversa alle dimensioni delle divergenze delle intercettazioni. Potrei continuare qui (ci sono molte più possibilità), ma il punto è che stai ponendo domande su come le dimensioni dei gruppi si collegano alle differenze nei valori dei parametri. Francamente, queste sono domande strane per me.
Suggerirei di seguire il protocollo che ho delineato sopra. Vale a dire, manichino codificare i tuoi gruppi. Quindi adatta un modello completo con tutti i manichini e i termini di interazione inclusi. Adatta un modello ridotto senza questi termini ed esegui un test del modello nidificato. Se i gruppi differiscono in qualche modo, segui con (si spera) contrasti ortogonali a priori (guidati teoricamente) per capire meglio come differiscono i gruppi. (E trama - sempre, trama sempre .)