Non dovresti fare nulla di tutto ciò. Questo è un processo decisionale non valido.
Nel migliore dei mondi possibili, crea una serie di do loop e passa attraverso l'insieme di tutte le possibili combinazioni di variabili. Calcola l'AIC o il BIC. Se non sai nulla di nessuno dei due, scegline uno perché di solito danno lo stesso risultato.
Il modello con AIC o BIC più basso è probabilmente il modello più vicino al vero modello in natura. Il significato statistico non ha alcuna importanza. Se anche il modello migliore non è significativo, non è significativo. Potrebbe solo significare che gli altri modelli hanno un significato spurio. Allo stesso modo, se il modello scelto è significativo sotto il test F, ma ha variabili non significative, non è possibile modificarle.
Se non sai come scrivere do do loop o for-next loop, trova un pacchetto con regressione graduale. Non coprirà tutti i modelli, ma coprirà molti. Utilizzare lo stesso criterio o AIC o BIC.
Poiché stai affermando che il valore nullo è vero, non puoi avere più di un valore nullo. Non significa nulla se si aggiungono o sottraggono variabili perché si modifica il valore null ogni volta e non è possibile farlo. L'AIC o BIC sono metodi non frequentisti per stimare il modello reale e quindi la soluzione dell'uso ignora la domanda di significato fino a quando non viene scelto il modello.
MODIFICARE
Ho pensato di fornire una modifica per coprire le dichiarazioni nel commento.
Per cominciare, sono d'accordo con il commento. Ho pensato che avrei dovuto basare meglio l'affermazione di cui sopra sulla logica che sta dietro.
I vari criteri di informazione, l'AIC, il BIC, il DIC e così via, possono essere basati sulla teoria dell'informazione o sulla teoria bayesiana.
Da una prospettiva teorica dell'informazione, se si dispone di informazioni esterne su quali modelli debbano essere inclusi o esclusi dalla teoria o dall'esperienza, tali informazioni devono essere incorporate. Dal momento che non esiste un metodo diretto per unirli insieme, è necessario utilizzare il giudizio su quali modelli guardare.
Da una prospettiva bayesiana, i vari criteri di informazione sono approssimazioni stilizzate dei punti del posteriore bayesiano secondo ipotesi piuttosto restrittive. Per molti aspetti, non sono buoni proxy perché minore è la densità posteriore, minore è la probabilità che sia vera, mentre il contrario è vero nel criterio. È meglio pensarli entrambi come classifiche e fornirebbero lo stesso ordinamento di classifiche.
Ora ci sono due questioni bayesiane presenti. Il primo deriva dal fatto che è possibile costruire la teoria bayesiana dagli assiomi di Cox. Gli assiomi di Cox sono costruiti attorno alla logica aristotelica. Utilizzeresti i metodi bayesiani per valutare le affermazioni logiche. Se alcune affermazioni non necessitano di valutazione o potrebbero essere escluse dalla logica, dovrebbero essere escluse dalla considerazione.
Il secondo deriva dalla natura della densità precedente. Se hai una conoscenza preliminare che alcuni casi non possono essere veri, allora dovresti dare loro zero peso precedente. Ciò li escluderebbe dalla considerazione.
Tuttavia, il metodo combinatorio dovrebbe essere preso in considerazione perché si associa a un argomento bayesiano e il criterio di informazione è una costruzione non frequentista e quindi non dovresti usare i criteri frequentista nel prendere questo tipo di decisione.
Le ipotesi bayesiane sono combinatorie. Se stai testando il modello e non hai motivi logici per escludere alcun caso, dovrai testare otto ipotesi, rimuovendo una, due o tre variabili alla volta . Questo è l'equivalente pratico dell'ipotesi del frequentista che che non può essere testato nei metodi bayesiani perché è un'ipotesi nulla netta e di misura zero. Rimuovere una variabile e assumere che il suo coefficiente sia zero è la stessa cosa.β i = 0
y=β0+β1x1+β2x2+β3x3+ε
βi=0
Poiché i metodi bayesiani mancano di un'ipotesi nulla, che è sia un punto di forza che un difetto, nessuna ipotesi ottiene un trattamento speciale o peso speciale, assenza di informazioni esterne materiali. Testare la probabilità posteriore di ogni possibile modello come parte del processo.
Ora, qui entra in gioco un'obiezione legittima. I criteri di informazione sono approssimazioni stilizzate del posteriore reale. In alcuni casi, sono approssimazioni perfette ma possono essere scarse approssimazioni in altri casi. Nel caso perfetto dell'approssimazione, dovresti utilizzare il criterio informativo appropriato per il tuo problema e la tua preoccupazione non riguarda il criterio, ma piuttosto la rappresentatività dei tuoi dati. Nel caso di scarsa approssimazione, infatti, si potrebbero invertire strette differenze se il posteriore fosse effettivamente calcolato. Man mano che moltiplichi le tue combinazioni, maggiore sarà la probabilità di un singolo errore a coppie. Tuttavia, poiché non stai facendo la media del modello, ma la selezione del modello probabilmente non saranno le due coppie più alte.
L'uso di strumenti come il criterio di informazione evidenzia un problema nelle misure basate sui dati rispetto a metodi basati su un'ipotesi nulla reale, le combinazioni mostrano quanto pochi dati indipendenti potrebbero essere disponibili. Se non stai cercando il modello, ma invece testando l'unico vero modello, perderai alcuni gradi di libertà e, a meno che tu non abbia problemi di collinearità, allora starai bene se il tuo campione è di dimensioni ragionevoli. Nel mio esempio sopra, è abbastanza come dividere il campione per otto. Non è un processo sottrattivo come si vedrebbe con gradi di libertà, è più simile a un processo di divisione. Aggiungete a ciò le correlazioni interne e potrebbe non esserci molto in termini di informazioni indipendenti nel vostro set.
Tuttavia, non mi sembrava che tu abbia sentito di avere un modello mentale di come dovrebbero essere le relazioni, quindi consiglierei comunque la soluzione combinatoria o saggia.