Non puoi confrontare i due modelli in quanto non modellano la stessa variabile (come ti riconosci correttamente). Tuttavia, l'AIC dovrebbe funzionare quando si confrontano modelli nidificati e non nidificati.
Solo un promemoria prima di continuare: viene data una probabilità logaritmica gaussiana
log( L ( θ ) ) = - | D |2log( 2 π)−12log(|K|)−12(x−μ)TK−1(x−μ),
è la struttura di covarianza del tuo modello, | D | il numero di punti nei set di dati, μ la risposta media e x la variabile dipendente.K|D|μx
Più specificamente, l'AIC è calcolato per essere uguale a , dove k è il numero di effetti fissi nel modello e L la funzione di probabilità [1]. Confronta praticamente il compromesso tra varianza ( 2 k ) e distorsione (2k−2log(L)kL2k ) nelle ipotesi di modellazione. Come tale, nel tuo caso, confronterebbe due diverse strutture di verosimiglianza quando si arrivasse al termine del bias. Questo perché quando si calcola la probabilità di log praticamente si osservano due termini: un termine adatto, indicato da - 12log(L)e un termine di penalizzazione della complessità, indicato da-1−12(x−μ)TK−1(x−μ). Quindi vedi che il tuo termine adatto è completamente diverso tra i due modelli; nel primo caso si confrontano i residui dai dati grezzi e nell'altro caso i residui dei dati registrati.- 12log( | K| )
Oltre a Wikipedia, AIC è anche definito per equiparare: [3]; questa forma rende ancora più ovvio il motivo per cui diversi modelli con diversa variabile dipendente non sono comparabili. L'RSS è il caso due è semplicemente incomparabile tra i due.| D | log( R SS| D |) +2k
Il documento originale di Akaike [4] è in realtà abbastanza difficile da capire (penso). Si basa sulla divergenza di KL (differenza tra due distribuzioni in termini approssimativi) e lavora per dimostrare come è possibile approssimare la vera distribuzione sconosciuta dei dati e confrontarla con la distribuzione dei dati assunti dal modello. Ecco perché "il punteggio AIC più piccolo è migliore" ; sei più vicino alla vera distribuzione approssimativa dei tuoi dati.
Quindi per mettere tutto insieme le cose ovvie da ricordare quando si utilizza AIC sono tre [2,5]:
Non è possibile utilizzarlo per confrontare i modelli di diversi set di dati.
È necessario utilizzare le stesse variabili di risposta per tutti i modelli candidati.
Dovresti avere , perché altrimenti non si ottiene buona consistenza asintotica.| D | > > K
Mi dispiace dirti le cattive notizie ma usare AIC per mostrare che stai scegliendo una variabile dipendente piuttosto che un'altra non è una cosa statisticamente valida da fare. Controlla la distribuzione dei tuoi residui in entrambi i modelli, se il caso dei dati registrati ha normalmente residui distribuiti e il caso dei dati grezzi no, hai tutta la giustificazione di cui potresti mai aver bisogno. Potresti anche voler verificare se i tuoi dati grezzi corrispondono a un lognormale, che potrebbe anche essere una giustificazione sufficiente.
Per rigorose ipotesi matematiche il gioco è la divergenza di KL e la teoria dell'informazione ...
Ah, e alcuni riferimenti:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Akaike Information Criterion, Shuhua Hu, (Presentazione p.17-18)
- Analisi statistica multivariata applicata, Johnson & Wichern, 6a edizione (p. 386-387)
- Un nuovo sguardo all'identificazione del modello statistico, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Tutorial per la selezione del modello n. 1: Akaike's Information Criterion, D. Schmidt ed E. Makalic, (Presentazione p.39)