Devi pensare a cosa intendi per "limite". Esistono limiti, ad esempio quando si hanno più predittori che casi, si verificano problemi nella stima dei parametri (vedere la piccola simulazione R in fondo a questa risposta).
Tuttavia, immagino che tu stia parlando di più di limiti soft legati al potere statistico e alle buone pratiche statistiche. In questo caso il linguaggio dei "limiti" non è proprio appropriato. Piuttosto, campioni di dimensioni maggiori tendono a rendere più ragionevole avere più predittori e la soglia di quanti predittori è ragionevole ricade probabilmente su un continuum di ragionevolezza. È possibile trovare pertinente la discussione delle regole empiriche per la dimensione del campione nella regressione multipla , poiché molte di queste regole empiriche fanno riferimento al numero di predittori.
Alcuni punti
- Se si è interessati più alla previsione complessiva che alla rilevanza statistica dei singoli predittori, è probabilmente ragionevole includere un numero maggiore di predittori rispetto alla previsione statistica dei singoli predittori.
- Se sei più interessato a testare un modello statistico specifico correlato alla tua domanda di ricerca (ad esempio, come è comune in molte applicazioni di scienze sociali), presumibilmente hai motivi per includere determinati predittori. Tuttavia, potresti anche avere l'opportunità di essere selettivo in quali predittori includi (ad esempio, se hai più variabili che misurano un costrutto simile, potresti includerne solo uno). Quando si eseguono test di modello basati sulla teoria, ci sono molte scelte e la decisione su quali predittori includere implica una stretta connessione tra la teoria e la domanda di ricerca.
- Non vedo spesso i ricercatori che utilizzano correzioni bonferroni applicate ai test di significatività dei coefficienti di regressione. Una ragione ragionevole per questo potrebbe essere che i ricercatori sono più interessati a valutare le proprietà complessive del modello.
- Se sei interessato a valutare l'importanza relativa dei predittori, trovo utile esaminare sia la relazione bivariata tra il predittore e il risultato, sia la relazione tra il predittore e il controllo del risultato per altri predittori. Se includi molti predittori, è spesso più probabile che tu includa predittori altamente intercorrelati. In tali casi, l'interpretazione degli indici di importanza sia del bivariato che del modello può essere utile, in quanto una variabile importante in senso bivariato potrebbe essere nascosta in un modello da altri predittori correlati ( ne elaboro di più qui con collegamenti ).
Una piccola simulazione R.
Ho scritto questa piccola simulazione per evidenziare la relazione tra dimensione del campione e stima dei parametri nella regressione multipla.
set.seed(1)
fitmodel <- function(n, k) {
# n: sample size
# k: number of predictors
# return linear model fit for given sample size and k predictors
x <- data.frame(matrix( rnorm(n*k), nrow=n))
names(x) <- paste("x", seq(k), sep="")
x$y <- rnorm(n)
lm(y~., data=x)
}
La fitmodel
funzione accetta due argomenti n
per la dimensione del campione e k
per il numero di predittori. Non sto contando la costante come un predittore, ma è stimata. Quindi genera dati casuali e adatta un modello di regressione che prevede una variabile dalle k
variabili predittive e restituisce l'adattamento.
Dato che nella tua domanda hai indicato che eri interessato al fatto che 10 predittori siano troppo, le seguenti chiamate di funzione mostrano cosa succede quando la dimensione del campione è rispettivamente 9, 10, 11 e 12. Vale a dire, la dimensione del campione è uno in meno del numero di predittori a due in più del numero di predittori
summary(fitmodel(n=9, k=10))
summary(fitmodel(n=10, k=10))
summary(fitmodel(n=11, k=10))
summary(fitmodel(n=12, k=10))
> riepilogo (fitmodel (n = 9, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.31455 NA NA NA
x1 0.34139 NA NA NA
x2 -0.45924 NA NA NA
x3 0.42474 NA NA NA
x4 -0.87727 NA NA NA
x5 -0.07884 NA NA NA
x6 -0.03900 NA NA NA
x7 1.08482 NA NA NA
x8 0.62890 NA NA NA
x9 NA NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 8 and 0 DF, p-value: NA
La dimensione del campione è una in meno rispetto al numero di predittori. È possibile stimare solo 9 parametri, uno dei quali è la costante.
> riepilogo (fitmodel (n = 10, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1724 NA NA NA
x1 -0.3615 NA NA NA
x2 -0.4670 NA NA NA
x3 -0.6883 NA NA NA
x4 -0.1744 NA NA NA
x5 -1.0331 NA NA NA
x6 0.3886 NA NA NA
x7 -0.9886 NA NA NA
x8 0.2778 NA NA NA
x9 0.4616 NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 9 and 0 DF, p-value: NA
La dimensione del campione è uguale al numero di predittori. È possibile stimare solo 10 parametri, uno dei quali è la costante.
> riepilogo (fitmodel (n = 11, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 11 residuals are 0: no residual degrees of freedom!
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.9638 NA NA NA
x1 -0.8393 NA NA NA
x2 -1.5061 NA NA NA
x3 -0.4917 NA NA NA
x4 0.3251 NA NA NA
x5 4.4212 NA NA NA
x6 0.7614 NA NA NA
x7 -0.4195 NA NA NA
x8 0.2142 NA NA NA
x9 -0.9264 NA NA NA
x10 -1.2286 NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 10 and 0 DF, p-value: NA
La dimensione del campione è uno in più rispetto al numero di predittori. Tutti i parametri sono stimati inclusa la costante.
> riepilogo (fitmodel (n = 12, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
1 2 3 4 5 6 7 8 9 10 11
0.036530 -0.042154 -0.009044 -0.117590 0.171923 -0.007976 0.050542 -0.011462 0.010270 0.000914 -0.083533
12
0.001581
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.14680 0.11180 1.313 0.4144
x1 0.02498 0.09832 0.254 0.8416
x2 1.01950 0.13602 7.495 0.0844 .
x3 -1.76290 0.26094 -6.756 0.0936 .
x4 0.44832 0.16283 2.753 0.2218
x5 -0.76818 0.15651 -4.908 0.1280
x6 -0.33209 0.18554 -1.790 0.3244
x7 1.62276 0.21562 7.526 0.0841 .
x8 -0.47561 0.18468 -2.575 0.2358
x9 1.70578 0.31547 5.407 0.1164
x10 3.25415 0.46447 7.006 0.0903 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2375 on 1 degrees of freedom
Multiple R-squared: 0.995, Adjusted R-squared: 0.9452
F-statistic: 19.96 on 10 and 1 DF, p-value: 0.1726
La dimensione del campione è due in più rispetto al numero di predittori ed è finalmente possibile stimare l'adattamento del modello complessivo.