Sono un po 'confuso se una variabile indipendente (chiamata anche predittore o caratteristica) in un modello statistico, ad esempio la nella regressione lineare , è una variabile casuale?
Sono un po 'confuso se una variabile indipendente (chiamata anche predittore o caratteristica) in un modello statistico, ad esempio la nella regressione lineare , è una variabile casuale?
Risposte:
Esistono due formulazioni comuni di regressione lineare. Per concentrarmi sui concetti, li astrarrò un po '. La descrizione matematica è un po 'più complessa della descrizione inglese, quindi cominciamo con quest'ultima:
La regressione lineare è un modello in cui si presume che una risposta sia casuale con una distribuzione determinata dai regressori tramite una mappa lineare e, possibilmente, da altri parametri .
Nella maggior parte dei casi, l'insieme delle possibili distribuzioni è una famiglia di posizioni con i parametri e e fornisce il parametro . L'esempio archetipico è la regressione ordinaria in cui l'insieme delle distribuzioni è la famiglia normale ( μ , σ ) e è una funzione lineare dei regressori.
Poiché non l'ho ancora descritto matematicamente, è ancora una domanda aperta a quali tipi di oggetti matematici , , e riferiscono - e credo che questo sia il problema principale in questo thread. Sebbene si possano fare varie (equivalenti) scelte, la maggior parte sarà equivalente o casi speciali della seguente descrizione.
Regressori fissi. I regressori sono rappresentati come vettori reali . La risposta è una variabile casuale (dove è dotato di un campo sigma e probabilità). Il modello è una funzione (o, se lo si desidera, un insieme di funzioni parametrizzate da ). è una submanifold topologica di dimensioni finite (di solito seconda differenziabile) (o submanifold-with-boundary) della dimensione dello spazio delle distribuzioni di probabilità. è generalmente considerato continuo (o sufficientemente differenziabile). sono i "parametri di disturbo." Si presume che la distribuzione di sia per qualche vettore doppio sconosciuto (i "coefficienti di regressione") e sconosciuto . Possiamo scrivere questo
Regressori casuali. I regressori e la risposta sono vettore tridimensionale valori variabile casuale . Il modello è lo stesso tipo di oggetto di prima, ma ora fornisce la probabilità condizionata
La descrizione matematica è inutile senza alcune prescrizioni che spiegano come si intende applicare ai dati. Nel caso del regressore fisso concepiamo come specificato dallo sperimentatore. Pertanto, potrebbe essere utile visualizzare come prodotto dotato di una sigma algebra di prodotto. Lo sperimentatore determina e la natura determina (alcuni sconosciuti, astratti) . Nel caso del regressore casuale, la natura determina , il componente della variabile casuale determina (che è "osservato"), e ora abbiamo una coppia ordinata esattamente come nel caso del regressore fisso.
The archetypical example of multiple linear regression (which I will express using standard notation for the objects rather than this more general one) is that
When--in any fashion whatsoever-- is estimated as and as , the value of is the predicted value of associated with --whether is controlled by the experimenter (case 1) or is only observed (case 2). If we either set a value (case 1) or observe a realization (case 2) of , then the response associated with that is a random variable whose distribution is , which is unknown but estimated to be .
First of all, @whuber gave an excellent answer. I'll give it a different take, maybe simpler in some sense, also with a reference to a text.
can be random or fixed in the regression formulation. This depends on your problem. For so called observational studies it has to be random, and for experiments it usually is fixed.
Example one. I'm studying the impact of exposure to electron radiation on the hardness of a metal part. So, I take a few samples of the metal part and expose the to varying levels of radiation. My exposure level is X, and it's fixed, because I set to the levels that I chose. I fully control the conditions of the experiment, or at least try to. I can do the same with other parameters, such as temperature and humidity.
Example two. You're studying the impact of economy on frequency of occurrences of fraud in credit card applications. So, you regress the fraud event counts on GDP. You do not control GDP, you can't set to a desired level. Moreover, you probably want to look at multivariate regressions, so you have other variables such as unemployment, and now you have a combination of values in X, which you observe, but do not control. In this case X is random.
Example three. You are studying the efficacy of new pesticide in field, i.e. not in the lab conditions, but in the actual experimental farm. In this case you can control something, e.g. you can control the amount of pesticide to put. However, you do not control everything, e.g. weather or soil conditions. Ok, you can control the soil to some extent, but not completely. This is an in-between case, where some conditions are observed and some conditions are controlled. There's this entire field of study called experimental design that is really focused on this third case, where agriculture research is one of the biggest applications of it.
Here goes the mathematical part of an answer. There's a set of assumptions that are usually presented when studying linear regression, called Gauss-Markov conditions. They are very theoretical and nobody bothers to prove that they hold in any practical set up. However, they are very useful in understanding the limitations of ordinary least squares (OLS) method.
So, the set of assumptions is different for random and fixed X, which roughly correspond to observational vs. experimental studies. Roughly, because as I shown in the third example, sometimes we're really in-between the extremes. I found the "Gauss-Markov" theorem section in Encyclopedia of Research Design by Salkind is a good place to start, it's available in Google Books.
vs. the same assumptions in the random design:
As you can see the difference is in conditioning the assumptions on the design matrix for the random design. Conditioning makes these stronger assumptions. For instance, we are not just saying, like in fixed design, that the errors have zero mean; in random design we also say they're not dependent on X, covariates.
In statistics a random variable is quantity that varies randomly in some way. You can find a good discussion in this excellent CV thread: What is meant by a “random variable”?
In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:
Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.
An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).
There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.