La regressione logistica è un test non parametrico?


15

Di recente ho ricevuto la seguente domanda via e-mail. Di seguito posterò una risposta, ma ero interessato a sentire cosa pensavano gli altri.

Definiresti la regressione logistica un test non parametrico? La mia comprensione è che la semplice etichettatura di un test non parametrico perché i suoi dati non sono normalmente distribuiti, è insufficiente. Ha più a che fare con la mancanza di ipotesi. la regressione logistica ha presupposti.


7
(+1) Per la cronaca - e come contrappunto alle asserzioni nella domanda - non conosco alcun riferimento affidabile che definisca (o addirittura caratterizzi) i metodi non parametrici come "privi di assunzioni". Tutte le procedure statistiche fanno ipotesi. La maggior parte delle procedure non parametriche in realtà fa ipotesi quantitative restrittive sulle distribuzioni di probabilità sottostanti, ma tali ipotesi non restringono i possibili stati di cose a un insieme che ha la struttura di una varietà reale di dimensioni finite.
whuber

Se stiamo parlando di regressione logistica lineare (che sembra essere implicita, in base alla risposta che hai scritto), ovviamente questo è un modello parametrico, ma vale la pena notare che se si adatta l'effetto covariata utilizzando una funzione liscia non parametrica, es. quindi non ci sono vincoli parametrici sulla probabilità stimata in funzione dix. Questo non è vero solo per il collegamento logistico; la stessa logica si applica a qualsiasi funzione di collegamento invertibile.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Macro

Faccio una domanda correlata qui . Sto iniziando a capire che alcuni casi del GLM (ad esempio un modello logistico) forniscono un test non parametrico. Esaminerò il libro di Wasserman, anche se (a meno che non stia ricordando male) c'è qualche disaccordo su alcuni dei principi e dei risultati del suo lavoro.
AdamO

Risposte:


19

Larry Wasserman definisce un modello parametrico come un insieme di distribuzioni "che possono essere parametrizzate da un numero finito di parametri". (p.87) Al contrario, un modello non parametrico è un insieme di distribuzioni che non possono essere parametrizzate da un numero finito di parametri.

Pertanto, secondo tale definizione , la regressione logistica standard è un modello parametrico. Il modello di regressione logistica è parametrico perché ha un set finito di parametri. In particolare, i parametri sono i coefficienti di regressione. Questi di solito corrispondono a uno per ciascun predittore più una costante. La regressione logistica è una forma particolare del modello lineare generalizzato. In particolare implica l'uso di una funzione di collegamento logit per modellare i dati distribuiti binomialmente.

È interessante notare che è possibile eseguire una regressione logistica non parametrica (ad es. Hastie, 1983). Ciò potrebbe comportare l'utilizzo di spline o qualche forma di livellamento non parametrico per modellare l'effetto dei predittori.

Riferimenti

  • Wasserman, L. (2004). Tutte le statistiche: un corso conciso di inferenza statistica. Springer Verlag.
  • Hastie, T. (1983). Regressione logistica non parametrica. SLAC PUB-3160, giugno. PDF

Un modello è un insieme di distribuzioni? Manca qualcosa di essenziale.
rolando2,

È normale porre una domanda e rispondere da soli?


Ok scusa, non lo sapevo

Nessun problema. Per me il punto principale del sito è creare risorse che gli altri scoprono quando cercano risposte in futuro. Contribuire con le tue risposte aiuta in tutto ciò.
Jeromy Anglim,

16

Direi che la regressione logistica non è affatto un test; tuttavia una regressione logistica può quindi portare a nessun test o test diversi.

Hai ragione nel dire che etichettare qualcosa di non parametrico perché non è normale non è sufficiente. Chiamerei la famiglia esponenziale esplicitamente parametrica, quindi di solito considererei la regressione logistica (e la regressione di Poisson e la regressione Gamma e ...) come parametrica, sebbene possano esserci circostanze in cui potrei accettare un argomento che particolari regressioni logistiche potrebbero essere considerato non parametrico (o almeno in senso vagamente ondulato, solo quasi "parametrico").

Fai attenzione a qualsiasi confusione sui due sensi in cui una regressione può essere definita non parametrica.

xyx parametrizzata dalla pendenza e dai coefficienti di intercettazione.

yX

Vengono utilizzati entrambi i sensi, ma quando si tratta di regressione, il secondo tipo viene effettivamente utilizzato più spesso.

È anche possibile essere non parametrici in entrambi i sensi, ma più difficile (con dati sufficienti, ad esempio, potrei adattare una regressione lineare ponderata localmente di Theil).

Nel caso dei GLM, la seconda forma di regressione multipla non parametrica include i GAM; quella seconda forma è il senso in cui Hastie opera generalmente (e in base al quale opera in quella citazione).


3

Una distinzione utile che potrebbe aggiungere un po 'di risposta alle risposte sopra: Andrew Ng fornisce un'euristica di cosa significhi essere un modello non parametrico nella lezione 1 dai materiali del corso per il corso CS-229 di Stanford sull'apprendimento automatico.

Lì dice Ng (pagg. 14-15):

La regressione lineare ponderata localmente è il primo esempio che vediamo di un algoritmo non parametrico. L'algoritmo di regressione lineare (non ponderato) che abbiamo visto in precedenza è noto come algoritmo di apprendimento parametrico, perché ha un numero fisso e finito di parametri (il θio's), che sono adatti ai dati. Una volta che abbiamo adattato ilθioDopo averli memorizzati e archiviati, non è più necessario conservare i dati di allenamento per fare previsioni future. Al contrario, per fare previsioni utilizzando la regressione lineare ponderata localmente, è necessario mantenere attivo l'intero allenamento. Il termine "non parametrico" (approssimativamente) si riferisce al fatto che la quantità di cose che dobbiamo conservare per rappresentare l'ipotesih cresce in modo lineare con le dimensioni del set di allenamento.

Penso che questo sia un utile modo contrastante di pensarci perché infonde direttamente la nozione di complessità. I modelli non parametrici non sono intrinsecamente meno complessi, poiché potrebbero richiedere di conservare molti più dati di addestramento. Significa solo che non stai riducendo l'utilizzo dei dati di allenamento comprimendoli in un calcolo finemente parametrizzato. Per efficienza o imparzialità o una miriade di altre proprietà, potresti voler parametrizzare. Ma ci possono essere miglioramenti delle prestazioni se puoi permetterti di rinunciare alla parametrizzazione e mantenere molti dati in giro.


0

Penso che la regressione logistica sia una tecnica parametrica.

Questo potrebbe essere utile, da Wolfowitz (1942) [Funzioni di partizione additiva e una classe di ipotesi statistiche The Annals of Mathematical Statistics, 1942, 13, 247-279]:

"Le funzioni di distribuzione [nota: plurale !!!] delle varie variabili stocastiche che entrano nei loro problemi sono considerate di forma funzionale nota, e le teorie della stima e del test delle ipotesi sono teorie della stima e del test delle ipotesi su , uno o più parametri, in numero finito, la cui conoscenza determinerebbe completamente le varie funzioni di distribuzione coinvolte. Ci riferiremo a questa situazione per brevità come caso parametrico, e indicheremo la situazione opposta, in cui le forme funzionali delle distribuzioni sono sconosciute ', come il caso non parametrico.

Inoltre, avendo sentito parlare di questo piuttosto, ho trovato questo divertente da Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:

"Il termine non parametrico può avere un significato e un significato storico per gli statistici teorici, ma serve solo a confondere gli statistici applicati."


0

Hastie e Tibshirani definiscono che la regressione lineare è un approccio parametrico poiché assume una forma funzionale lineare di f (X). I metodi non parametrici non assumono esplicitamente il modulo per f (X). Ciò significa che un metodo non parametrico si adatterà al modello basato su una stima di f, calcolata dal modello. La regressione logistica stabilisce che p (x) = Pr (Y = 1 | X = x) dove la probabilità è calcolata dalla funzione logistica ma non si assume il limite logistico che separa tali classi, il che conferma che LR è anche non parametrico

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.