Gli statistici ipotizzano che non si possa inondare una pianta o sto usando i termini di ricerca sbagliati per la regressione curvilinea?


18

Quasi tutto quello che ho letto di regressione lineare e GLM si riduce a questo: dove è una funzione non crescente o non decrescente di e è il parametro che si stimare e testare ipotesi su. Esistono dozzine di funzioni di collegamento e trasformazioni di e per rendere una funzione lineare di .f ( x , β ) x β y x y f ( x , βy=f(X,β)f(X,β)XβyXyf(X,β)

Ora, se rimuovi il requisito non crescente / non decrescente per , conosco solo due scelte per adattare un modello parametrico linearizzato: funzioni di trig e polinomi. Entrambi creano una dipendenza artificiale tra ogni previsto e l'intero set di , rendendoli un adattamento molto non robusto a meno che non ci siano ragioni precedenti per credere che i tuoi dati siano effettivamente generati da un processo ciclico o polinomiale.y Xf(X,β)yX

Questo non è un tipo di caso esoterico. È l'effettiva relazione di buon senso tra acqua e raccolti (una volta che le trame sono abbastanza profonde sott'acqua, i raccolti inizieranno a diminuire) o tra le calorie consumate a colazione e le prestazioni su un test di matematica o il numero di lavoratori in una fabbrica e il numero di widget che producono ... in breve, quasi tutti i casi di vita reale per i quali vengono utilizzati modelli lineari, ma con i dati che coprono un intervallo sufficientemente ampio da superare rendimenti decrescenti in rendimenti negativi.

Ho provato a cercare i termini "concavo", "convesso", "curvilineo", "non monotonico", "vasca da bagno" e ho dimenticato quanti altri. Poche domande pertinenti e ancora meno risposte utilizzabili. Quindi, in termini pratici, se avessi i seguenti dati (codice R, y è una funzione della variabile continua x e del gruppo di variabili discrete):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

dispersione

Potresti prima provare una trasformazione Box-Cox e vedere se ha senso meccanicistico, e in mancanza, potresti adattare un modello di minimi quadrati non lineari con una funzione di collegamento logistico o asintotico.

Quindi, perché dovresti rinunciare completamente ai modelli parametrici e ricorrere a un metodo black box come spline quando scopri che l'intero set di dati è simile a questo ...

plot(y~x,updown,col=group);

Le mie domande sono:

  • Quali termini dovrei cercare per trovare le funzioni di collegamento che rappresentano questa classe di relazioni funzionali?

o

  • Cosa dovrei leggere e / o cercare per insegnare a me stesso come progettare le funzioni di collegamento a questa classe di relazioni funzionali o estendere quelle esistenti che attualmente sono solo per le risposte monotoniche?

o

  • Diamine, anche quale tag StackExchange è più appropriato per questo tipo di domanda!

4
Non ho idea di cosa stai chiedendo. Vuoi adattare una funzione non monotonica di ... qual è esattamente il tuo problema con la regressione polinomiale o la regressione sinusoidale ?? Inoltre ... "funzione di collegamento" ... continui a usare quella parola ... Non penso che significhi ciò che pensi significhi. X
Jake Westfall,

5
(1) Il tuo Rcodice presenta errori di sintassi: groupnon devono essere quotati. (2) La trama è bella: i punti rossi mostrano una relazione lineare mentre quelli neri potrebbero adattarsi in diversi modi, inclusa una regressione lineare a tratti (ottenuta con un modello di punto di cambio) e forse anche come esponenziale. Io non raccomandando questi, tuttavia, a causa di modellazione scelte dovrebbe essere informato da una comprensione di ciò che ha prodotto i dati e motivato da teorie in discipline pertinenti. Potrebbero essere un inizio migliore per la tua ricerca.
whuber

1
@whuber grazie! Risolto il codice Riguardo alla motivazione teorica: da dove provengono questi? I miei collaboratori di scienziato di banco saranno felicemente dicotomizzati sulle variabili predittive e faranno dei t-test su di esse. Quindi spetta a me trovare un modo per smettere di sprecare dati trovando una relazione matematica che cattura la transizione da "y si correla positivamente con x" a "y ha poca risposta a x" a "y si correla negativamente con x". In caso contrario, dovrò ricapitolare ciò che, ad esempio, Michaelis e Menten hanno fatto quando hanno trovato una relazione tra enzima, substrato e prodotto.
f1r3br4nd

1
I punti in cui queste cose 'attorcigliano' sono noti in anticipo?
Glen_b

3
+1 per il titolo provocatorio e un seguito che ha davvero senso
Stumpy Joe Pete,

Risposte:


45

Le osservazioni nella domanda sulle funzioni di collegamento e la monotonicità sono un'aringa rossa. Alla base di questi sembra essere implicita l'assunto che un modello lineare generalizzato (GLM), esprimendo l'aspettativa di una risposta come funzione monotonica di una combinazione lineare di variabili esplicative , non è abbastanza flessibile da tenere conto di non -monmoniche risposte. Non è così.f X β XYfXβX


Forse un esempio elaborato illuminerà questo punto. In uno studio del 1948 (pubblicato postumo nel 1977 e mai rivisto da pari), J. Tolkien riportò i risultati di un esperimento di irrigazione delle piante in cui a 13 gruppi di 24 girasoli ( Helianthus Gondorensis ) furono somministrate quantità controllate di acqua a partire dalla germinazione per tre mesi di crescita. Gli importi totali applicati variavano da un pollice a 25 pollici con incrementi di due pollici.

Figura 1

Vi è una chiara risposta positiva all'irrigazione e una forte risposta negativa all'irrigazione. Un lavoro precedente, basato su ipotetici modelli cinetici del trasporto ionico, aveva ipotizzato che due meccanismi in competizione potessero spiegare questo comportamento: uno ha provocato una risposta lineare a piccole quantità di acqua (misurata nelle probabilità di sopravvivenza), mentre l'altro- -un fattore inibente - agisce in modo esponenziale (che è un effetto fortemente non lineare). Con grandi quantità di acqua, il fattore inibente sopraffarrebbe gli effetti positivi dell'acqua e aumenterebbe sensibilmente la mortalità.

Sia il tasso di inibizione (sconosciuto) (per unità di quantità di acqua). Questo modello afferma che il numero dei sopravvissuti in un gruppo di dimensioni ricevono pollici di acqua dovrebbe avere un distribuzione, dove è la funzione di collegamento che converte le probabilità del registro in una probabilità. Questo è un GLM binomiale. Come tale, sebbene sia manifestamente non lineare in , dato qualsiasi valore di è lineare nei suoi parametri , eY n x Binomiale ( n , f ( β 0 + β 1 x - β 2 exp ( κ x ) ) ) f x κ β 0 β 1 β 2 f - 1 ( E [ Y ] ) x 1 β 0 x β 1 - exp ( κ x ) β 2κYnX

Binomiale(n,f(β0+β1X-β2exp(κX)))
fXκβ0β1β2. "Linearità" nell'impostazione GLM deve essere intesa nel senso che è una combinazione lineare di questi parametri i cui coefficienti sono noti per ogni . E sono: equivalgono a (il coefficiente di ), stesso (il coefficiente di ) e (il coefficiente di ).f-1(E[Y])X1β0Xβ1-exp(κX)β2

Questo modello - sebbene sia in qualche modo nuovo e non completamente lineare nei suoi parametri - può essere adattato usando un software standard massimizzando la probabilità di arbitrario e selezionando il per il quale questo massimo è maggiore. Ecco il codice per farlo, a partire dai dati:κκκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Non ci sono difficoltà tecniche; il calcolo richiede solo 1/30 di secondo.

figura 2

La curva blu è l'attesa adattata della risposta, .E[Y]

Ovviamente (a) l'adattamento è buono e (b) prevede una relazione non monotonica tra exE[Y]X (una curva a "vasca" capovolta). Per renderlo perfettamente chiaro, ecco il codice di follow-up Rutilizzato per calcolare e tracciare l'adattamento:

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Le risposte alle domande sono:

Quali termini dovrei cercare per trovare le funzioni di collegamento che rappresentano questa classe di relazioni funzionali?

Nessuno : questo non è lo scopo della funzione di collegamento.

Cosa dovrei ... cercare per ... estendere le [funzioni di collegamento] esistenti che attualmente sono solo per le risposte monotoniche?

Nulla : si basa su un malinteso su come modellare le risposte.

Evidentemente, si dovrebbe prima concentrarsi su quali variabili esplicative usare o costruire quando si costruisce un modello di regressione. Come suggerito in questo esempio, cerca una guida dall'esperienza e dalla teoria passate.


risposta fantastica! Questi dati reali sono tolkien dal romanzo?
Cam.Davidson.Pilon

1
@Cam I dati non sono arrivati ​​al taglio finale :-). (Il contesto è piuttosto
ironico

1
@whuber Grande risposta whuber! Qualche suggerimento su come si otterrebbe l'errore standard o la distribuzione di ? κ
TrynnaDoStat,

5
κκχ2(1)

1
@zipzapboing L'esempio che faccio qui è speciale perché è stato informato da una teoria di base. Quando tali informazioni sono disponibili, può essere una potente guida per la selezione di un modello. In molti casi, tuttavia, non esistono tali informazioni o si spera solo che la risposta attesa possa variare monotonicamente con i regressori. Forse la ragione fondamentale per cui si potrebbe puntare è la speranza che la risposta vari in modo differenziato con i regressori e che, per la gamma di regressori nei dati, il cambiamento nella derivata sia piccolo: una risposta lineare si avvicinerebbe molto bene.
whuber

9

Guarda colpevolmente la pianta morente sulla sua scrivania ... apparentemente no

Nei commenti, @whuber afferma che "le scelte di modellistica dovrebbero essere informate dalla comprensione di ciò che ha prodotto i dati e motivato dalle teorie nelle discipline pertinenti", a cui hai chiesto come si fa a fare questo.

La cinetica di Michaelis e Menten è in realtà un esempio piuttosto utile. Tali equazioni possono essere derivate partendo da alcuni presupposti (ad esempio, il substrato è in equilibrio con il suo complesso, l'enzima non viene consumato) e alcuni principi noti (la legge dell'azione di massa). Murray's Mathematical Biology: An Introduction illustra la derivazione nel capitolo 6 (Scommetto che lo fanno anche molti altri libri!).

Più in generale, aiuta a costruire un "repertorio" di modelli e ipotesi. Sono sicuro che il tuo campo ha alcuni modelli comunemente accettati e testati nel tempo. Ad esempio, se qualcosa si sta caricando o scaricando, vorrei che un esponenziale modellasse la sua tensione in funzione del tempo. Al contrario, se vedo una forma simile a esponenziale in un diagramma tensione-tempo, la mia prima ipotesi sarebbe che qualcosa nel circuito si sta scaricando in modo capacitivo e, se non sapessi cosa fosse, proverei a trovarlo. Idealmente, la teoria può sia aiutarti a costruire il modello sia a suggerire nuovi esperimenti.

y=K-(X+h)2CO2 catturare da meno traspirazione?) e inondazioni (batteri che mangiano le radici?) potrebbero suggerire una forma specifica per ogni pezzo.


8

Ho una risposta piuttosto informale dal punto di vista di qualcuno che ha trascorso metà della sua vita scientifica in panchina e l'altra metà al computer, giocando con le statistiche. Ho provato a inserire un commento, ma era troppo lungo.

Vedi, se fossi uno scienziato ad osservare il tipo di risultati che stai ottenendo, sarei elettrizzato. Le varie relazioni monotoniche sono noiose e difficilmente distinguibili. Tuttavia, il tipo di relazione che ci mostri suggerisce un effetto molto particolare. Ci offre un meraviglioso campo da gioco per il teorico per avanzare ipotesi su quale sia la relazione, come cambi agli estremi. Offre un grande parco giochi per lo scienziato alla panchina per capire cosa sta succedendo e sperimentare ampiamente sulle condizioni.

In un certo senso, preferirei avere il caso che stai mostrando e non sapere come adattare un modello semplice (ma essere in grado di elaborare una nuova ipotesi) piuttosto che avere una relazione semplice, facile da modellare ma più difficile da investigare meccanicamente. Tuttavia, non ho ancora riscontrato un caso del genere nella mia pratica.

Infine, c'è un'altra considerazione. Se stai cercando un test che dimostri che il nero è diverso dal rosso (nei tuoi dati) - come ex scienziato da banco, dico perché preoccuparsi? È abbastanza chiaro dalla figura.


5

Per dati del genere, probabilmente prenderei almeno in considerazione le spline lineari.

Puoi fare quelli in lm o glm abbastanza facilmente.

Se segui tale approccio, il tuo problema sarà scegliere il numero di nodi e le posizioni dei nodi; una soluzione potrebbe essere quella di considerare un discreto numero di possibili posizioni e utilizzare qualcosa come il lazo o altri metodi di regolarizzazione e selezione per identificare un piccolo insieme; dovrete comunque tenere conto dell'effetto di tale selezione nell'inferenza.


Ma la regressione della spline non sta sostanzialmente dicendo "esiste una funzione sconosciuta che descrive la forma della risposta e verificheremo solo le ipotesi su come le altre variabili spostano questa curva su / giù o inclinandola"? Che cosa succede se un trattamento altera la forma stessa: come si interpreta un termine del genere se è significativo?
f1r3br4nd

2
Quanto è generale l'alternativa? Anche per il caso generale ci sono una varietà di approcci in cui è possibile fare un confronto dell'adattamento assumendo identiche funzioni non parametriche rispetto a quelle separate. I modelli additivi e i modelli additivi generalizzati possono gestire tali confronti.
Glen_b

Come esempio di un caso più generale di quello che si discute (con riferimenti che trattano una varietà di altri approcci), se riesci a trovarlo, dai un'occhiata a questo documento J.Roca-Pardiñas et al (2006) "Basato su Bootstrap metodi per testare le interazioni fattore per curva in modelli additivi generalizzati: valutazione dell'attività neurale della corteccia prefrontale correlata al processo decisionale ", Statistics in Medicine , 30 lug; 25 (14): 2483-501. In quel documento usano il bootstrap (e il binning per ridurre l'onere computazionale), ma ci sono altri approcci citati lì.
Glen_b

Un riferimento più basilare e più antico sarebbe qualcosa come Hastie e Tibshirani (1990), Generalized Additive Models (ad esempio vedi p265). Inoltre, date un'occhiata qui , in particolare, l'ultima equazione sulla slitta 34. Attorno ad essa ci spiega anche come montare un tale modello utilizzando gamnel pacchetto R mgcv.
Glen_b

2

Non ho avuto il tempo di leggere l'intero tuo post, ma sembra che la tua principale preoccupazione sia che le forme funzionali di risposta potrebbero cambiare con i trattamenti. Esistono tecniche per affrontarlo, ma sono ad alta intensità di dati.
Per il tuo esempio specifico:

G è crescita W è acqua T è trattamento

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

L'ultimo decennio ha visto un sacco di ricerche sulla regressione semiparametrica, e queste carni bovine sulle forme funzionali stanno diventando sempre più gestibili. Ma alla fine della giornata, le statistiche giocano con i numeri ed è utile solo in quanto costruisce intuizione sui fenomeni sotto osservazione. Questo a sua volta richiede la comprensione dei modi in cui i numeri vengono giocati. Il tono del tuo post indica la volontà di buttare il bambino fuori con l'acqua del bagno.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.