Il metodo migliore per creare grafici di crescita


10

Devo creare grafici (simili ai grafici di crescita) per i bambini dai 5 ai 15 anni (solo 5,6,7 ecc; non ci sono valori frazionari come 2,6 anni) per una variabile di salute che è non negativa, continua e in l'intervallo 50-150 (con pochi valori al di fuori di questo intervallo). Devo creare curve del 90 °, 95 ° e 99 ° percentile e anche creare tabelle per questi percentili. La dimensione del campione è di circa 8000.

Ho controllato e trovato i seguenti modi possibili:

  1. Trova i quantili e quindi usa il metodo loess per ottenere una curva uniforme da questi quantili. Il grado di scorrevolezza può essere regolato dal parametro 'span'.

  2. Utilizzare il metodo LMS (Lambda-Mu-Sigma) (ad es. Utilizzando gamlss o pacchetti VGAM in R).

  3. Usa la regressione quantile.

  4. Usa la media e la DS di ogni fascia d'età per stimare il percentile per quell'età e creare curve percentili.

Qual'è il miglior modo di farlo? Per "migliore" intendo sia il metodo ideale che è il metodo standard per la creazione di tali curve di crescita e sarebbe accettabile per tutti. O un metodo più semplice e più semplice da implementare, che può avere alcune limitazioni, ma è un metodo accettabile e più rapido. (Ad esempio, usare loess sui valori percentili è molto più veloce dell'uso di LMS del pacchetto gamlss).

Inoltre quale sarà il codice R di base per quel metodo.

Grazie per l'aiuto.


2
Stai chiedendo il "migliore" che di solito è ovunque tra difficile e impossibile da discutere definitivamente. (La "migliore" misura di livello è abbastanza difficile.) Hai chiaramente legato la tua domanda ai cambiamenti di salute nei bambini, ma i tuoi criteri di "migliore" non sono espliciti, in particolare quali tipi o gradi di scorrevolezza sono accettabili o inaccettabili.
Nick Cox,

Accolgo con favore il tentativo, ma a) evidentemente non esiste, altrimenti perché esistono soluzioni concorrenti o perché ciò non è evidente nella letteratura che stai leggendo? L'interesse per questo problema ha sicuramente decenni se non secoli. Significa più facile: più facile da capire, più facile da spiegare a medici o professionisti non statisticamente in generale, più facile da implementare, ...? Sicuramente mi sembra schizzinoso, ma perché dovresti preoccuparti della velocità qui? Nessuno di questi metodi è impegnativo dal punto di vista computazionale.
Nick Cox,

@NickCox: ho modificato la domanda in base ai tuoi commenti. Apprezzerò una vera risposta.
anche il

1
Siamo spiacenti, ma non lavoro in questo campo e penso che la tua domanda sia troppo sfuggente per rispondere. I commenti esistono perché le persone potrebbero essere incapaci o non disposti a rispondere ma hanno comunque qualcosa da dire. Non scrivo risposte per ordinare.
Nick Cox,

Risposte:


6

Esiste una vasta letteratura sulle curve di crescita. Nella mia mente ci sono tre approcci "migliori". In tutti e tre, il tempo è modellato come una spline cubica limitata con un numero sufficiente di nodi (ad es. 6). Questo è un parametro più fluido con prestazioni eccellenti e interpretazione semplice.

  1. Modelli di curva di crescita classica (minimi quadrati generalizzati) per dati longitudinali con un modello di correlazione sensibile come AR1 a tempo continuo. Se puoi mostrare che i residui sono gaussiani, puoi ottenere MLE dei quantili usando le medie stimate e la deviazione standard comune.
  2. n
  3. YY

Quando hai usato probabilità proporzionali, come hai adattato l'assunzione di PO (supponendo che abbia fallito) con così tanti livelli di risultato? Grazie.
luglio

2
Anche se fallisce, il modello potrebbe funzionare meglio di alcuni degli altri modelli a causa di un minor numero di ipotesi complessive. Oppure passare a uno degli altri modelli ordinali della famiglia di probabilità cumulativa come i rischi proporzionali (collegamento prob. Log-log cumulativo).
Frank Harrell,

1

Regressione del processo gaussiano . Inizia con il kernel esponenziale quadrato e prova a ottimizzare i parametri a occhio. Più tardi, se vuoi fare le cose correttamente, sperimenta kernel diversi e usa la probabilità marginale per ottimizzare i parametri.

Se vuoi maggiori dettagli di quelli forniti dal tutorial sopra riportato, questo libro è fantastico .


Grazie per la tua risposta. Come giudichi la regressione del processo gaussiano rispetto ad altri metodi menzionati. La seconda trama gaussiana su scikit-learn.org/0.11/auto_examples/gaussian_process/… appare molto simile alla seconda ultima trama in questa pagina di LOESS (regressione locale): princeofslides.blogspot.in/2011/05/… . LOESS è molto più facile da eseguire.
anche il

Personalmente, preferisco fortemente GPR per qualsiasi set di dati che sia abbastanza piccolo da permetterti di adattarlo. Oltre ad essere molto più "gradevole" dal punto di vista teorico, è più flessibile, robusto e offre un output probabilistico ben calibrato. Detto questo, se i tuoi dati sono densi e ben educati, probabilmente il tuo pubblico non sarà in grado di dire la differenza tra LOESS e un GPR a meno che non siano statistici.
Andy Jones,

3
yX

1
@Nick: Il mio consiglio era quello di costruire un modello dei tuoi dati e quindi utilizzare il modello per costruire le curve percentili (uniformi). Ora l'hai menzionato, sì, mi mancava completamente il secondo componente (cioè la vera domanda).
Andy Jones,

1
1.96
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.