In quali condizioni si dovrebbe usare l'analisi multilivello / gerarchica?


36

A quali condizioni qualcuno dovrebbe prendere in considerazione l'uso di analisi multilivello / gerarchica anziché analisi più basilari / tradizionali (ad es. ANOVA, regressione OLS, ecc.)? Ci sono situazioni in cui ciò potrebbe essere considerato obbligatorio? Ci sono situazioni in cui l'utilizzo dell'analisi multilivello / gerarchica è inappropriato? Infine, quali sono alcune buone risorse per i principianti per imparare l'analisi multilivello / gerarchica?


Risposte:


22

Quando la struttura dei dati è naturalmente gerarchica o nidificata, la modellazione multilivello è un buon candidato. Più in generale, è un metodo per modellare le interazioni.

Un esempio naturale è quando i tuoi dati provengono da una struttura organizzata come paese, stato, distretti, dove vuoi esaminare gli effetti a quei livelli. Un altro esempio in cui è possibile adattare una tale struttura è l'analisi longitudinale, in cui sono state ripetute misurazioni da molti soggetti nel tempo (ad esempio una risposta biologica a una dose di farmaco). Un livello del modello presuppone una risposta media di gruppo per tutte le materie nel tempo. Un altro livello del modello consente quindi perturbazioni (effetti casuali) dalla media del gruppo, per modellare le differenze individuali.

Un libro popolare e buono per cominciare è l' analisi dei dati di Gelman che utilizza la regressione e i modelli multilivello / gerarchici .


3
Sono d'accordo con questa risposta e vorrei solo aggiungere un altro grande riferimento su questo argomento: testo di analisi dei dati longitudinali applicati da Singer < gseacademic.harvard.edu/alda >. Sebbene sia specifico dell'analisi longitudinale, offre una buona panoramica della MLM in generale. Ho anche trovato l'analisi multilivello di Snidjers e Bosker buona e leggibile < stat.gamma.rug.nl/multilevel.htm >. John Fox fornisce anche una bella introduzione a questi modelli in R qui < cran.r-project.org/doc/contrib/Fox-Companion/… >.
Brett,

Grazie a tutti per le risposte :) Come domanda di follow-up, la maggior parte dei dati non potrebbe essere concettualizzata come naturalmente gerarchica / nidificata? Ad esempio, nella maggior parte degli studi psicologici ci sono un certo numero di variabili dipendenti (questionari, risposte agli stimoli, ecc ...) nidificate all'interno di individui, che sono ulteriormente nidificate in due o più gruppi (assegnati in modo casuale o non casuale). Sei d'accordo sul fatto che ciò rappresenti una struttura di dati naturalmente gerarchica e / o nidificata?
Patrick,

Se qualcuno di voi guru multilivello / gerarchico potesse risparmiare qualche minuto, sarei molto grato se poteste approfondire le domande di analisi poste in un post diverso ( stats.stackexchange.com/questions/1799/… ). In particolare, pensi che i dati sulla percezione del dolore delineati in quel post sarebbero meglio analizzati mediante analisi gerarchiche che analisi non gerarchiche? O non farebbe differenza o sarebbe inappropriato? Grazie: D
Patrick,

18

Il Center for Multilevel Modeling ha alcuni buoni tutorial online gratuiti per la modellazione multilivello e hanno tutorial software per adattare i modelli sia nel loro software MLwiN che in STATA.

Prendilo come un'eresia, perché non ho letto più di un capitolo del libro, ma modelli lineari gerarchici: applicazioni e metodi di analisi dei dati Di Stephen W. Raudenbush, Anthony S. Bryk è altamente raccomandato. Ho anche giurato che c'era un libro sulla modellazione multilivello che utilizzava il software R nello Springer Use R! serie, ma al momento non riesco a trovarla (pensavo fosse stata scritta dalle stesse persone che hanno scritto la Guida per principianti al libro R).

modifica: Il libro sull'uso di R per modelli multi-livello è Modelli di effetti misti ed estensioni in ecologia con R di Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

in bocca al lupo


9

Ecco un'altra prospettiva sull'uso dei modelli multilivello vs. regressione: in un interessante documento di Afshartous e de Leeuw, essi mostrano che se lo scopo della modellazione è predittivo (ovvero predire nuove osservazioni), la scelta del modello è diversa da quando l'obiettivo è l'inferenza (dove si tenta di abbinare il modello con la struttura dei dati). Il documento a cui mi riferisco è

Afshartous, D., de Leeuw, J. (2005). Predizione in modelli multilivello. J. Educat. Behav. Statist. 30 (2): 109-139.

Ho appena trovato un altro documento correlato di questi autori qui: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf


6

Ecco un esempio in cui un modello multilivello potrebbe essere "essenziale". Supponiamo di voler valutare la "qualità" dell'educazione fornita da un insieme di scuole usando i punteggi dei test degli studenti. Un modo per definire la qualità della scuola è in termini di prestazioni medie dei test dopo aver tenuto conto delle caratteristiche degli studenti. Si potrebbe concettualizzato questo come, dove y i s è il punteggio di test continuo per gli studenti i nella scuola s , X i s

yioS=αS+XioS'βS+εioS,
yioSioSXioSsono studente attributi centrata a mezzo scuola, è un coefficiente specifico per la scuola su questi attributi, α s è un "effetto scuola" che la qualità misure scuola, e ε i s sono idiosincrasie livello degli studenti in prova prendendo prestazioni. Interessi qui si concentra sulla stima del α s 's, che misurano il 'valore aggiunto' che la scuola offre agli studenti una volta che i loro attributi sono contabilizzati-per. Volete prendere in considerazione le caratteristiche degli studenti, perché non volete punire una buona scuola che deve affrontare gli studenti con alcuni svantaggi, quindi i punteggi dei test medi deprimenti hanno disprezzato l'alto "valore aggiunto" che la scuola fornisce ai suoi studenti. βSαSεioSαS

Con il modello in mano, il problema diventa di stima. Se hai molte scuole e molti dati per ogni scuola, le belle proprietà di OLS (vedi Angrist e Pischke, Mostly Harmless ..., per una revisione in corso) suggeriscono che si desidera utilizzarlo, con opportune modifiche agli errori standard per tenere conto delle dipendenze, e utilizzare variabili e interazioni fittizie per ottenere effetti a livello di scuola e intercettazioni specifiche della scuola. OLS può essere inefficiente, ma è così trasparente che potrebbe essere più facile convincere il pubblico scettico se lo usi. Ma se i tuoi dati sono scarsi in alcuni modi, in particolare se hai poche osservazioni per alcune scuole, potresti voler imporre più "struttura" al problema. Potresti voler "prendere in prestito la forza" dalle scuole con campioni più grandi per migliorare le stime rumorose che otterresti nelle scuole con campioni piccoli se le stime fossero fatte senza struttura. Quindi, potresti passare a un modello di effetti casuali stimato tramite FGLS,

In questo esempio, l'uso di un modello multilivello (comunque decidiamo di adattarlo, alla fine) è motivato dall'interesse diretto per le intercettazioni a livello di scuola. Naturalmente, in altre situazioni, questi parametri a livello di gruppo potrebbero non essere altro che un fastidio. La necessità o meno di adattarsi a loro (e, quindi, lavorare ancora con un qualche tipo di modello multilivello) dipende dal fatto che alcune ipotesi condizionali di esogeneità siano valide. A tale proposito, consiglierei di consultare la letteratura econometrica sui metodi dei dati dei panel; la maggior parte delle intuizioni da lì passa ai contesti di dati generali raggruppati.


1
Questo è un vecchio thread, ma nel caso in cui leggessi questo: OLS con variabili e interazioni fittizie non prende in prestito forza come le altre tecniche che menzioni, giusto? Ho alcuni dati in cui ho suddiviso la mia analisi in due parti e ho usato due comandi lm (modello lineare R) per modellare le due parti. Ho introdotto una variabile fittizia per indicare le due parti, quindi ho usato di nuovo lm su questo modello "unificato" e le risposte sono vicine, ma non uguali. La mia domanda sarebbe: questa risposta è "migliore" o semplicemente diversa a causa dell'algoritmo?
Wayne,

@Wayne: se hai usato i manichini e l'intero set di interazioni nel secondo, le stime dei punti dovrebbero essere le stesse. Gli errori standard possono differire perché il secondo metodo può presumere gradi di libertà più elevati, ma si dovrebbe verificare se si tratta di un'ipotesi di modellazione corretta.
Cyrus S,

6

La modellazione multilivello è appropriata, come suggerisce il nome, quando i tuoi dati hanno influenze che si verificano a livelli diversi (individuo, nel tempo, sui domini, ecc.). La modellazione a livello singolo presuppone che tutto avvenga al livello più basso. Un'altra cosa che fa un modello multilivello è introdurre correlazioni tra unità nidificate. Quindi le unità di livello 1 all'interno della stessa unità di livello 2 saranno correlate.

In un certo senso, puoi pensare alla modellazione multilivello come a trovare la via di mezzo tra "l'errore individualista" e "l'errore ecologico". L'errore individualista è quando gli "effetti della comunità" sono ignorati come la compatibilità dello stile di un insegnante con lo stile di apprendimento di uno studente, per esempio (si presume che l'effetto provenga dall'individuo da solo, quindi fai regressione a livello 1). mentre "errore ecologico" è l'opposto e sarebbe come supporre che il miglior insegnante avesse gli studenti con i voti migliori (e quindi che il livello 1 non sia necessario, basta regredire completamente al livello 2). Nella maggior parte dei casi, nessuno dei due è appropriato (lo studente-insegnante è un esempio "classico").

yiojj essere sconosciuto.


4

In generale, parlando di un'analisi gerarchica bayesiana (HB) porterà a stime di livello individuale efficienti e stabili a meno che i dati non siano tali che gli effetti a livello individuale siano completamente omogenei (uno scenario non realistico). L'efficienza e le stime dei parametri stabili dei modelli HB diventano davvero importanti quando si hanno dati sparsi (ad esempio, meno no di obs rispetto al no di parametri a livello individuale) e quando si desidera stimare stime di livello individuali.

Tuttavia, i modelli HB non sono sempre facili da stimare. Pertanto, mentre l'analisi HB di solito supera l'analisi non HB, devi valutare i costi relativi rispetto ai benefici in base alla tua esperienza passata e alle tue attuali priorità in termini di tempo e costi.

Detto questo, se non sei interessato alle stime a livello individuale, puoi semplicemente stimare un modello a livello aggregato, ma anche in questi contesti stimare i modelli di aggregazione tramite HB usando le stime a livello individuale può avere molto senso.

In sintesi, il montaggio dei modelli HB è l'approccio consigliato purché si abbia il tempo e la pazienza di adattarli. È quindi possibile utilizzare i modelli aggregati come benchmark per valutare le prestazioni del modello HB.


Grazie per la risposta dettagliata Srikant :) Al momento non ho familiarità con le analisi bayesiane, ma sono uno degli argomenti che intendevo approfondire. L'analisi gerarchica bayesiana è diversa dalle altre analisi multilivello / gerarchiche discusse in questa pagina? In tal caso, hai una risorsa consigliata per le parti interessate per saperne di più?
Patrick,

βio~N(β¯,Σ)β¯~N(.,.)

4

Ho imparato da Snijders e Bosker, Analisi multilivello: un'introduzione alla modellazione multilivello di base e avanzata. Penso che sia molto adatto al principiante, penso che sia perché sono un ficcanaso per quanto riguarda queste cose e per me ha senso.

Secondo anche Gelman e Hill, un libro davvero geniale.


1

I modelli multilivello dovrebbero essere impiegati quando i dati sono nidificati in una struttura gerarchica, in particolare quando vi sono differenze significative tra unità di livello superiore nella variabile dipendente (ad esempio, l'orientamento ai risultati degli studenti varia tra gli studenti e anche tra le classi con cui gli studenti sono nidificati). In queste circostanze, le osservazioni sono raggruppate anziché indipendenti. La mancata considerazione del clustering porta alla sottovalutazione degli errori delle stime dei parametri, al test di significatività parziale e alla tendenza a respingere il valore nullo quando deve essere mantenuto. La logica per l'utilizzo di modelli multilivello, nonché spiegazioni approfondite su come eseguire le analisi, è fornita da

Raudenbush, SW Bryk, AS (2002). Modelli lineari gerarchici: applicazioni e metodi di analisi dei dati. 2a edizione. Newbury Park, CA: Sage.

Il libro R & B è anche ben integrato con il pacchetto software HLM degli autori, che aiuta molto nell'apprendimento del pacchetto. Una spiegazione del perché i modelli multilivello sono necessari e preferibili ad alcune alternative (come la codifica fittizia delle unità di livello superiore) è fornita in un documento classico

Hoffman, DA (1997). Una panoramica della logica e della logica dei modelli lineari gerarchici. Journal of Management, 23, 723-744.

Il documento di Hoffman può essere scaricato gratuitamente se si utilizza Google "Hoffman 1997 HLM" e si accede al pdf online.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.