Il lavoro di Gary King, in particolare il suo libro "Una soluzione al problema dell'inferenza ecologica " (i primi due capitoli sono disponibili qui ), sarebbe interessante (così come il software di accompagnamento che usa per l'inferenza ecologica). Nel suo libro King mostra come migliorare le stime dei modelli di regressione utilizzando i dati aggregati esaminando i potenziali limiti che i raggruppamenti di livello inferiore hanno basato sui dati aggregati disponibili. Il fatto che i tuoi dati siano per lo più raggruppamenti categorici li rende suscettibili a questa tecnica. (Anche se non fatevi ingannare, non è tanto una soluzione omnibus quanto potreste sperare dato il titolo!) Esistono lavori più attuali, ma il libro di King è l'IMO il punto di partenza migliore.
Un'altra possibilità sarebbe solo quella di rappresentare i potenziali limiti dei dati stessi (in mappe o grafici). Quindi, ad esempio, potresti avere la distribuzione del sesso riportata a livello aggregato (diciamo 5.000 uomini e 5.000 donne) e sai che questo livello aggregato comprende 2 diverse unità di piccole aree di popolazione 9.000 e 1.000 individui. È quindi possibile rappresentarlo come una tabella di contingenza del modulo;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Sebbene non ci siano informazioni nelle celle per le aggregazioni di livello inferiore, dai totali marginali possiamo costruire valori potenziali minimi o massimi per ogni cella. Quindi, in questo esempio, la Men X Unit1
cella può assumere valori compresi tra 4.000 e 5.000 (ogni volta che le distribuzioni marginali sono più irregolari, minore è l'intervallo di valori possibili che le celle assumeranno). Apparentemente ottenere i limiti del tavolo è più difficile di quanto mi aspettassi ( Dobra e Fienberg, 2000 ), ma sembra che una funzione sia disponibile nella eiPack
libreria in R ( Lau et al., 2007, p. 43 ).
L'analisi multivariata con dati a livello aggregato è difficile, poiché inevitabilmente si verifica un errore di aggregazione con questo tipo di dati. (In poche parole, descriverei semplicemente il pregiudizio di aggregazione in quanto molti processi di generazione di dati a livello individuale potrebbero portare a associazioni di livello aggregato) Una serie di articoli dell'American Sociological Reviewnegli anni '70 sono alcuni dei miei riferimenti preferiti per gli argomenti (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) anche se fonti canoniche sull'argomento potrebbero essere (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Penso che rappresentare i potenziali limiti che i dati potrebbero assumere potrebbero essere potenzialmente incitanti, anche se sei davvero ostacolato dalle limitazioni dei dati aggregati per condurre analisi multivariate. Ciò non impedisce a nessuno di farlo anche se nelle scienze sociali (nel bene o nel male!)
Nota, (come ha detto Charlie nei commenti) che la "soluzione" di King ha ricevuto una discreta quantità di critiche (Anselin & Cho, 2002; Freedman et al., 1998). Sebbene tali critiche non siano dirette sulla matematica del metodo di King, tanto più per quanto riguarda le situazioni in cui il metodo di King non riesce ancora a tenere conto del pregiudizio di aggregazione (e sono d'accordo sia con Freedman che Anselin in quanto le situazioni in cui i dati per le scienze sociali sono ancora sospette sono molto più comuni di quelle che soddisfano i presupposti di King). Questo è in parte il motivo per cui suggerisco solo di esaminare i limiti (non c'è nulla di sbagliato in questo), ma fare inferenze sulle correlazioni a livello individuale da tali dati richiede molti più salti di fede che alla fine sono ingiustificati nella maggior parte delle situazioni.
citazioni
- Anselin, L. & WKT Cho (2002). Effetti spaziali e inferenza ecologica. Analisi politica 10 (3): 276-297.
- Dobra A. & SE Fienberg (2000). Limiti per le voci di cella nelle tabelle di contingenza dati totali marginali e grafici scomponibili. Atti della National Academy of Sciences 97 (22): 11885-11892
- Firebaugh, G. (1978). Una regola per inferire singole relazioni da dati aggregati. American Sociological Review 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Il problema di unità areale modificabili nell'analisi statistica multivariata. Ambiente e pianificazione A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland e MR Roberts (1998). Opere recensite: una soluzione al problema dell'inferenza ecologica di G. King. Journal of American Statistical Association 93 (444): 1518-1522. (PDF qui )
- Hammond, JL (1973) Due fonti di errore nelle correlazioni ecologiche. American Sociological Review 38 (6): 764-777
- Hannan, MT & L. Burstein (1974). Stima da osservazioni raggruppate. American Sociological Review 39 (3): 374-392
- King G. (1997). Una soluzione al problema dell'inferenza ecologica: ricostruzione del comportamento individuale da dati aggregati . Princeton: Princeton University Press.
- Lau O., RT Moore e M. Kellerman (2007). eiPack: inferenza ecologica RXC e gestione dei dati di dimensione superiore. R Notizie 7 (2): 43-47
- Oppenshaw, S. (1984). Il problema dell'unità areale modificabile . Norwich: Geo Books. ( PDF qui )
- Robinson, WS (1950). Correlazioni ecologiche e comportamento degli individui. American Sociological Review 15 (3): 351-357. ( PDF qui )