Dimensione minima del campione per PCA o FA quando l'obiettivo principale è stimare solo pochi componenti?


27

Se ho un set di dati con osservazioni e variabili (dimensioni), e generalmente è piccolo ( ), e può variare da piccolo ( ) a forse molto più grande ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50npnn=1216pp=410p=3050

Ricordo di aver appreso che dovrebbe essere molto più grande di per eseguire l'analisi dei componenti principali (PCA) o l'analisi dei fattori (FA), ma sembra che questo potrebbe non essere così nei miei dati. Si noti che per i miei scopi raramente sono interessato a qualsiasi componente principale oltre PC2.pnp

Domande:

  1. Quali sono le regole empiriche per la dimensione minima del campione quando il PCA è OK da usare e quando non lo è?
  2. È mai OK usare i primi PC anche se o ?n < pn=pn<p
  3. Ci sono riferimenti su questo?
  4. Importa se il tuo obiettivo principale è usare PC1 e possibilmente PC2:

    • semplicemente graficamente, oppure
    • come variabile sintetica quindi utilizzata nella regressione?

Ricordo di aver letto di questo tipo di linee guida per quanto riguarda l'analisi dei fattori. Ti interessa anche questo o solo per PCA? Inoltre, la risposta potrebbe dipendere dal tipo di dati con cui hai a che fare, hai in mente un campo di applicazione specifico?
Gala,

1
Grazie Gael per i commenti e i riferimenti seguenti. Ora mi resta il bisogno di conoscere le differenze tra FA e PCA. :)
Patrick,

3
Questa domanda è stata ampiamente trattata su questo sito, vedi ad esempio stats.stackexchange.com/questions/1576/… e stats.stackexchange.com/questions/612/…
Gala,

Risposte:


21

Puoi effettivamente misurare se la dimensione del tuo campione è "abbastanza grande". Un sintomo della dimensione del campione troppo piccola è l'instabilità.

Bootstrap o cross validano il tuo PCA: queste tecniche disturbano il tuo set di dati eliminando / scambiando una piccola frazione del tuo campione e quindi costruendo "modelli surrogati" per ciascuno dei set di dati disturbati. Se i modelli surrogati sono abbastanza simili (= stabili), stai bene. Probabilmente dovrai tener conto del fatto che la soluzione del PCA non è unica: i PC possono capovolgere (moltiplicare sia un punteggio che il rispettivo componente principale per ). È inoltre possibile utilizzare la rotazione Procrustes per ottenere modelli di PC il più possibile simili.1


Grazie cbeleites. Pensi che il bootstrap sarà eccessivamente informativo con n minimo come, diciamo, 16? Per capire, cercherò la stabilità relativa eseguendo molti PCA, lasciando un sito fuori da ogni corsa.
Patrick,

In tal caso è certamente possibile esaminare tutti e 16 i modelli che vengono disturbati eliminando un campione (o anche tutti i 120 modelli che hanno tralasciato 2 campioni). Penso che con la piccola probabilmente sceglierei un approccio così sistematico simile al cv. n
cbeleites supporta Monica il

23

Per l'analisi dei fattori (non l'analisi dei componenti principali), esiste una buona letteratura che mette in discussione alcune delle vecchie regole empiriche sul numero di osservazioni. Le raccomandazioni tradizionali - almeno all'interno della psicometria - sarebbero di avere almeno osservazioni per variabile (con genere ovunque da a ), quindi in ogni caso .xx520np

Una panoramica piuttosto approfondita con molti riferimenti è disponibile all'indirizzo http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Tuttavia, il messaggio principale da asporto dei recenti studi di simulazione sarebbe probabilmente che la qualità dei risultati varia così tanto (a seconda delle comunità, del numero di fattori o del rapporto fattori-variabili, ecc.) Che considerando il il rapporto variabili-osservazioni non è un buon modo per decidere il numero richiesto di osservazioni. Se le condizioni sono favorevoli, potresti essere in grado di cavartela con molte meno osservazioni di quanto suggerirebbero le vecchie linee guida, ma anche le linee guida più conservative sono troppo ottimistiche in alcuni casi. Ad esempio, Preacher e MacCallum (2002) hanno ottenuto buoni risultati con dimensioni del campione estremamente ridotte e ma Mundfrom, Shaw & Ke (2005) hanno riscontrato alcuni casi in cui una dimensione del campione dip>nn>100pera necessario. Hanno anche scoperto che se il numero di fattori sottostanti rimane lo stesso, più variabili (e non meno, come suggerito dalle linee guida basate sul rapporto osservazioni-variabili) potrebbero portare a risultati migliori con piccoli campioni di osservazioni.

Riferimenti rilevanti:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). Raccomandazioni sulla dimensione minima del campione per condurre analisi dei fattori. International Journal of Testing, 5 (2), 159-168.
  • Preacher, KJ e MacCallum, RC (2002). Analisi esplorativa dei fattori nella ricerca sulla genetica comportamentale: recupero dei fattori con campioni di piccole dimensioni. Behavior Genetics, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D. e Wieringa, PA (2009). Analisi fattoriale esplorativa con campioni di piccole dimensioni. Ricerca comportamentale multivariata, 44 (2), 147-181.

5
(+1) Ecco un altro documento, che utilizza la simulazione e set di dati reali, che suggerisce che la regola empirica N / p non funziona molto bene in pratica e che fornisce le dimensioni del campione necessarie per ottenere una soluzione stabile e accurata in EFA- -controllo per vari criteri di qualità - in funzione del numero di fattori e del numero di articoli (e facoltativamente la mezza larghezza dell'IC al 95% di Cronbach alfa, basata sulla formula di Feldt) in una scala psichiatrica: requisiti di dimensione del campione per validazione interna delle scale psichiatriche Int J Metodi Psychiatr Res. 2011 dic; 20 (4): 235-49.
chl

1

L'idea alla base delle disuguaglianze MVA è semplice: PCA equivale a stimare la matrice di correlazione delle variabili. Stai provando a indovinare i coefficienti (matrice simmetrica) dai dati . (Ecco perché dovresti avere n >> p.)pp12np

L'equivalenza può essere vista in questo modo: ogni passaggio di PCA è un problema di ottimizzazione. Stiamo cercando di trovare quale direzione esprima la maggiore varianza. vale a dire:

max(aiTΣai)

Dove è la matrice di covarianza.σ

sotto i vincoli:

aiTai=1
(normalizzazione)

aiTaj=0
(per , ortogonalità con componenti precedenti)j<i

La soluzione di questi problemi sono chiaramente gli autovettori di associati ai loro autovalori. Devo ammettere che non ricordo l'esatta formulazione, ma gli autovettori dipendono dai coefficienti di . La normalizzazione del modulo delle variabili, la matrice di covarianza e la matrice di correlazione sono la stessa cosa.Σσ

Prendere n = p equivale più o meno a indovinare un valore con solo due dati ... non è affidabile.

Non ci sono regole per i pollici, tieni presente che PCA è più o meno la stessa cosa che indovinare un valore da valori.2np


Potresti essere più specifico sul senso in cui il PCA è "equivalente" alla stima di una matrice di correlazione? Supponiamo che interrompa il mio PCA dopo componenti principali. Ciò richiede la stima di autovalori e coefficienti autovettori indipendenti, tutti per un totale inferiore ai parametri , che potrebbero essere un po 'meno di . k ( p - 1 ) + ( p - 2 ) + + ( p - k ) p k p ( p - 1 ) / 2kk(p1)+(p2)++(pk)pkp(p1)/2
whuber

Il punto è che stai calcolando coefficienti (pk) di autovettori da coefficienti p (p-1) / 2 della matrice. Per una matrice casuale, non penso che ci sia un modo per "saltare" alcuni coefficienti calcolando autovettori / autovalori.
lcrmorin,

Certo che c'è: i soliti algoritmi trovano gli autovalori e gli autovettori uno alla volta, dal più grande autovalore in basso. Inoltre, questo non è un problema computazionale, ma uno di contare il numero di valori stimati, a meno che non abbia letto male la tua risposta?
whuber

1

Spero che questo possa essere utile:

sia per FA che per PCA

'' I metodi descritti in questo capitolo richiedono campioni di grandi dimensioni per ottenere soluzioni stabili. Ciò che costituisce una dimensione del campione adeguata è alquanto complicato. Fino a poco tempo fa, gli analisti utilizzavano regole empiriche come "l'analisi dei fattori richiede da 5 a 10 volte il numero di soggetti rispetto alle variabili". Studi recenti suggeriscono che la dimensione del campione richiesta dipende dal numero di fattori, dal numero di variabili associate a ciascun fattore e da come bene l'insieme di fattori spiega la varianza delle variabili (Bandalos e Boehm-Kaufman, 2009). Esco su un arto e dico che se hai diverse centinaia di osservazioni, probabilmente sei al sicuro. ''

Riferimento:

Bandalos, DL e MR Boehm-Kaufman. 2009. "Quattro idee sbagliate comuni nell'analisi fattoriale esplorativa". In miti statistici e metodologici e leggende urbane, a cura di CE Lance e RJ Vandenberg, 61–87. New York: Routledge.

da "R in Action" di Robert I. Kabacoff, libro molto istruttivo con buoni consigli su quasi tutti i test statistici.


2
Sembra che tu stia semplicemente collegando un libro e rielaborando alcuni punti fatti prima sulla base di una fonte secondaria o terziaria. Questo non sembra molto utile. Potresti almeno fornire il riferimento completo per Bandalos e Boehm-Kaufman, 2009?
Gala,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.