Quali sono i presupposti dell'analisi fattoriale?


11

Voglio verificare se ho davvero capito l' analisi del fattore [classico, lineare] (FA), in particolare i presupposti che vengono fatti prima (e forse dopo) FA.

Alcuni dati dovrebbero essere inizialmente correlati e tra loro esiste una possibile relazione lineare. Dopo aver effettuato l'analisi dei fattori, i dati vengono normalmente distribuiti (distribuzione bivariata per ciascuna coppia) e non vi è alcuna correlazione tra fattori (comuni e specifici) e nessuna correlazione tra variabili di un fattore e variabili di altri fattori.

È corretto?

Risposte:


12

Assunzioni di dati di input di FA lineari (non sto parlando qui di ipotesi / proprietà interne del modello FA o di controllo della qualità di adattamento dei risultati ).

  1. Scala (intervallo o rapporto) variabili di input . Ciò significa che gli articoli sono o misure continue o sono concettualizzati come continui mentre misurati su scala quantitativa discreta. Nessun dato ordinale in FA lineare ( leggi ). Anche i dati binari dovrebbero essere evitati (vedi questo , questo ). La FA lineare presuppone che i fattori comuni e unici latenti siano continui . Pertanto anche le variabili osservate che caricano dovrebbero essere continue.
  2. Le correlazioni sono lineari . La FA lineare può essere eseguita in base a qualsiasi matrice di associazione di tipo SSCP : correlazione di Pearson, covarianza, coseno, ecc. (Sebbene alcuni metodi / implementazioni potrebbero limitarsi solo alle correlazioni di Pearson). Si noti che questi sono tutti prodotti di algebra lineare. Nonostante l'entità del coefficiente di covarianza rifletta più della semplice linearità in relazione, la modellazione in FA lineare è di natura lineare anche quando si usano le covarianze: le variabili sono combinazioni lineari di fattorie quindi la linearità è implicita nelle associazioni risultanti. Se vedi / pensi che prevalgano le associazioni non lineari, non fare FA lineari o provare prima a linearizzarle con alcune trasformazioni dei dati. E non basare l'AF lineare sulle correlazioni di Spearman o Kendall (Pt. 4 ).
  3. Nessun valore anomalo : è come con qualsiasi metodo non affidabile. La correlazione di Pearson e associazioni simili di tipo SSCP sono sensibili ai valori anomali, quindi fai attenzione.
  4. Sono presenti correlazioni ragionevolmente elevate . La FA è l'analisi della correlazione, a che serve quando tutte o quasi tutte le correlazioni sono deboli? - inutile. Tuttavia, ciò che è "correlazione ragionevolmente alta" dipende dal campo di studio. Vi è anche una domanda interessante e variegata sull'opportunità di accettare correlazioni molto elevate (il loro effetto sull'APC, ad esempio, è discusso qui ). Per verificare statisticamente se i dati non sono correlati, è possibile utilizzare il test di sfericità di Bartlett .
  5. Le correlazioni parziali sono deboli e il fattore può essere abbastanza definito . FA presume che i fattori siano più generali del semplice caricamento di coppie di elementi correlati. In effetti, c'è anche un consiglio di non estrarre fattori che caricano decentemente meno di 3 articoli in FA esplosiva; e nella conferma AF solo 3+ è la struttura identificata garantita . Un problema tecnico di estrazione chiamato caso Heywood ha, come uno dei motivi alla base, la situazione di pochi elementi per fattore. La "misura di adeguatezza del campionamento" di Kaiser-Meyer-Olkin ( KMO ) stima per te quanto siano deboli le correlazioni parziali nei dati rispetto alle correlazioni complete; può essere calcolato per ogni elemento e per l'intera matrice di correlazione.
  6. Nessuna multicollinearità . Il modello FA presuppone che tutti gli elementi presentino un fattore unico e che tali fattori siano ortogonali. Pertanto 2 elementi devono definire un piano, 3 elementi - uno spazio 3d, ecc.: I pvettori correlati devono estendersi allo spazio p-dim per accogliere i loro componenti univoci reciprocamente perpendicolari. Quindi, nessuna singolarità per ragioni teoriche (e quindi automaticamente , senza dire; e meglio ). Non che completa multicollinearità è consentito però; tuttavia può causare problemi computazionali nella maggior parte degli algoritmi FA ( vedi anche).1n observations > p variablesn>>p
  7. Distribuzione . In generale, FA lineare non richiede la normalità dei dati di input. Sono accettabili distribuzioni moderatamente distorte. La bimodalità non è una controindicazione. La normalità è infatti assunta per fattori unici nel modello (servono come errori di regressione) - ma non per i fattori comuni e i dati di input ( vedi anche). Tuttavia, la normalità multivariata dei dati può essere richiesta come ipotesi aggiuntiva da alcuni metodi di estrazione (vale a dire, massima probabilità) ed eseguendo alcuni test asintotici.

1 I metodi ULS / minres di FA possono funzionare con una matrice di correlazione singolare e persino non psd, ma rigorosamente teoricamente tale analisi è dubbia, per me.


, potresti leggere questo post , sembrava un po 'diverso.
WhiteGirl,

Se Binary data should also be avoided, per quale altro metodo di analisi fattoriale possiamo fare binary data?
kittygirl,

cari ttnphns; Noto che non si menziona il fatto che i dati siano considerati normali e che altri dati online indicano che la normalità non è richiesta. La mia domanda è se le variabili latenti sono considerate normali e le osservazioni sono modellate come una somma ponderata dei fattori, ciò non implica quindi una distribuzione normale delle osservazioni? (Mi dispiace, sono sicuro che questa sia una domanda stupida)
user2957945,

@utente2957945, il paragrafo 7 dice della normalità. L'assunzione della normalità è necessaria per alcuni metodi di estrazione dei fattori e per l'esecuzione di alcuni test statistici che accompagnano facoltativamente l'analisi dei fattori. Alla tua domanda: Sì, se i fattori sono distribuiti normalmente e anche gli errori normalmente, ciò significa che anche le variabili manifest sono normali.
ttnphns,

ah, grazie @ttnphns; mi dispiace disturbarla - non so proprio come sono riuscito a perderlo. Apprezzo il tuo aiuto.
user2957945

9

Gran parte del tempo, l'analisi dei fattori viene condotta senza alcun test statistico di per sé. È molto più soggettivo e interpretativo di metodi come la regressione, la modellazione di equazioni strutturali e così via. E generalmente sono i test inferenziali che vengono con ipotesi: affinché valori p e intervalli di confidenza siano corretti, tali presupposti devono essere soddisfatti.

Ora, se il metodo per scegliere il numero di fattori è impostato per essere il metodo della massima verosimiglianza, allora c'è un presupposto che accompagna questo: che le variabili immesse nell'analisi dei fattori avranno distribuzioni normali.

Il fatto che le variabili di input abbiano correlazioni diverse da zero è una sorta di ipotesi in quanto senza che ciò sia vero, i risultati dell'analisi dei fattori saranno (probabilmente) inutili: nessun fattore emergerà come variabile latente dietro una serie di variabili di input.

Per quanto non vi sia "nessuna correlazione tra fattori (comuni e specifici) e nessuna correlazione tra variabili di un fattore e variabili di altri fattori", questi non sono presupposti universali che gli analisti fattoriali fanno, sebbene a volte sia una condizione (o un'approssimazione) di esso) potrebbe essere desiderabile. Quest'ultimo, quando detiene, è noto come "struttura semplice".

C'è un'altra condizione che a volte viene trattata come un "presupposto": che le correlazioni di ordine zero (vaniglia) tra le variabili di input non vengano sommerse da ampie correlazioni parziali. Ciò significa in breve che le relazioni dovrebbero essere forti per alcuni abbinamenti e deboli per altri; altrimenti, i risultati saranno "fangosi". Ciò è legato alla desiderabilità di una struttura semplice e in realtà può essere valutato (anche se non formalmente "testato") usando la statistica Kaiser-Meyer-Olkin, o KMO. I valori KMO vicini a .8 o .9 sono generalmente considerati molto promettenti per i risultati dell'analisi dei fattori informativi, mentre gli KMO vicini a .5 o .6 sono molto meno promettenti e quelli al di sotto di .5 potrebbero indurre un analista a ripensare la propria strategia.


Come ho letto, l'analisi dei fattori inizia con una certa correlazione con le variabili e proviamo a rendere questa correlazione sempre più chiara
Sihem,

1
Dopo l'applicazione dell'analisi fattoriale, se abbiamo utilizzato la rotazione ortogonale, saremo sicuri che non vi sia alcuna correlazione tra i fattori
Sihem,

2

Ipotesi sottostanti analisi fattoriale esplorativa sono:
• Intervallo o livello rapporto di misurazione
• campionamento casuale
• Relazioni tra variabili osservate è lineare
• Una distribuzione normale (ogni variabile osservata)
• Un bivariato distribuzione normale (ciascuna coppia di variabili osservate)
• multivariata normalità
in pianta dal il file SAS

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.