Questa è una buona domanda, ma grande. Non credo di poter fornire una risposta completa, ma lancerò del cibo per riflettere.
Innanzitutto, sotto il punto in alto, la correzione a cui ti riferisci è nota come correzione di Yates per la continuità . Il problema è che calcoliamo una statistica inferenziale discreta :
(È discreta perché, con solo un numero finito di istanze rappresentate in una tabella di contingenza, lì sono un numero finito di possibili valori riscontrati che questa statistica può assumere.) Nonostante ciò, viene confrontato con un continuo distribuzione di riferimento ( cioè. , il distribuzione con gradi di libertà
χ2= ∑ ( O - E)2E
χ2 ( r - 1 ) ( c - 1 )). Ciò comporta necessariamente una discrepanza a un certo livello. Con un set di dati particolarmente piccolo e se alcune celle hanno valori previsti inferiori a 5, è possibile che il valore p sia troppo piccolo. La correzione di Yates si adatta a questo.
Ironia della sorte, lo stesso problema di fondo (discrepanza discreta-continua) può portare a valori p troppo alti . In particolare, il valore p è convenzionalmente definito come la probabilità di ottenere dati estremi o piùrispetto ai dati osservati. Con dati continui, si comprende che la probabilità di ottenere qualsiasi valore esatto è vanificante, e quindi abbiamo davvero la probabilità di dati più estremi. Tuttavia, con dati discreti esiste una probabilità finita di ottenere dati proprio come i tuoi. Solo il calcolo della probabilità di ottenere dati più estremi del tuo produce valori p nominali troppo bassi (portando a un aumento degli errori di tipo I), ma includere la probabilità di ottenere dati uguali ai tuoi porta a valori p nominali troppo alti (che porterebbe ad un aumento degli errori di tipo II). Questi fatti suggeriscono l'idea del valore medio di p . Con questo approccio, il valore p è la probabilità di dati più estremi del tuo più la metà la probabilità di dati è uguale alla tua.
Come sottolineato, ci sono molte possibilità per testare i dati della tabella di contingenza. Il trattamento più completo dei pro e dei contro dei vari approcci è qui . Quel documento è specifico per le tabelle 2x2, ma puoi ancora imparare molto sulle opzioni per i dati della tabella di contingenza leggendolo.
Penso anche che valga la pena considerare seriamente i modelli. I test più vecchi come il chi-quadrato sono rapidi, facili e compresi da molte persone, ma non ti lasciano con una comprensione dei tuoi dati così completa come ottieni dalla costruzione di un modello appropriato. Se è ragionevole pensare alle righe [colonne] della tabella di contingenza come una variabile di risposta e alle colonne [righe] come variabili esplicative / predittive, un approccio di modellazione segue abbastanza prontamente. Ad esempio, se avessi solo due righe, puoi costruire un modello di regressione logistica ; se sono presenti più colonne, è possibile utilizzare la codifica delle celle di riferimento (codifica fittizia) per creare un modello di tipo ANOVA. D'altra parte, se si dispone di più di due righe, regressione logistica multinomialepuò essere usato allo stesso modo. Se le tue righe hanno un ordine intrinseco, la regressione logistica ordinale produrrebbe prestazioni superiori al multinomiale. Il modello log-lineare (regressione di Poisson) è probabilmente meno rilevante a meno che tu non abbia tabelle di contingenza con più di due dimensioni, secondo me.
Per un trattamento completo di argomenti come questi, le fonti migliori sono i libri di Agresti: o il suo trattamento su vasta scala (più rigoroso), il suo libro introduttivo (più facile ma comunque completo e molto buono), o forse anche il suo libro ordinale .
sol2-test
sol2= ∑ O ⋅ ln ( OE)