Usi ANOVA sulle percentuali?


13

Ho una tabella con quattro gruppi (4 gruppi BMI) come variabile indipendente (fattore). Ho una variabile dipendente che è "percentuale di fumo di madre in gravidanza".

È consentito utilizzare ANOVA per questo o devo usare chi-square o qualche altro test?

Risposte:


21

C'è una differenza tra avere una variabile binaria come variabile dipendente e avere una proporzione come variabile dipendente.

  • Variabile binaria dipendente :

    • Questo suona come quello che hai. (cioè ogni madre fumava o non fumava)
    • In questo caso non userei ANOVA. La regressione logistica con una qualche forma di codifica (forse codifica fittizia) per la variabile di predittore categoriale è la scelta ovvia se si sta concettualizzando la variabile binaria come variabile dipendente (altrimenti si potrebbe fare chi-quadrato).
  • Proporzione come variabile dipendente :

    • Questo non suona come quello che hai. (ad esempio, non si dispone di dati sulla percentuale del tempo di veglia totale che una madre stava fumando durante la gravidanza in un campione di donne in gravidanza che fumavano).
    • In questo caso, ANOVA e gli approcci di modello lineare standard in generale possono o meno essere ragionevoli per i tuoi scopi. Vedi la risposta di @Ben Bolker per una discussione dei problemi.

Per una variabile dipendente binaria, nel caso in cui ho solo dati di riepilogo per le proporzioni binarie (cioè # nei gruppi A, B e C e il numero di successi nei gruppi A, B e C), e non i dati grezzi effettivi, come possiamo utilizzare la regressione logistica? Conosco solo i dati grezzi.
Bryan,

15

Dipende da quanto vicine sono le risposte all'interno di gruppi diversi allo 0 o al 100%. Se ci sono molti valori estremi (cioè molti valori accumulati su 0 o 100%) questo sarà difficile. (Se non si conoscono i "denominatori", ovvero il numero di soggetti da cui vengono calcolate le percentuali, non è possibile utilizzare comunque gli approcci della tabella di contingenza.) Se i valori all'interno dei gruppi sono più ragionevoli, è possibile trasformare il variabile di risposta (ad es. classica arcsine-radice quadrata o forse logit trasformata). Esistono una varietà di approcci grafici (preferiti) e di ipotesi nulla (meno preferiti) per decidere se i dati trasformati soddisfano adeguatamente i presupposti di ANOVA (omogeneità di varianza e normalità, la prima più importante della seconda). Test grafici: grafici a scatole (omogeneità della varianza) e grafici a QQ (normalità) [quest'ultimo dovrebbe essere fatto all'interno di gruppi o su residui]. Test di ipotesi nulla: ad esempio test di Bartlett o Fligner (omogeneità della varianza), Shapiro-Wilk, Jarque-Bera, ecc.


11

È necessario disporre dei dati non elaborati, in modo che la variabile di risposta sia 0/1 (non fumo, fumo). Quindi è possibile utilizzare la regressione logistica binaria. Non è corretto raggruppare BMI in intervalli. I punti di interruzione non sono corretti, probabilmente non esistono e non si sta verificando ufficialmente se l'IMC è associato al fumo. Attualmente stai testando se l'IMC con gran parte delle sue informazioni scartate è associato al fumo. Scoprirai che soprattutto gli intervalli BMI esterni sono abbastanza eterogenei.


2
@Frank - perché "non è corretto" raggruppare l'IMC? questo sembra perfettamente ragionevole, a condizione che i risultati siano interpretati in modo appropriato. Si potrebbe benissimo verificare, ad esempio, se essere "sottopeso", "peso sano", "sovrappeso" e "obeso" sono associati al fumo, dove questi termini sono definiti dagli intervalli di BMI. Non vedo "sbagliato" qui.
Probislogic,

Credo che l'OP stia lavorando con un set di dati istruttivo comune e potrebbe non avere un BMI grezzo. Anche se generalmente non è l'ideale per discretizzare i regressori continui non è "errato". Può anche essere utile ricorrere a questo quando sospettiamo che le misurazioni siano rumorose e che non ci sia altro ricorso. In effetti, la vera ipotesi che vorremmo verificare è se l'obesità è legata al fumo; BMI è solo un modo per misurare l'obesità (e ha i suoi problemi da quello che capisco).
JMS,

4
Anche quando le misurazioni sono rumorose, analizzare le variabili come continue è superiore. La categorizzazione dell'IMC crea più problemi di quanti ne possano risolvere diverse scelte di analisi. In effetti le stime sulla categorizzazione non hanno più un'interpretazione scientifica. Una quantità scientifica è uno che ha un significato al di fuori dell'esperimento attuale. Scoprirai che le stime di gruppo (ad esempio, le probabilità di registro che Y = 1 per intervalli alti o bassi di X) sono funzioni dell'intero insieme di BMI osservati. Ad esempio, se si aggiungessero BMI più alti o estremamente bassi al campione, gli "effetti" diventerebbero più forti.
Frank Harrell,

Per coloro che hanno installato R e RStudio, è possibile trovare una dimostrazione interattiva su biostat.mc.vanderbilt.edu/BioMod - vedere la NUOVA marcatura verde. Devi caricare lo script in RStudio e installare anche il pacchetto Hmisc.
Frank Harrell,

"Anche quando le misurazioni sono rumorose, analizzare le variabili come continue è superiore" Questo è semplicemente errato (la generalità di ciò, cioè - di solito è vera). Immagina di avere una covariata continua in cui l'errore nella sua misura aumenta con la sua grandezza, per esempio. Naturalmente la cosa migliore da fare è modellare l'errore, o ottenere misurazioni migliori, ecc. Ma dire che è errato è semplicemente un'affermazione troppo forte da fare.
JMS,

3

Se si sceglie di eseguire un normale ANOVA su dati proporzionali, è fondamentale verificare l'assunzione di varianze omogenee di errore. Se (come è comune con i dati percentuali), le varianze di errore non sono costanti, un'alternativa più realistica è provare la regressione beta, che può spiegare questa eteroscedasticità nel modello. Ecco un documento che discute vari modi alternativi di trattare una variabile di risposta che è una percentuale o proporzione: http://www.ime.usp.br/~sferrari/beta.pdf

Se usi R, il pacchetto betareg può essere utile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.