Ho un problema che penso dovrebbe essere semplice ma non riesco a capirlo. Sto guardando l'impollinazione dei semi, ho piante (n = 36) che fioriscono in grappoli, campiono 3 grappoli di fiori da ogni pianta e 6 baccelli di semi da ciascun grappolo (18 baccelli in totale da ogni pianta). Un baccello può avere da 0 a un massimo di 4 semi impollinati. Quindi, i dati vengono conteggiati, con un limite superiore. Sto trovando una media del ~ 10% di semi impollinati, ma tra l'1 e il 30% su una determinata pianta, quindi su dati dispersi e, naturalmente, ci sono 4 replicati di cluster mancanti su 3 piante, quindi non perfettamente simmetrici .
La domanda che sto ponendo è se questi dati supportano l'idea che questa pianta richiede impollinatori per il set di semi.
Sto scoprendo che la distribuzione per il numero di semi in un baccello sembra che ci siano più 0 baccelli del seme impollinati (6-9 baccelli su 16) e più 3 e 4 baccelli del seme impollinati (2-4 per ciascuno) di quanto sarebbe prevedibile se i semi nella popolazione fossero stati impollinati casualmente. Fondamentalmente, penso che questo sia un classico esempio di dati gonfiati a zero, prima un insetto fa o non visita affatto il fiore (un generatore di zero) e se lo fa, impollina 0-4 dei semi in un'altra distribuzione. L'ipotesi alternativa è che la pianta sia parzialmente autosufficiente, e quindi ci si aspetterebbe che ogni seme abbia la stessa probabilità di essere impollinato (questi dati suggeriscono una probabilità di circa 0,1, il che significa 0,01 possibilità per due semi nello stesso baccello, ecc.) .
Ma voglio semplicemente dimostrare che i dati si adattano meglio all'una o all'altra distribuzione, non effettivamente FARE un ZIP o ZINB sui dati. Penso che qualunque metodo che uso dovrebbe tenere conto del numero effettivo di semi impollinati e del numero di baccelli campionati su ogni pianta. La cosa migliore che mi è venuta in mente è di fare una specie di cinturino di avvio in cui assegno casualmente il numero di semi impollinati per una determinata pianta al numero di baccelli che ho campionato, lo faccio 10.000 volte e vedo quanto è probabile i dati sperimentali per la pianta data sono usciti da quella distribuzione casuale.
Sento solo che c'è qualcosa in questo che dovrebbe essere molto più semplice del bootstrap a forza bruta, ma dopo giorni di pensieri e ricerche mi arrendo. Non posso solo confrontarmi con una distribuzione di Poisson perché è limite superiore, non è binomiale perché devo generare la distribuzione prevista in qualche modo prima. qualche idea? E sto usando R quindi un consiglio (specialmente su come generare in modo elegante 10.000 distribuzioni casuali di n palline in 16 scatole che possono contenere ciascuna al massimo 4 palline) sarebbe il benvenuto.
AGGIUNTO 9/07/2012 Innanzitutto, grazie a tutti per l'interesse e l'aiuto. Leggere le risposte mi ha fatto pensare di riformulare un po 'la mia domanda. Quello che sto dicendo è che ho un'ipotesi (che per ora sto pensando come nulla) che i semi vengono impollinati casualmente tra i baccelli e la mia ipotesi alternativa è che un baccello con almeno 1 seme impollinato abbia maggiori probabilità di hanno più semi impollinati di quanto ci si aspetterebbe da un processo casuale. Ho fornito dati reali da tre impianti come esempi per illustrare di cosa sto parlando. La prima colonna è il numero di semi impollinati in un baccello, la seconda colonna è la frequenza dei baccelli con quel numero di semi.
pianta 1 (totale 3 semi: impollinazione del 4%)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
pianta 2 (totale 19 semi: 26% di impollinazione)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
pianta 3 (totale 16 semi: impollinazione del 22%)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
Nella pianta n. 1, solo 3 semi sono stati impollinati in 18 baccelli, un baccello aveva un seme e un baccello aveva due semi. Pensando a un processo di aggiunta casuale di un seme ai baccelli, i primi due semi vanno ciascuno nel proprio baccello, ma per il 3 ° seme, ci sono 6 posti disponibili in baccelli che hanno già un seme ma 64 punti nei 16 baccelli senza semi, quindi la più alta probabilità di un baccello con 2 semi qui è 6/64 = 0,094. È un po 'basso, ma non molto estremo, quindi direi che questa pianta si adatta all'ipotesi di impollinazione casuale su tutti i semi con una probabilità del 4% circa di impollinazione. Ma la pianta 2 mi sembra molto più estrema, con 4 baccelli completamente impollinati, ma 12 baccelli senza nulla. Non sono sicuro di come calcolare direttamente le probabilità di questa distribuzione (quindi la mia idea di bootstrap) ma immagino che le probabilità di questa distribuzione che si verificano a caso se ogni seme ha una probabilità di impollinazione del 25% è abbastanza bassa. Pianta n. 3 Non ne ho davvero idea, penso che ci siano più 0 e 3 di quelli che uno dovrebbe aspettarsi per una distribuzione casuale, ma la mia sensazione è che questa distribuzione per questo numero di semi sia molto più probabile della distribuzione per la pianta # 2, e potrebbe non essere così improbabile. Ma ovviamente voglio saperlo con certezza e in tutte le piante. Penso che ci siano più 0 e 3 di quelli che ci si aspetterebbe da una distribuzione casuale, ma la mia sensazione è che questa distribuzione per questo numero di semi sia molto più probabile della distribuzione per la pianta 2, e potrebbe non essere così improbabile. Ma ovviamente voglio saperlo con certezza e in tutte le piante. Penso che ci siano più 0 e 3 di quelli che ci si aspetterebbe da una distribuzione casuale, ma la mia sensazione è che questa distribuzione per questo numero di semi sia molto più probabile della distribuzione per la pianta 2, e potrebbe non essere così improbabile. Ma ovviamente voglio saperlo con certezza e in tutte le piante.
Alla fine sto cercando di scrivere una dichiarazione del tipo “La distribuzione di semi impollinati nei baccelli del seme si adatta (o non si adatta) all'ipotesi che le piante non siano semplicemente parzialmente autocompatibili, ma richiedono la visita di un impollinatore per effettuare il set di semi. (risultati del test statistico). " Questa è davvero solo una parte della mia sezione lungimirante, in cui sto parlando di quali esperimenti condurre dopo, quindi non sono disperato che questa sia una cosa o l'altra, ma voglio sapere da sola, se possibile. Se non posso fare quello che sto cercando di fare con questi dati, mi piacerebbe saperlo anche io!
All'inizio ho fatto una domanda piuttosto ampia, dal momento che sono curioso di sapere se ci sono o meno dei buoni test per mostrare se i dati dovrebbero andare in un modello gonfiato zero in primo luogo. Tutti gli esempi che ho visto sembrano dire: "guarda, ci sono molti zeri qui, e c'è una spiegazione ragionevole per questo, quindi usiamo un modello zero gonfiato". Questo è quello che sto facendo ora su questo forum, ma ho avuto un'esperienza nel mio ultimo capitolo in cui ho usato un glm Poisson per i dati di conteggio e uno dei miei supervisori ha detto "No, i glms sono troppo complessi e non necessari, questi dati dovrebbero andare in una tabella di contingenza ”e poi mi ha inviato un dump di dati della massiccia tabella di contingenza generata dal loro costoso pacchetto di statistiche che ha dato gli stessi valori p per tutti i miei fattori + interazioni a tre cifre significative !! Quindi, sto cercando di mantenere le statistiche chiare e semplici, e mi assicuro di averle comprese abbastanza bene da difendere in modo deciso le mie scelte, cosa che non sento di poter fare per un modello a zero inflazione al momento. Ho usato sia un quasibinomiale (per le piante intere per sbarazzarmi di pesudoreplicaiton) sia un modello misto per i dati di cui sopra per confrontare i trattamenti e rispondere alle mie principali domande sperimentali, o sembra fare lo stesso lavoro, ma ho intenzione di fare anche gioca con ZINB stasera, per vedere quanto bene si esibisce. Sto pensando se posso dimostrare esplicitamente che questi dati sono inizialmente fortemente raggruppati (o zero gonfiati), quindi fornire una buona ragione biologica per ciò che si verifica, sarò molto meglio impostato per estrarre successivamente uno ZINB, piuttosto che basta confrontarne uno con un modello quasibinomiale / misto e argomentare poiché dà risultati migliori, ecco cosa dovrei usare. cosa che non sento di poter fare per un modello a zero inflazione in questo momento. Ho usato sia un quasibinomiale (per le piante intere per sbarazzarmi di pesudoreplicaiton) sia un modello misto per i dati di cui sopra per confrontare i trattamenti e rispondere alle mie principali domande sperimentali, o sembra fare lo stesso lavoro, ma ho intenzione di fare anche gioca con ZINB stasera, per vedere quanto bene si esibisce. Sto pensando se posso dimostrare esplicitamente che questi dati sono inizialmente fortemente raggruppati (o zero gonfiati), quindi fornire una buona ragione biologica per ciò che si verifica, sarò molto meglio impostato per estrarre successivamente uno ZINB, piuttosto che basta confrontarne uno con un modello quasibinomiale / misto e argomentare poiché dà risultati migliori, ecco cosa dovrei usare. cosa che non sento di poter fare per un modello a zero inflazione in questo momento. Ho usato sia un quasibinomiale (per le piante intere per sbarazzarmi di pesudoreplicaiton) sia un modello misto per i dati di cui sopra per confrontare i trattamenti e rispondere alle mie principali domande sperimentali, o sembra fare lo stesso lavoro, ma ho intenzione di fare anche gioca con ZINB stasera, per vedere quanto bene si esibisce. Sto pensando se posso dimostrare esplicitamente che questi dati sono inizialmente fortemente raggruppati (o zero gonfiati), quindi fornire una buona ragione biologica per ciò che si verifica, sarò molto meglio impostato per estrarre successivamente uno ZINB, piuttosto che basta confrontarne uno con un modello quasibinomiale / misto e argomentare poiché dà risultati migliori, ecco cosa dovrei usare. Ho usato sia un quasibinomiale (per le piante intere per sbarazzarmi di pesudoreplicaiton) sia un modello misto per i dati di cui sopra per confrontare i trattamenti e rispondere alle mie principali domande sperimentali, o sembra fare lo stesso lavoro, ma ho intenzione di fare anche gioca con ZINB stasera, per vedere quanto bene si esibisce. Sto pensando se posso dimostrare esplicitamente che questi dati sono inizialmente fortemente raggruppati (o zero gonfiati), quindi fornire una buona ragione biologica per ciò che si verifica, sarò molto meglio impostato per estrarre successivamente uno ZINB, piuttosto che basta confrontarne uno con un modello quasibinomiale / misto e argomentare poiché dà risultati migliori, ecco cosa dovrei usare. Ho usato sia un quasibinomiale (per le piante intere per sbarazzarmi di pesudoreplicaiton) sia un modello misto per i dati di cui sopra per confrontare i trattamenti e rispondere alle mie principali domande sperimentali, o sembra fare lo stesso lavoro, ma ho intenzione di fare anche gioca con ZINB stasera, per vedere quanto bene si esibisce. Sto pensando se posso dimostrare esplicitamente che questi dati sono inizialmente fortemente raggruppati (o zero gonfiati), quindi fornire una buona ragione biologica per ciò che si verifica, sarò molto meglio impostato per estrarre successivamente uno ZINB, piuttosto che basta confrontarne uno con un modello quasibinomiale / misto e argomentare poiché dà risultati migliori, ecco cosa dovrei usare.
Ma non voglio distrarre troppo dalla mia domanda principale, come posso determinare se i miei dati sono davvero più a zero del previsto da una distribuzione casuale? Nel mio caso, la risposta è ciò che mi interessa veramente, con il possibile vantaggio che la giustificazione del modello è un vantaggio.
Grazie ancora per tutto il tuo tempo e aiuto!
Saluti, BWGIA