Sondaggi: il 25% di una grande base di utenti è rappresentativo?


13

Il mio datore di lavoro sta attualmente conducendo un sondaggio a livello aziendale sugli atteggiamenti nei confronti dell'ufficio, ad esempio Sentiment. In passato, hanno aperto il sondaggio a tutte le aree del business (supponiamo che 10 dipartimenti molto diversi) e tutti i dipendenti al loro interno (supponiamo che 1000 dipendenti in totale nell'intera società) Il numero di dipendenti in ciascun dipartimento non sia uguale e uno dipartimento particolare è probabilmente il 50% della popolazione totale delle organizzazioni.

Quest'anno il sondaggio viene aperto solo al 25% della base totale di dipendenti e la selezione è "casuale"

Quindi, ho due domande:

  • Se si tratta di una selezione veramente casuale dell'intera base di dipendenti, come può un campione statisticamente valido supporre che tutti quei dipendenti abbiano risposto?

  • Se è casuale a livello di dipartimento, ad es. Il 25% di ciascun dipartimento, come può un campione valido considerare un dipartimento oltre il 50% della popolazione totale.

Avrei supposto che per determinare un sentimento di maggioranza in un'azienda, fosse necessario almeno il 50% della base di dipendenti in ciascun dipartimento per fornire un vero sentimento di lettura.

Aggiornamento : il sondaggio non viene applicato. Non è possibile garantire una percentuale di risposta del 100% dal 25% selezionato. Non esistono incentivi o mezzi punitivi se il sondaggio è o non è completo.


2
Suggerirei di rendere il sondaggio il più piccolo possibile (numero / tipo di domande), quindi renderlo obbligatorio per il numero minimo necessario, in modo che dipendenti / dirigenti non si lamentino del fatto che è un tempo enorme. Se le persone si auto-selezionano, ciò garantisce una sistematica distorsione di qualche forma.
Nick T,

Se stai misurando la media di qualche variabile che è normalmente distribuita, dopo circa 20 risposte la dimensione del tuo intervallo +/- crescerà a una velocità di circa 1/sqrt(# responses). Ad esempio, con 20 risposte avrai +/- .468 * sigma. Con 100 risposte sarà +/- .198 * sigma. Con 1000 risposte sarà +/- .062 * sigma.
Pace,

Risposte:


22

Pensa a sondaggi nella popolazione generale di dire gli Stati Uniti. Se avessimo bisogno del 50% della popolazione per determinare l'opinione della maggioranza, avremmo bisogno di un campione di circa 160 milioni, il che è veramente proibitivo. Anche un campione dell'1% è estremo (circa 3,2 milioni) e raramente viene eseguito. Un importante sondaggio negli Stati Uniti il ​​General Social Survey ha dimensioni del campione comprese tra 1.500 e quasi 3.000. Quindi un campione del 25% non è di per sé un problema.

Ricorda che un sondaggio non è un'elezione o un referendum. Perché quest'ultimo sia legittimo, ogni persona ammissibile deve avere la possibilità di esprimere la propria opinione. Per il sondaggio lo scopo è quello di ottenere una buona stima dell'opinione media e puoi ottenerla con un campione casuale. Pertanto, la società deve decidere quale sia lo scopo del sondaggio: è un modo per i dipendenti di esprimere la propria opinione e partecipare alla società o è un modo per i manager di ottenere informazioni?

Entrambi i progetti di campionamento assicurano che venga richiesto il 25% dei dipendenti. Quest'ultimo assicura che nel sondaggio siano rappresentati i dipartimenti più piccoli. Se ti preoccupi degli errori standard, dovresti prendere in considerazione la natura nidificata del campionamento, anche se non sospetto che in questo caso sarà molto importante.


2
+1 ma vale la pena sottolineare che se non si è interessati all'opinione media, ma qualcos'altro potrebbero essere necessari campioni più grandi.
Tim

1
Grazie per la risposta. Tuttavia, ed è stata la mia omissione, non c'è applicazione del sondaggio. Verrà chiesto solo il 25%, ma non sono obbligati a rispondere.
Colin

2
Anche questo è normale. Se faccio un sondaggio, sarebbe difficile forzare le persone a rispondere. Potrei provare ad assumere alcuni criminali per "persuadere" i miei intervistati, ma ciò avrebbe conseguenze etiche e legali ... Tuttavia, la mancata risposta è un problema, ma è un problema che la maggior parte dei sondaggi deve affrontare.
Maarten Buis,

7

Per etimologia " sondaggio " ( sur-da "super", come in "dall'alto" e -veyda "vista") significa ottenere una visione d'insieme , non il quadro completo.

Fintanto che il 25% è stato veramente casuale e non cioè auto-selezionato (opt-in), allora soddisfa abbastanza la definizione del termine. Se il sondaggio è facoltativo, le risposte saranno rappresentative solo di coloro che sentono il bisogno di rispondere. Ad esempio, immagina un ristorante in cui si possa compilare una scheda di feedback dopo aver cenato. Anche se la maggior parte dei commensali è felice, la maggior parte dei feedback sarà negativa perché i clienti felici vedono poche ragioni per dare feedback.


1
Potresti espandere l'effetto dell''auto-selezione '? Questo sondaggio non viene applicato, è del tutto facoltativo e non esistono incentivi o mezzi punitivi se lo fai o non lo compili. Aggiornerò la mia domanda di apertura.
Colin,

6
@Colin: se il sondaggio è facoltativo, le risposte saranno rappresentative solo di coloro che sentono il bisogno di rispondere. Ad esempio, immagina un ristorante in cui si possa compilare una scheda di feedback dopo aver cenato. Anche se la maggior parte dei commensali è contenta, la maggior parte dei feedback sarà negativa perché i clienti felici vedono poche ragioni per dare feedback.
dotancohen,

1
@dotancohen Penso che la risposta trarrebbe molto beneficio dal fatto che questo commento venga incluso in esso.
Pere,

@Pere: grazie, ero preoccupato che inserire il commento nella risposta potesse distrarre dal punto etimologico. Ma hai ragione, e lo sto aggiungendo.
dotancohen,

4

Un altro punto di vista viene dalla teoria della progettazione dell'esperimento.

Il potere statistico è la probabilità di trovare un effetto se è reale ( fonte )

Quattro fattori influenzano il potere:

  1. Dimensione dell'effetto
  2. Deviazione standard della caratteristica
  3. Dimensione del campione più grande
  4. Livello di significatività desiderato

Sulla base di questi elementi, puoi scrivere un'equazione matematica formale che collega potenza, dimensione del campione, dimensione dell'effetto, deviazione standard e livello di significatività ( sorgente )

Sotto una serie di ipotesi , potresti caratterizzare il tuo sondaggio come un esperimento e attingere alla progettazione del framework degli esperimenti ( qui ci sono un paio di esempi). C'è un numero di ipotesi colte da fare; tuttavia, un modello imperfetto potrebbe essere migliore di nessun modello.


3

Sento due domande. Uno sulla dimensione del campione (25%, perché non la maggioranza) e un altro sulla tecnica di campionamento (è davvero casuale, campiona il 25% in modo casuale sull'intera azienda, campiona il 25% in modo casuale in ogni reparto o usa qualche altra distribuzione).

1) La dimensione del campione non deve essere la maggioranza. La dimensione del campione richiesta può essere compresa tra 0 e 100% a seconda dell'accuratezza richiesta per un dato rapporto di confidenza o probabilità.

La certezza al 100% non viene mai ottenuta (anche se non con un sottoinsieme del 50% o più grande). Raggiungere una precisione così elevata non è nemmeno il punto di campionamento e stima.

Scopri di più sulle dimensioni del campione: https://en.wikipedia.org/wiki/Sample_size_determination

Se ottieni la legge di grandi numeri potresti anche avere un'idea intuitiva.

La distribuzione delle medie di tutti i possibili sottoinsiemi (e il campione sarà uno di questi), diventerà più piccola e più vicina alla media della distribuzione originale, se la dimensione del sottoinsieme aumenta. Se selezioni una persona, allora c'è qualche ragionevole possibilità di trovare un'eccezione, ma trovare la stessa eccezione nella stessa direzione due volte diventa meno probabile. E così via, maggiore è la dimensione del sottoinsieme campionato, minore è la possibilità di un sottoinsieme eccezionale.

Alla fine la distribuzione delle medie di tutti i possibili sottoinsiemi ha una varianza uguale alla varianza dell'insieme originale diviso per n la dimensione del sottoinsieme.

Nota importante! La stima non dipenderà dalla dimensione della popolazione da cui si campiona, ma dalla distribuzione di quella popolazione.

Nel caso del reparto di dimensioni 500. La deviazione delle medie di sottoinsiemi casuali (di dimensioni 125) sarà 11 volte inferiore alla deviazione originale. Si noti che l'errore nella misurazione (la deviazione della media dei sottoinsiemi selezionati casualmente) è indipendente dalla dimensione del dipartimento. Potrebbe essere 500, 5000 o 50000, in tutti i casi la stima rimarrebbe inalterata fintanto che hanno la stessa distribuzione (ora un minuscolo dipartimento potrebbe avere una strana distribuzione, ma questo inizia a scomparire per gruppi più grandi).

2) Non è necessario che il campionamento sia completo casuale. Puoi tenere conto dei dati demografici.

Alla fine tratteresti ogni reparto separatamente in questo tipo di analisi e correggeresti le variazioni tra i dipartimenti e come hai campionato in questi dipartimenti di dimensioni diverse.

In questa correzione ci sono due importanti differenze. Si potrebbe supporre che la distribuzione tra i gruppi sia una variabile casuale o meno. Se la trattate come una variabile casuale, allora l'analisi diventa più forte (eliminando alcuni gradi di libertà nel modello) ma potrebbe essere un presupposto errato se i diversi gruppi non sono scambiabili come entità casuali senza alcun effetto specifico (che sembra essere il tuo caso, poiché immagino che i dipartimenti abbiano funzioni diverse e possano avere un sentimento ampiamente diverso che non è casuale rispetto al dipartimento).


1
Grazie per la risposta. Tuttavia, ed è stata la mia omissione, non c'è applicazione del sondaggio. Verrà chiesto solo il 25%, ma non sono obbligati a rispondere.
Colin,

1
Quindi c'è un'ulteriore terza domanda sulle tecniche di campionamento e su come vengono raccolti i dati. Per tali problemi, come gestire la mancata risposta e altri aspetti di qualità dei dati, non esiste una risposta unica. In ogni caso (sia chiedendo il 50% o il 25%) se c'è un grosso problema con la risposta, qualsiasi discussione sull'analisi statistica è solo di secondaria importanza. Questo studio non migliorerà molto con un campionamento maggiore (ad es. Chiedendo> 50%) ed è meglio concentrarsi su un buon campionamento.
Sesto Empirico,

2

La tua domanda riguarda le dimensioni del campione per una popolazione finita. Ma la prima cosa di cui hai bisogno è la dimensione del campione richiesta in una popolazione infinita, che può quindi essere utilizzata per calcolare la dimensione del campione per una popolazione finita.

In un sondaggio su una popolazione infinita, la formula è: n=(z2pq)/d2
n, misura di prova
z2, livello di confidenza, di solito 1,96
p, percentuale della popolazione con un uso caratteristico, se sconosciuto 0,5
q=1-p, proporzione della popolazione senza una caratteristica
d2, livello di errore (noto anche come margine di errore), in genere 3%, ma può essere utilizzato 1% o 5%.

Il livello di errore diventa il fattore più importante perché più basso è il livello di errore, maggiore è la dimensione del campione richiesta e viceversa. Pertanto, la dimensione del campione per una popolazione infinita con errore del 3% è:(1.96×0.5×0.5)/0.032=1,068. Inoltre, il livello di errore indica che i risultati hanno un errore di +/- 3%, in questo caso. Ciò significa che se il 48% delle persone nel sondaggio era di sesso maschile, l'intervallo possibile era del 48% +/- 3% o dal 45% al ​​51%.

Il prossimo passo è la formula per la dimensione del campione per una popolazione finita: m=n/(1+((n-1)/N))
m, dimensione del campione per popolazione finita
n, dimensione del campione per popolazione infinita (1.068 dall'alto)
N, dimensione della popolazione finita

Utilizzando l'esempio di N=1,000, la dimensione del campione richiesta con un errore del 3% sarebbe 1068/(1+((1068-1)/1000))=517o il 51,7% della popolazione.

Se hai utilizzato il 25% della popolazione, il livello di errore risulta pari al 5,4%. Questo livello di errore può andare bene sulla base di sondaggi precedenti. Con i sondaggi c'è sempre un compromesso tra il livello di errore che sei disposto ad accettare e i costi di svolgimento del sondaggio.

Nessuno di questi fattori nel tasso di risposta (se si utilizza un semplice campione casuale). Per scoprire quante persone devono essere contattate, dividi le dimensioni del campione per il tasso di risposta previsto. Ad esempio, se il tasso di risposta precedente era del 65%, è necessario inviare lo strumento di rilevamento517/0.65=796 persone.

Le cose diventano più complesse se si desidera dividere la popolazione per dipartimento (nota come stratificazione). Fondamentalmente, è necessario trattare ogni dipartimento come una popolazione finita separata se si desidera che i dati siano accurati per ciascun dipartimento, il che potrebbe non essere pratico. Ma potresti fare un campione casuale stratificato invece di un semplice campione casuale, in cui il 50% del campione viene selezionato casualmente dal dipartimento con il 50% della popolazione e le percentuali adatte vengono campionate casualmente da altri dipartimenti. Significa che la dimensione del campione aumenterà leggermente perché è necessario arrotondare tutte le cifre decimali (non è possibile rilevare 0,1 di una persona). Tuttavia, i risultati dovrebbero essere esaminati a livello di popolazione (azienda) e non a livello di reparto perché non ci saranno risposte sufficienti da ciascun dipartimento per essere accurati.


1

Mentre si parla di un campione valido, la nozione di base è di solito una rappresentazione. Il campione "rappresenta" adeguatamente la popolazione? Per ottenere un campione rappresentativo, è necessario assicurarsi che la dimensione del campione sia adeguata (al fine di ridurre la varianza della stima) e che il campione contenga membri appartenenti ai sottogruppi della popolazione che presentano diversi tipi di comportamento in esame.

In primo luogo, la percentuale di utenti selezionati per il sondaggio è inferiore rispetto al numero assoluto di utenti selezionati. La dimensione del campione richiesta dipenderà dal requisito di accuratezza o intervallo di confidenza nella risposta fornita. Puoi leggere questo articolo per ulteriori informazioni.

Lei afferma che la società è composta da diversi dipartimenti. È probabile che i dipartimenti varino nelle loro risposte al sondaggio? Se lo fanno (o forse non lo sai per certo), sarebbe una buona idea "stratificare" il tuo campione attraverso i reparti. Nella sua forma più semplice, questo significa raccogliere un'eguale proporzione di persone da ogni dipartimento. Ad esempio: la dimensione dell'azienda è 1000 e la dimensione del campione scelta è 100. Quindi si sceglierebbe 50 da un dipartimento di dimensioni 500, 10 da un dipartimento di dimensioni 100, ecc. Questo per evitare la sottorappresentazione di un particolare reparto in qualsiasi campione "casuale" specifico.

Dici anche che non tutti possono rispondere al sondaggio. Se sai che circa la metà delle persone risponderà, quindi per ottenere 100 risposte, dovrai inviare il sondaggio a 200 persone. Dovrai considerare la possibilità che tali risposte possano essere distorte. Le persone con una risposta particolare possono essere più o meno inclini a rispondere.


1

Se si tratta di una selezione veramente casuale dell'intera base di dipendenti , come può un campione statisticamente valido assumere che tutti questi dipendenti abbiano risposto?

È un campione valido purché sia ​​attinto dalla popolazione che intende descrivere. Cioè, se si campionano solo i boss, non si può dire nulla sugli altri dipendenti; ciò non accadrà nell'impostazione che hai descritto. Può tuttavia accadere a causa della mancata risposta (ulteriori informazioni qui di seguito).

Se è casuale a livello di dipartimento, ad es. Il 25% di ciascun dipartimento, come può un campione valido considerare un dipartimento oltre il 50% della popolazione totale.

Questa non è più una questione di validità del campione ma di errore di campionamento. Ovviamente, le stime più precise sarebbero ottenute da un sorteggio casuale stratificato, lo strato che comprende almeno il livello del dipartimento. In tale contesto, avrai un campione valido per ciascun dipartimento, ma le stime per i piccoli dipartimenti saranno generalmente meno precise rispetto alle stime per i grandi dipartimenti, grazie alla maggiore dimensione assoluta del campione per quest'ultimo. Per l'organizzazione complessiva, la rappresentazione di campioni più elevati di dipartimenti più grandi riflette semplicemente la realtà dell'organizzazione e non riduce in alcun modo la validità del campione.

Il sondaggio non viene applicato. Non è possibile garantire una percentuale di risposta del 100% dal 25% selezionato. Non esistono incentivi o mezzi punitivi se il sondaggio è o non è completo.

Non sarai in grado di forzare nessuno a fornire una buona risposta, ma l'implementazione di un piano di promemoria di risposta è un minimo. Inoltre, dovresti spiegare la rilevanza del sondaggio ai dipendenti e il loro impatto che possono avere sull'organizzazione grazie al sondaggio: ad esempio, quando vengono pubblicati i risultati? quali sono le potenziali azioni intraprese dall'organizzazione in base al sondaggio? perché ogni risposta è importante?

Una volta raccolti i dati, la mancata risposta è un problema che dovrebbe essere affrontato. Affrontare ciò significa che dovresti prima analizzare il comportamento di non risposta per rilevare eventuali schemi potenziali: nessun boss ha risposto? Un determinato reparto non ha risposto affatto? Quindi adottare la strategia necessaria (post-strafificazione, re-ponderazione, imputazione, ecc.).


1

Mi sto espandendo su @ICannotFix Questa è la risposta con un esempio di come contano i quattro fattori coinvolti:

  1. Dimensione dell'effetto
  2. Deviazione standard della caratteristica
  3. Dimensione del campione più grande
  4. Livello di significatività desiderato

Il modo in cui questi fattori influenzano i tuoi risultati dipenderà dalla statistica che stai utilizzando. Ad esempio, se si desidera indovinare la media di alcune variabili, è possibile utilizzare il test T di Student .

Supponiamo che tu voglia capire l'altezza media dei tuoi dipendenti con questo sondaggio. In realtà non conosci la deviazione standard dell'altezza di tutti i dipendenti della tua azienda (senza misurare tutti) ma potresti fare qualche ricerca e indovinare a 3 pollici (è approssimativamente la deviazione standard dell'altezza per i maschi negli Stati Uniti).

Se hai intervistato solo 5 persone, il 95% delle volte l'altezza media che osservi nel tuo sondaggio sarà entro 3,72 pollici dall'altezza media reale.

Ora, in che modo i nostri fattori influenzano questo:

  1. Se è necessario conoscere l'altezza media in modo molto preciso (ad esempio, la dimensione dell'effetto è molto piccola), sarà necessario un numero elevato di campioni. Ad esempio, per conoscere la vera altezza media entro 2,66 pollici è necessario esaminare 100 persone.

  2. Se la deviazione standard è grande, la precisione che è possibile ottenere sarà limitata. Se la deviazione standard fosse 6 pollici invece di 3 pollici e avessi ancora 5 risposte, sapresti solo entro 7,44 pollici anziché 3,72 pollici l'altezza media reale.

  3. Saltare questo punto poiché è al centro dell'intera discussione.

  4. Se devi davvero essere sicuro di avere la risposta corretta, dovrai esaminare più persone. Nel nostro esempio abbiamo visto che con 5 risposte potevamo ottenere entro 3,72 pollici il 95% delle volte. Se volessimo essere sicuri che la nostra risposta fosse nell'intervallo corretto il 99% delle volte, allora il nostro intervallo sarà di 6,17 pollici e non di 3,72 pollici.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.