Alcune domande sulla casualità statistica


15

Da randoness statistico di Wikipedia :

La casualità globale e la casualità locale sono diverse. La maggior parte delle concezioni filosofiche della casualità sono globali, perché si basano sull'idea che "nel lungo periodo" una sequenza sembra veramente casuale, anche se alcune sotto-sequenze non sembrano casuali. In una sequenza "veramente" casuale di numeri di lunghezza sufficiente, ad esempio, è probabile che ci sarebbero lunghe sequenze di nient'altro che zeri, sebbene nel complesso la sequenza potrebbe essere casuale. La casualità locale si riferisce all'idea che possono esserci lunghezze minime della sequenza in cui le distribuzioni casuali sono approssimate.Lunghi tratti delle stesse cifre, anche quelli generati da processi "veramente" casuali, diminuirebbero la "casualità locale" di un campione (potrebbe essere localmente casuale solo per sequenze di 10.000 cifre; l'esecuzione di sequenze inferiori a 1.000 potrebbe non apparire casuale affatto, per esempio).

Una sequenza che mostra un modello non è quindi dimostrata non statisticamente casuale. Secondo i principi della teoria di Ramsey, oggetti sufficientemente grandi devono necessariamente contenere una determinata sottostruttura ("il disordine completo è impossibile").

Non capisco bene il significato delle due frasi in grassetto.

  1. La prima frase significa che qualcosa rende una sequenza locale casuale a una lunghezza maggiore e non locale casuale a una lunghezza più breve?

    Come funziona l'esempio tra parentesi?

  2. La seconda frase significa che una sequenza che mostra uno schema non può essere dimostrata come non statisticamente casuale? Perché?

Grazie


1
buona domanda. Trovo questo testo un po 'sconcertante per me stesso. Avrei pensato che se una sequenza è casuale o no ha a che fare con il modo in cui viene generata; non è il risultato. Ho il sospetto che qui ci sia un problema linguistico - per me casuale significa come viene generato; per il buon senso (e forse per i filosofi meno chiari?) si tratta di qualcosa che appare disordinato?
Peter Ellis,

3
@Peter, potresti avere difficoltà anche a definire la casualità se potessi fare riferimento solo al meccanismo di generazione. In definitiva, poiché tutta l'utilità delle sequenze casuali risiede nei numeri che contengono - e non nel modo in cui quei numeri sono stati prodotti - ci deve essere un modo per definire e testare la casualità esclusivamente in termini di sequenze, non credi?
whuber

1
Certamente sono d'accordo che puoi testare la casualità dai suoi risultati - per plausibilità della casualità, senza aspirare a dimostrarla. Probabilmente ho bisogno di leggere e pensare ancora di più sulle sfide filosofiche di una definizione basata sulla generazione.
Peter Ellis,

Penso che la casualità sia semplicemente un sinonimo di sconosciuto. Anch'io trovo questa frase bizzare
probabilityislogic

Risposte:


15

Il concetto può essere chiaramente illustrato da un codice eseguibile. Iniziamo (in R) usando un buon generatore di numeri pseudo casuali per creare una sequenza di 10.000 zeri e uno:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Questo supera alcuni test numerici casuali di base. Ad esempio, un t-test per confrontare la media di ha un valore p 40.09 %, che permette di accettare l'ipotesi che zeri e sono ugualmente probabili.1/240.09

Da questi numeri procediamo ad estrarre una sottosequenza di valori successivi a partire dal valore 5081st:1000

x0 <- x[1:1000 + 5080]

Se devono apparire casuali, devono anche superare gli stessi test numerici casuali. Ad esempio, testiamo se la loro media è 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Il p-valore basso (meno dell'1%) suggerisce fortemente la media è significativamente maggiore di . In effetti, la somma cumulativa di questa sottosequenza ha una forte tendenza al rialzo:1/2

> plot(cumsum(x0-1/2))

Camminata casuale?

Non è un comportamento casuale!

Il confronto della sequenza originale (tracciata come somma cumulativa) con questa sottosequenza rivela cosa sta succedendo:

Camminata casuale

9000


Come hanno dimostrato queste semplici analisi, nessun test può "provare" che una sequenza appare casuale. Tutto quello che possiamo fare è verificare se le sequenze si discostano abbastanza dai comportamenti attesi di sequenze casuali conto dell'offerta prova che sono , non a caso. È così che funzionano le batterie dei test a numeri casuali : cercano schemi altamente improbabili che si presentano in sequenze di numeri casuali. Di tanto in tanto ci indurranno a concludere che una sequenza di numeri veramente casuale non appare casuale: la rifiuteremo e proveremo qualcos'altro.

A lungo termine, però - proprio come siamo tutti morti - qualsiasi generatore di numeri veramente casuale genererà ogni possibile sequenza di 1000 cifre e lo farà all'infinito molte volte. Ciò che ci salva da un dilemma logico è che dovremmo aspettare molto tempo perché si verifichi un'aberrazione così apparente.


Grazie! Una domanda correlata: quando si verifica la casualità dei numeri pseudo casuali generati da alcuni metodi, la casualità significa distribuzione uniforme? In altre parole, il test di casualità funziona solo per testare distribuzioni uniformi? L'ho chiesto perché quelle distribuzioni più distorte mi sembrano meno casuali in modo intuitivo.
Tim

@Tim: no, ci sono molti test comuni per la casualità gaussiana e dovrebbe essere possibile costruire test per qualsiasi distribuzione.
nulla101

1
[0,1)

2
Posso quasi "guardare" nella parte superiore della risposta e dire "Whuber" :) Molto bello!
Dottorato di ricerca

2

Questo estratto usa i termini "casualità locale" e "casualità globale" per distinguere tra ciò che può accadere con un numero finito di campioni di una variabile casuale e la distribuzione o aspettativa di probabilità di una variabile casuale.

Xio{0,1}θθlimn1nΣio=1nXio=θ

[0,1][un',B]0un'<B1θ

Niente di nuovo qui.

n

Quindi, non brucerei troppe cellule cerebrali pensando a questo estratto. Non è matematicamente così preciso e in realtà è fuorviante sulla natura della casualità.

Modifica in base al commento: @kjetilbhalvorsen +1 al tuo commento per la conoscenza storica. Tuttavia, penso ancora che il valore di questi termini sia limitato e fuorviante. Le tabelle che stai descrivendo sembrano implicare in modo fuorviante che piccoli campioni che hanno, ad esempio, un campione significano lontano dal valore atteso effettivo o forse una lunga sequenza improbabile ma certamente possibile di ripetuti 0 (nel mio esempio di Bernoulli), in qualche modo mostrano meno casualità (dicendo che non mostrano questa "casualità locale" falsa). Non riesco a pensare a qualcosa di più fuorviante per lo statistico in erba!


Sebbene la "casualità globale" appaia idiosincratica, la "casualità locale" ha una storia di almeno 20 anni. Vedi isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf , ad esempio.
whuber

nn

2
Ricordo di averlo letto qualche volta: Nel tempo in cui le persone pubblicavano libri con tabelle di "numeri casuali" da utilizzare per la simulazione, la sperimentazione ecc., Alcuni di questi avevano contrassegnato alcune parti delle tabelle come adatte per l'uso in piccole simulazioni (esibendo "local casualità ") e altre parti che dovrebbero essere utilizzate solo per simulazioni più grandi (esibendo" casualità globale ") Quindi i concetti sembrano indicare qualcosa di prezioso!
kjetil b halvorsen,

1
Mi dispiace, non ricordo dove ho letto questo. Ma è quasi ovvio: a parte i problemi filosofici nella definizione della casualità, se hai simulazioni molto piccole in cui hai bisogno di 1000 numeri casuali e il tuo generatore casuale di alta qualità ti dà 1000 zeri, ¿Cosa fai? Nonostante il fatto che tali occorrenze siano possibili e effettivamente necessarie in una sequenza "veramente casuale", la tua simulazione è rovinata!
kjetil b halvorsen,

1
Grazie ragazzi, sono stato forse troppo duro nella mia condanna. Cambierò un po 'la lingua.
Chris A.

-1

Penso che gli autori del post di Wikipedia stiano fraintendendo la casualità. Sì, potrebbero esserci tratti che sembrano non essere casuali, ma se il processo che ha creato la sequenza è veramente casuale, lo stesso deve essere l'output. Se certe sequenze sembrano non casuali, questa è una percezione errata del lettore (cioè gli umani sono progettati per trovare schemi). La nostra capacità di vedere il Big Dipper, e Orion, ecc. Nel cielo notturno non è una prova che i modelli di stelle non siano casuali. Concordo sul fatto che la casualità appare spesso non casuale. Se un processo genera modelli realmente non casuali per brevi sequenze, non è un processo casuale.

Non penso che il processo cambi a dimensioni del campione diverse. Aumentate le dimensioni del campione, aumentate la probabilità che vediamo una sequenza casuale che ci sembra non casuale. Se esiste una probabilità del 10% di vedere uno schema in 20 osservazioni casuali, aumentare il numero totale di osservazioni a 10000 aumenterebbe la probabilità di vedere la non casualità, da qualche parte.


2
"Se un processo genera schemi veramente non casuali per brevi sequenze, non è un processo casuale" è, temo, del tutto errato. Ad esempio, in ogni 100 lanci di una moneta giusta, ci aspetteremmo di osservare sei teste o sei code di fila - e questo è un "modello veramente non casuale per [una] breve sequenza" dal significato di "casuale" di quasi nessuno. " Ho il sospetto che intendessi scrivere qualcosa che deve essere più attentamente qualificato, come applicare "tutto" prima di "brevi sequenze".
whuber

Veramente? Avrei pensato che, poiché ci si aspetta di vedere stringhe di teste di coda da un generatore di numeri casuali, che quando lo vediamo, non dovremmo essere sorpresi. Perché considerarlo non casuale? Se uno avesse un generatore di numeri che ha fatto 100 lanci, ed ha deliberatamente evitato 4 o più teste o code di fila, sembrerebbe più casuale di un processo veramente casuale, ma in realtà non sarebbe casuale. Una visione ingenua della casualità è la mancanza di tutti gli schemi, ma sarebbe non casuale.
P auritus,

Il tuo commento è corretto, ma l'esposizione nella tua risposta non è chiara e persino contraddittoria su questo punto. Considera di spiegare più precisamente cosa intendi generando "modelli veramente non casuali per brevi sequenze", per esempio, o cosa significa "vedere la non casualità".
whuber

Non vedo contraddizione. Sembra che i generatori casuali creino schemi non casuali. Questa è la contraddizione. Stai sostenendo che processi veramente casuali genereranno osservazioni non casuali. Quello che stai descrivendo è qualcuno chiamato "illusione del cluster", che è la tendenza a percepire erroneamente i cluster da distribuzioni casuali. Tutto quello che sto dicendo è che se un processo crea osservazioni non casuali, allora non è casuale. Sostieni che ti aspetti che un processo casuale crei stringhe di osservazioni non casuali, ma lo chiami non casuale. Classico esempio di Apofenia.
P auritus,

1
È difficile continuare una conversazione con un interlocutore che fraintende la propria posizione, quindi mi inchinerò a questo. Scusa.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.