Quali sono alcuni usi importanti della generazione di numeri casuali nelle statistiche computazionali?


15

In che modo e perché i generatori di numeri casuali (RNG) sono importanti nelle statistiche computazionali?

Capisco che la casualità è importante quando si scelgono campioni per molti test statistici per evitare distorsioni verso entrambe le ipotesi, ma ci sono altre aree di statistiche computazionali in cui i generatori di numeri casuali sono importanti?


4
Strettamente correlato: stats.stackexchange.com/q/135665/35989
Tim

1
Cosa stai chiedendo? La tua domanda non ha molto senso.
Carl Witthoft,

2
Potrebbe essere meglio chiedere per le aree in cui sono non importanti. Probabilmente sarebbe un elenco più breve.
John Coleman,

2
La domanda è ampia ma il titolo è accattivante e la risposta di Matthew è una bella panoramica. Ho votato per riaprire!
Benoit Sanchez,

3
Ciò è chiaramente troppo ampio per gli standard SE convenzionali e equivale a una domanda "grande elenco" che probabilmente accumulerà molte risposte piccole, a malapena elaborate che spesso duplicano risposte già fornite. Tuttavia, sembra esserci un valore reale qui. Un compromesso è che questo sia CW e protetto. In futuro, le risposte che menzionano qualcosa senza elaborazione e / o che gli usi duplicati già menzionati verranno eliminate prontamente e senza commenti.
gung - Ripristina Monica

Risposte:


17

Ci sono molti, molti esempi. Troppi da elencare e probabilmente troppi per chiunque ne sappia completamente (oltre forse a @whuber, che non dovrebbe mai essere sottovalutato).

Come accennato, negli esperimenti controllati evitiamo il bias di campionamento suddividendo casualmente i soggetti in gruppi di trattamento e controllo.

Nel bootstrap approssimiamo il campionamento ripetuto da una popolazione campionando casualmente con la sostituzione da un campione fisso. Questo ci consente di stimare la varianza delle nostre stime, tra le altre cose.

Nella convalida incrociata stimiamo l'errore fuori campione di una stima suddividendo casualmente i nostri dati in sezioni e assemblando set di test e training casuali.

Nei test di permutazione utilizziamo permutazioni casuali per campionare sotto l'ipotesi nulla, permettendo di eseguire test di ipotesi non parametrici in un'ampia varietà di situazioni.

Nel bagging controlliamo la varianza di una stima eseguendo ripetutamente la stima su campioni bootstrap di dati di allenamento e quindi calcolando la media dei risultati.

Nelle foreste casuali controlliamo ulteriormente la varianza di una stima anche campionando casualmente dai predittori disponibili in ogni punto di decisione.

Nella simulazione chiediamo a un modello di adattamento di generare casualmente nuovi set di dati che possiamo confrontare con i dati di addestramento o test, aiutando a convalidare l'adattamento e le ipotesi in un modello.

Nella catena di Markov Monte Carlo proviamo da una distribuzione esplorando lo spazio dei possibili risultati usando una catena di Markov (grazie a @Ben Bolker per questo esempio).

Queste sono solo le comuni applicazioni quotidiane che vengono subito in mente. Se scavassi in profondità, probabilmente avrei potuto raddoppiare la lunghezza di quella lista. La casualità è sia un importante oggetto di studio, sia uno strumento importante da maneggiare.


Questo è vero, ma non risolve il problema principale: un PRNG con qualsiasi tipo di struttura risultante o prevedibilità nella sequenza provocherà il fallimento delle simulazioni.
Carl Witthoft,

3
Una delle cose che merita menzione sono i costi computazionali e di memoria della generazione di un gran numero di numeri casuali o pseudocasuali. Alcune applicazioni di RNG nelle statistiche richiedono da centinaia a milioni di numeri casuali, ma alcune richiedono molti ordini di grandezza in più che si ripercuotono su entrambi questi costi.
Alexis

5

Questo è vero, ma non risolve il problema principale: un PRNG con qualsiasi tipo di struttura risultante o prevedibilità nella sequenza provocherà il fallimento delle simulazioni. Carl Witthoft, 31 gennaio alle 15:51

Se questa è la tua preoccupazione, forse il titolo della domanda dovrebbe essere cambiato in "Impatto della scelta del GNC sui risultati di Monte Carlo" o qualcosa del genere. In questo caso, già considerato sulla validazione incrociata SE , ecco alcune indicazioni

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.