Larghezza di banda del kernel: le regole di Scott contro Silverman

Qualcuno potrebbe spiegare in parole povere qual è la differenza tra le regole empiriche di Scott e Silverman per la selezione della larghezza di banda? In particolare, quando uno è migliore dell'altro? È correlato alla distribuzione sottostante? Numero di campioni?

PS Mi riferisco al codice in SciPy .

kernel-smoothing

— xrfang
fonte

Non voglio nemmeno conoscere Python. Voglio solo aiuto per capire quando usare quale regola e perché.

— xrfang,

I commenti nel codice sembrano finire per definire i due essenzialmente in modo identico (a parte una differenza relativamente piccola nella costante).

$cAn^{-1/5}$ $A$ $c$

$3.49 s n^{-1/3}$ nclass.scott

Il 1.059 in quello che il codice chiama la "stima di Scott" si trova nel (precedente) libro di Silverman (vedi p45 del riferimento Silverman al tuo link - la sua derivazione di Scott è a p130-131 del libro a cui si riferiscono). Viene da una stima della teoria normale.

La larghezza di banda ottimale (in termini di errore quadratico medio integrato integrato) è una funzione della derivata del secondo quadrato integrato e $1.059\sigma$

$A$ $\sigma$

Per ragioni simili a quelle che ho suggerito prima, Silverman continua a suggerire di ridurre 1.059 (in realtà usa 1.06 in tutto, non 1.059 - come fa Scott nel suo libro). Sceglie un valore ridotto che perde normalmente non più del 10% di efficienza su IMSE, da cui proviene lo 0.9.

Quindi entrambe le binwidth si basano sulla binwidth ottimale dell'IMSE al normale, una al massimo, l'altra (circa il 15% più piccola, per ottenere entro il 90% dell'efficienza dell'ottimale al normale). [Chiamerei entrambe le stime "Silverman". Non ho idea del perché chiamino 1.059 quello per Scott.]

Secondo me, entrambi sono troppo grandi. Non utilizzo gli istogrammi per ottenere stime della densità ottimali per IMSE. Se questo (ottenere stime della densità ottimali in senso IMSE) fosse quello che volevo fare, non avrei voluto usare gli istogrammi per quello scopo.

Gli istogrammi dovrebbero presentare errori sul lato più rumoroso (lasciare che l'occhio esegua il necessario smussamento). Quasi sempre raddoppio (o più) il numero predefinito di bin che questi tipi di regole danno. Quindi non userei 1.06 o 0.9, tenderei a usare qualcosa di circa 0,5, forse meno con campioni di dimensioni molto grandi.

C'è davvero molto poco da scegliere tra loro, dal momento che entrambi danno troppi pochi contenitori per essere molto utili per trovare cosa sta succedendo nei dati (su cui, almeno a piccole dimensioni di campione, vedi qui .

[1]: Scott, DW (1979), "Su istogrammi ottimali e basati su dati" , Biometrika , 66 , 605-610.

— Glen_b -Restate Monica
fonte

Secondo il documento SciPy qui , la regola di Scott è: n ** (- 1./(d+4)). Guardando il codice, ho scoperto di aver frainteso la regola come "scotts_factor". Hai ragione sul fatto che la larghezza di banda è troppo grande. Aprirò una nuova domanda sulla selezione della larghezza di banda numerica. Grazie.

— xrfang,

d = 1

$d=1$ ), quello è il

n^{- 1 / 5}

$n^{-1/5}$ parte nelle formule sopra. Ma ciò non tiene conto della variabilità dei dati (misurata da

A

$A$ sopra), né un termine per quale distribuzione stai cercando di ottimizzare vicino (quello che ho chiamato

c

$c$ sopra, come il fattore 1.059). È proprio come la larghezza di banda dovrebbe cambiare con la dimensione del campione, non le costanti per cui dovrebbe essere moltiplicata.

— Glen_b

@ Glen_b-ReinstateMonica Potresti dare un'occhiata alla domanda che ho pubblicato qui ? Mostro i problemi che la regola di Silverman può comportare quando viene usata una grande dimensione del campione. Potresti rispondere a ciò che sta accadendo in dettaglio?

— user269666,