Quali sono esempi di vita reale di "modelli statistici non parametrici"?


12

Sto leggendo l'articolo di Wikipedia sui modelli statistici qui , e sono un po 'perplesso sul significato di "modelli statistici non parametrici", in particolare:

Un modello statistico non è parametrico se il set di parametri è di dimensione infinita. Un modello statistico è semiparametrico se presenta parametri sia a dimensione finita che a dimensione infinita. Formalmente, se è la dimensione di e è il numero di campioni, entrambi i modelli semiparametrici e non parametrici hanno come . Se come , il modello è semiparametrico; in caso contrario, il modello non è parametrico.ΘdΘndnd/n0n

Capisco che se la dimensione , (presumo che significhi letteralmente, il numero di parametri) di un modello è finita, allora questo è un modello parametrico.

Ciò che non ha senso per me, è come possiamo avere un modello statistico che ha un numero infinito di parametri, in modo tale che possiamo chiamarlo "non parametrico". Inoltre, anche se fosse così, perché il "non-", se in realtà ci sono un numero infinito di dimensioni? Infine, poiché sto arrivando a questo da un background di apprendimento automatico, c'è qualche differenza tra questo "modello statistico non parametrico" e dire "modelli di apprendimento automatico non parametrico"? Infine, quali potrebbero essere alcuni esempi concreti di tali "modelli dimensionali infiniti non parametrici"?


3
Utilizzando un'altra pagina Wiki ( en.wikipedia.org/wiki/… ): 'I modelli non parametrici differiscono dai modelli parametrici in quanto la struttura del modello non è specificata a priori ma è invece determinata dai dati. Il termine non parametrico non implica che tali modelli manchino completamente di parametri ma che il numero e la natura dei parametri siano flessibili e non fissati in anticipo. " quindi non parametrico non sta avendo un numero infinito di parametri ma un numero sconosciuto di parametri.
Riff,

Ho un dubbio. Nei modelli non parametrici, definiamo la struttura del modello a priori. Ad esempio, negli alberi decisionali (che è un modello non parametrico) definiamo max_depth. Quindi come si può dire che questo parametro è effettivamente appreso / determinato dai dati stessi e non predeterminato da noi?
Amarpreet Singh,

Risposte:


5

Come ha risposto Johnnyboycurtis, i metodi non parametrici sono quelli che non generano ipotesi sulla distribuzione della popolazione o sulla dimensione del campione per generare un modello.

Un modello k-NN è un esempio di modello non parametrico in quanto non considera alcun presupposto per lo sviluppo di un modello. Un Naive Bayes o K-medie è un esempio di parametrico in quanto presuppone una distribuzione per la creazione di un modello.

Ad esempio, K-significa presuppone quanto segue per sviluppare un modello Tutti i cluster sono sferici (iid gaussiano). Tutti gli assi hanno la stessa distribuzione e quindi varianza. Tutti i cluster hanno dimensioni uniformi.

Per quanto riguarda k-NN, utilizza il set di addestramento completo per la previsione. Calcola i vicini più vicini dal punto di test per la previsione. Non presuppone alcuna distribuzione per la creazione di un modello.

Per maggiori informazioni:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202

Puoi approfondire questo per favore? Perché KNN è un esempio di non parametrico e perché K-significa potrebbe essere? Sono quei dettagli che sto cercando, in particolare esempi di metodi non parametrici e perché / come non hanno un'ipotesi sulla distribuzione della popolazione. Grazie!
Creatron,

@Creatron Ho modificato la risposta per ulteriori spiegazioni.
prashanth,

3

Quindi, penso che ti manchino alcuni punti. Innanzitutto e, soprattutto,

Un metodo statistico è chiamato non parametrico se non si assume alcuna ipotesi sulla distribuzione della popolazione o sulla dimensione del campione.

Ecco un semplice tutorial (applicato) su alcuni modelli non parametrici: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

Un ricercatore può decidere di utilizzare un modello non parametrico rispetto a un modello parametrico, ad esempio regressione non parametrica vs regressione lineare, perché i dati violano le ipotesi contenute nel modello parametrico. Dal momento che provieni da un background ML, suppongo che non hai mai imparato i tipici presupposti del modello di regressione lineare. Ecco un riferimento: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

Ipotesi di violazione possono distorcere le stime dei parametri e, in definitiva, aumentare il rischio di conclusioni non valide. Un modello non parametrico è più robusto per i valori anomali, le relazioni non lineari e non dipende da molte assunzioni di distribuzione della popolazione, quindi può fornire più risultati degni di fiducia quando si cerca di fare inferenze o previsioni.

Per un breve tutorial sulla regressione non parametrica, raccomando queste diapositive: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf


Grazie per i collegamenti, li esaminerò. Una cosa però, è come dovremmo sposarlo con il "numero infinito di parametri" che compongono un modello "non parametrico"? Grazie
Creatron,

Non c'è citazione per quel "numero infinito di parametri", quindi non posso commentare. Non ho mai visto un tale riferimento all'argomento del modello statistico non parametrico, quindi avrei bisogno di vedere un riferimento prima di poter fornire una risposta / interpretazione. Per ora, mi preoccuperei delle ipotesi su modelli specifici rispetto a un intero campo.
Jon,

L'articolo di Wikipedia citato nella mia domanda si riferisce all'infinita dimensionalità. Letteralmente: "Un modello statistico non è parametrico se il set di parametri è di dimensione infinita". Cosa significa questo? Questo è ciò a cui mi riferisco.
Creatron,

Lo so. Ma Wikipedia non fornisce una citazione per tale affermazione. Non posso fidarmi di qualcosa senza un riferimento.
Jon,

3

Attualmente sto seguendo un corso sull'apprendimento automatico, in cui utilizziamo la seguente definizione di modelli non parametrici: "I modelli non parametrici crescono in complessità con la dimensione dei dati".

Modello parametrico

Per vedere cosa significa diamo un'occhiata alla regressione lineare, un modello parametrico: lì cerchiamo di prevedere una funzione parametrizzata in : La dimensionalità di w è indipendente dal numero di osservazioni o la dimensione dei tuoi dati.wd

f(x)=wTx

Modelli non parametrici

Invece la regressione del kernel cerca di prevedere la seguente funzione: dove abbiamo punti dati, sono i pesi e è la funzione del kernel. Qui il numero di parametri è dipendente dal numero di punti di dati .

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

Lo stesso vale per il perceptron kernelized:

f(x)=sign(i=1nαiyik(xi,x)))

Torniamo alla tua definizione e diciamo che d era il numero di . Se lasciamo allora . Questo è esattamente ciò che richiede la definizione di Wikipedia.αind

Ho preso la funzione di regressione del kernel dalle diapositive della mia lezione e la funzione percettronizzata del kernel da wikipedia: https://en.wikipedia.org/wiki/Kernel_method

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.