Apprendimento automatico per prevedere le probabilità di classe


20

Sto cercando classificatori che generino probabilità che gli esempi appartengano a una delle due classi.

Conosco la regressione logistica e l'ingenua Bayes, ma puoi parlarmi di altri che lavorano in modo simile? Cioè, i classificatori che prevedono non le classi a cui appartengono gli esempi, ma la probabilità che gli esempi si adattino a una determinata classe?

Punti bonus per qualsiasi pensiero che puoi condividere sui vantaggi e gli svantaggi di questi diversi classificatori (tra cui regressione logistica e Bayes ingenui). Ad esempio, sono alcuni migliori per la classificazione multi-classe?

Risposte:


5

SVM è strettamente correlato alla regressione logistica e può essere utilizzato per prevedere le probabilità anche in base alla distanza dall'iperpiano (il punteggio di ciascun punto). Puoi farlo facendo un punteggio -> mappatura della probabilità in qualche modo, il che è relativamente facile in quanto il problema è monodimensionale. Un modo è quello di adattare una curva a S (ad es. La curva logistica o la sua pendenza) ai dati. Un altro modo è utilizzare la regressione isotonica per adattare una funzione di distribuzione cumulativa più generale ai dati.

Oltre a SVM, è possibile utilizzare un'adeguata funzione di perdita per qualsiasi metodo che è possibile adattare utilizzando metodi basati sul gradiente, come le reti profonde.

La previsione delle probabilità non è qualcosa presa in considerazione in questi giorni quando si progettano classificatori. È un extra che distrae dalle prestazioni della classifica, quindi viene scartato. Tuttavia, puoi utilizzare qualsiasi classificatore binario per apprendere un insieme fisso di probabilità di classificazione (ad es. "P in [0, 1/4] o [1/4, 1/2], o ...") con " sondaggio "riduzione di Langford e Zadrozny.


4
"La previsione delle probabilità non è qualcosa presa in considerazione in questi giorni quando si progettano classificatori". Non sono sicuro che ciò fosse vero nel 2013, ma è quasi certamente falso nel 2018.
Matthew Drury

9

Un'altra possibilità sono le reti neurali, se si utilizza l'entropia incrociata come costo funzionale con unità di uscita sigmoidali. Questo ti fornirà le stime che stai cercando.

Le reti neurali, così come la regressione logistica, sono classificatori discriminatori, nel senso che tentano di massimizzare la distribuzione condizionale sui dati di addestramento. Asintoticamente, nel limite di infiniti campioni, entrambe le stime si avvicinano allo stesso limite.

Troverai un'analisi dettagliata proprio su questa domanda in questo documento . L'idea da asporto è che anche se il modello generativo ha un errore asintotico più elevato, può avvicinarsi a questo errore asintotico molto più velocemente del modello discriminatorio. Quindi, quale prendere, dipende dal tuo problema, dai dati a portata di mano e dalle tue esigenze particolari.

Infine, considerare le stime delle probabilità condizionate come un punteggio assoluto su cui basare le decisioni (se è quello che stai cercando) non ha molto senso in generale. Ciò che è importante è considerare, dato un campione concreto, le classi dei migliori candidati prodotte dal classificatore e confrontare le probabilità associate. Se la differenza tra i due migliori punteggi è alta, significa che il classificatore è molto fiducioso della sua risposta (non necessariamente corretta).


2

Ce ne sono molti - e ciò che funziona meglio dipende dai dati. Esistono anche molti modi per imbrogliare: ad esempio, è possibile eseguire la calibrazione della probabilità sulle uscite di qualsiasi classificatore che fornisce una parvenza di un punteggio (ovvero: un prodotto punto tra il vettore di peso e l'input). L'esempio più comune di ciò si chiama ridimensionamento di Platt.

C'è anche la questione della forma del modello sottostante. Se hai interazioni polinomiali con i tuoi dati, la regressione logistica alla vaniglia non sarà in grado di modellarli bene. Ma è possibile utilizzare una versione kernel della regressione logistica in modo che il modello si adatti meglio ai dati. Questo di solito aumenta la "bontà" delle uscite di probabilità poiché si sta anche migliorando la precisione del classificatore.

Generalmente, la maggior parte dei modelli che offrono probabilità di solito utilizzano una funzione logistica, quindi può essere difficile confrontarli. In pratica tende a funzionare bene, le reti bayesiane sono un'alternativa. Naive Bayes fa semplicemente un'ipotesi troppo semplicistica perché le sue probabilità siano buone - e questo è facilmente osservabile su qualsiasi set di dati di dimensioni ragionevoli.

Alla fine, di solito è più facile aumentare la qualità delle stime di probabilità selezionando il modello che può rappresentare meglio i dati. In questo senso, non importa troppo come si ottengono le probabilità. Se riesci a ottenere il 70% di precisione con la regressione logistica e il 98% con un SVM - solo dare una probabilità di "piena fiducia" da solo ti renderà i risultati "migliori" con la maggior parte dei metodi di punteggio, anche se non sono realmente probabilità (e allora puoi fare la calibrazione di cui ho parlato prima, rendendoli effettivamente migliori).

La stessa domanda nel contesto dell'incapacità di ottenere un classificatore accurato è più interessante, ma non sono sicuro che qualcuno abbia studiato / confrontato in un simile scenario.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.