Domande taggate «classification»

La classificazione statistica è il problema di identificare la sottopopolazione a cui appartengono le nuove osservazioni, in cui l'identità della sottopopolazione è sconosciuta, sulla base di una serie di dati di formazione contenenti osservazioni di cui è nota la sottopopolazione. Pertanto queste classificazioni mostreranno un comportamento variabile che può essere studiato dalle statistiche.



2
Bag-of-Words per la classificazione del testo: perché non usare solo le frequenze delle parole invece del TFIDF?
Un approccio comune alla classificazione del testo è quello di formare un classificatore fuori da un "bag-of-word". L'utente prende il testo per essere classificato e conta le frequenze delle parole in ciascun oggetto, seguito da una sorta di taglio per mantenere la matrice risultante di dimensioni gestibili. Vedo spesso che …

1
Qual è la probabilità che punti casuali in dimensioni siano linearmente separabili?
Dati punti dati, ognuno con caratteristiche, sono etichettati come , l'altro sono etichettati come . Ogni caratteristica prende un valore da modo casuale (distribuzione uniforme). Qual è la probabilità che esista un iperpiano che può dividere le due classi?nnndddn / 2n/2n/2000n / 2n/2n/2111[ 0 , 1 ][0,1][0,1] Consideriamo prima il …

3
Convalida incrociata o bootstrap per valutare le prestazioni di classificazione?
Qual è il metodo di campionamento più appropriato per valutare le prestazioni di un classificatore su un particolare set di dati e confrontarlo con altri classificatori? La convalida incrociata sembra essere una pratica standard, ma ho letto che metodi come il bootstrap .632 sono una scelta migliore. Come follow-up: la …

2
Quanto è necessario un set di allenamento?
Esiste un metodo comune utilizzato per determinare quanti campioni di addestramento sono necessari per addestrare un classificatore (un LDA in questo caso) per ottenere una precisione minima di generalizzazione della soglia? Lo sto chiedendo perché vorrei minimizzare il tempo di calibrazione normalmente richiesto in un'interfaccia cervello-computer.


2
Come gestire la differenza tra la distribuzione del set di test e il set di allenamento?
Penso che un'ipotesi di base dell'apprendimento automatico o della stima dei parametri sia che i dati invisibili provengano dalla stessa distribuzione dell'insieme di formazione. Tuttavia, in alcuni casi pratici, la distribuzione del set di test sarà quasi diversa dal set di training. Supponiamo che si tratti di un problema di …

3
Visualizzazione della calibrazione della probabilità prevista di un modello
Supponiamo che io abbia un modello predittivo che produce, per ogni istanza, una probabilità per ogni classe. Ora riconosco che ci sono molti modi per valutare un tale modello se voglio usare quelle probabilità per la classificazione (precisione, richiamo, ecc.). Riconosco anche che una curva ROC e l'area sottostante possono …







Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.