Qual è esattamente la differenza tra apprendimento supervisionato e non supervisionato?


28

Sto cercando di capire i metodi di clustering.

Cosa penso di aver capito:

  1. Nell'apprendimento supervisionato, i dati di categorie / etichette assegnati sono noti prima del calcolo. Quindi, le etichette, le classi o le categorie vengono utilizzate per "apprendere" i parametri che sono veramente significativi per quei cluster.

  2. Nell'apprendimento senza supervisione, i set di dati sono assegnati a segmenti, senza che i cluster siano noti.

Ciò significa che, se non sapessi nemmeno quali parametri sono cruciali per una segmentazione, dovrei preferire l'apprendimento supervisionato?


2
Si noti che il clustering non è l'unico tipo di apprendimento non supervisionato.
George,

1
È preferibile l'apprendimento supervisionato quando sono disponibili dati di addestramento etichettati. È possibile partizionare i dati utilizzando metodi supervisionati o non supervisionati. La differenza principale è che nell'impostazione supervisionata si conosce la segmentazione CORRETTA per i dati di allenamento.
Nick,

Risposte:


23

La differenza è che nell'apprendimento supervisionato sono note le "categorie", le "classi" o le "etichette". Nell'apprendimento non supervisionato, non lo sono e il processo di apprendimento tenta di trovare "categorie" appropriate. In entrambi i tipi di apprendimento vengono considerati tutti i parametri per determinare quali sono i più appropriati per eseguire la classificazione.

Il fatto che tu abbia scelto supervisionato o non supervisionato dovrebbe essere basato sul fatto che tu sappia o meno quali siano le "categorie" dei tuoi dati. Se lo sai, usa l'apprendimento supervisionato. Se non lo sai, usa senza supervisione.

Dato che hai un gran numero di parametri e non sai quali sono rilevanti, potresti usare qualcosa come l' analisi dei componenti principali per aiutare a determinare quelli pertinenti.


13

Si noti che esistono più di 2 gradi di supervisione. Ad esempio, vedere le pagine 24-25 (6-7) nella tesi di dottorato di Christian Biemann, Elaborazione del linguaggio naturale senza supervisione e senza conoscenza nel paradigma di scoperta delle strutture, 2007.

La tesi identifica 4 gradi: supervisionato, semi-supervisionato, debolmente supervisionato e non supervisionato, e spiega le differenze, in un contesto di elaborazione del linguaggio naturale. Ecco le definizioni pertinenti:

  • Nei sistemi supervisionati , i dati presentati a un algoritmo di apprendimento automatico sono completamente etichettati. Ciò significa: tutti gli esempi sono presentati con una classificazione che la macchina è destinata a riprodurre. Per questo, un classificatore viene appreso dai dati, il processo di assegnazione di etichette a istanze ancora invisibili si chiama classificazione.
  • Nei sistemi semi supervisionati , la macchina è autorizzata a prendere in considerazione anche i dati senza etichetta. A causa di una base di dati più ampia, i sistemi semi supervisionati spesso sovraperformano le loro controparti supervisionate utilizzando gli stessi esempi etichettati. La ragione di questo miglioramento è che i dati più senza etichetta consentono al sistema di modellare la struttura intrinseca dei dati in modo più accurato.
  • Il bootstrap, chiamato anche auto-allenamento, è una forma di apprendimento progettata per utilizzare ancora meno esempi di allenamento, quindi talvolta chiamata sotto supervisione debole . Il bootstrap inizia con alcuni esempi di training, addestra un classificatore e utilizza esempi ritenuti positivi come forniti da questo classificatore per la riqualificazione. Man mano che la serie di esempi di formazione aumenta, il classificatore migliora, a condizione che non troppi esempi negativi vengano classificati erroneamente come positivi, il che potrebbe portare a un deterioramento delle prestazioni.
  • Ai sistemi non supervisionati non viene fornito alcun esempio di formazione e si esegue il clustering. Questa è la divisione delle istanze di dati in diversi gruppi. I risultati degli algoritmi di clustering sono basati sui dati, quindi più "naturali" e più adatti alla struttura sottostante dei dati. Questo vantaggio è anche il suo principale svantaggio: senza la possibilità di dire alla macchina cosa fare (come nella classificazione), è difficile giudicare la qualità dei risultati del cluster in modo conclusivo. Ma l'assenza di preparazione degli esempi di addestramento rende il paradigma incustodito molto interessante.

0

Nell'apprendimento supervisionato le classi sono conosciute in anticipo e anche i loro tipi, ad esempio, due classi clienti buoni e cattivi. Quando un nuovo oggetto (cliente) viene sulla base dei suoi attributi, il cliente può essere assegnato a una classe cliente cattiva o buona.

Nell'apprendimento non supervisionato i gruppi / le classi non sono già noti, abbiamo oggetti (clienti), quindi raggruppa i clienti con abitudini di acquisto simili, quindi vengono creati gruppi diversi di clienti, cioè non conosciuti già sulla base di abitudini di acquisto simili.


0

Nell'apprendimento supervisionato l'output (variabile dipendente) dipende dalla variabile di input (variabile indipendente). In alcune serie di supervisioni fornite il rispondente cerca di calcolare l'obiettivo desiderato.

Nell'apprendimento senza supervisione non c'è supervisione, quindi il sistema cerca di adattarsi alla situazione e apprende manualmente in base a qualche misura.

ad es. Insegnante in classe - supervisione - apprendimento supervisionato Un autoapprendimento elettivo in classe - Nessuna supervisione Apprendimento non supervisionato

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.