Qual è la verità di terra


30

Nel contesto di Machine Learning , ho visto molto spesso il termine Ground Truth . Ho cercato molto e ho trovato la seguente definizione in Wikipedia :

Nell'apprendimento automatico, il termine "verità di base" si riferisce all'accuratezza della classificazione del set di addestramento per le tecniche di apprendimento supervisionato. Questo è usato nei modelli statistici per dimostrare o confutare le ipotesi di ricerca. Il termine "fondamento di verità" si riferisce al processo di raccolta dei dati oggettivi (verificabili) adeguati per questo test. Confronta con gold standard.

Il filtro antispam bayesiano è un esempio comune di apprendimento supervisionato. In questo sistema, all'algoritmo vengono insegnate manualmente le differenze tra spam e non spam. Ciò dipende dalla verità di base dei messaggi utilizzati per addestrare l'algoritmo: le inesattezze nella verità di base saranno correlate alle inesattezze nei verdetti di spam / non spam risultanti.

Il punto è che non riesco davvero a capire cosa significhi. È l' etichetta utilizzata per ciascun oggetto dati o la funzione di destinazione che fornisce un'etichetta a ciascun oggetto dati o forse qualcos'altro?

Risposte:


25

La verità fondamentale è ciò che hai misurato per la tua variabile target per gli esempi di addestramento e test.

Quasi sempre puoi tranquillamente trattarlo come l'etichetta.

In alcuni casi non è esattamente lo stesso dell'etichetta. Ad esempio, se aumenti il ​​tuo set di dati, c'è una sottile differenza tra la verità di base (le tue misurazioni effettive) e il modo in cui gli esempi aumentati si riferiscono alle etichette che hai assegnato. Tuttavia, questa distinzione non è di solito un problema.

La verità di base può essere sbagliata. È una misurazione e possono esserci errori. In alcuni scenari ML può anche essere una misurazione soggettiva in cui è difficile definire una verità oggettiva sottostante - ad esempio l'opinione o l'analisi degli esperti, che si spera di automatizzare. Qualsiasi modello ML che alleni sarà limitato dalla qualità della verità di base utilizzata per addestrarlo e testarlo, e questo fa parte della spiegazione della citazione di Wikipedia. È anche il motivo per cui gli articoli pubblicati su ML dovrebbero includere descrizioni complete di come sono stati raccolti i dati.


Durante l'allenamento, gt (ad esempio in caso di problemi di segmentazione) può essere modificato o creato in base alle informazioni ottenute (ad es. Dalle mappe dei punteggi) dalle caratteristiche?
Alex

@Alex: di solito no. Potrebbero esserci alcune circostanze in cui un output rivisto o un processo semi-automatizzato produce la verità di base per il prossimo algoritmo in una pipeline. Tuttavia, se ti riferisci a un algoritmo che modifica i propri obiettivi tramite una regola, di solito questa non è considerata una nuova verità di base - invece la verità di base sarebbero le segmentazioni originali fornite per l'allenamento. Qualsiasi raffinamento automatico intelligente sarebbe invece parte del modello.
Neil Slater

Un perfezionamento con l'interazione umana, o che ha fatto riferimento a dati originali non di immagine (ad esempio alcune immagini di origine sono generate utilizzando il modello 3D, quindi può creare una segmentazione "vera" molto migliore) potrebbe essere una nuova verità di base. Anche se potresti voler separare l'idea della verità di base della generazione 1 utilizzata per costruire il primo modello dalla verità di base della generazione 2 che è stata passata attraverso un'iterazione e utilizzata per costruire un secondo modello, anche se il secondo modello è la stessa architettura addestrato sul feedback.
Neil Slater,

'addestrato sul feedback' - vicino, ma non esattamente. Se hai visto il modello FCN, l'ultimo livello è la mappa dei punteggi che è collegata alla funzione di perdita del softmax del log insieme alla mappa gt. Quello che faccio è prendere la mappa dei punteggi, estrarre alcuni dati da essa (ad esempio il numero di BLOB binari argmax) e (in qualche modo) modificare la maschera gt prima di collegarla alla funzione di perdita. Quanto è legittimo questo?
Alex

@Alex: fa parte del tuo modello e non una nuova verità di base. A meno che tu non decida, arbitrariamente, che l'obiettivo di un nuovo modello è quello di apprendere la tua funzione combinata. Nel qual caso è la verità fondamentale per il nuovo modello - tuttavia, dovresti assolutamente notare la complessa fonte di questi dati, poiché è stato modificato dalla misurazione originale in modo automatizzato.
Neil Slater

2

Verità fondamentale: questa è la realtà che vuoi che il tuo modello preveda.

Potrebbe avere del rumore ma vuoi che il tuo modello apprenda lo schema sottostante nei dati che stanno causando questa verità fondamentale. In pratica, il tuo modello non sarà mai in grado di prevedere la verità di base poiché anche la verità di base avrà un po 'di rumore e nessun modello offre un'accuratezza del cento per cento, ma vuoi che il tuo modello sia il più vicino possibile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.