Come dimostrare che l'assunto molteplice è corretto?


9

Nell'apprendimento automatico, si presume spesso che un set di dati si trovi su una varietà liscia a bassa dimensione (il presupposto della varietà), ma esiste un modo per dimostrare che presupponendo che determinate condizioni siano soddisfatte, allora il set di dati è effettivamente (approssimativamente) generato da una varietà liscia a bassa dimensione?

Ad esempio, data una sequenza di dati dove (dire la sequenza di immagini del viso con angoli diversi) e una sequenza di etichette corrispondente dove (dire gli angoli della sequenza di facce). Supponiamo che e siano molto vicini, anche le loro etichette y_i e y_ {i + 1} siano molto vicine, possiamo immaginare che è probabile che \ {\ mathbf {X} _1 \ ldots \ mathbf { X} _N \}X iR d { y 1y n } y 1y 2y n X i X i + 1 y i y i + 1 { X 1X n{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}giacciono su una varietà a bassa dimensione. È vero? In tal caso, come possiamo provarlo? O quali condizioni deve soddisfare la sequenza per dimostrare che le molteplici ipotesi sono vere?

Risposte:


10

Diviene rapidamente conto, guardando a molti resoconti della "supposizione multipla", che molti scrittori sono particolarmente sciatti sul suo significato. I più attenti lo definiscono con un avvertimento sottile ma estremamente importante : che i dati si trovino su o vicino a una varietà a bassa dimensione.

Anche coloro che non includono la clausola "o vicino a" adottano chiaramente il molteplice presupposto come una finzione approssimativa, conveniente per eseguire analisi matematiche, poiché le loro applicazioni devono contemplare deviazioni tra i dati e la varietà stimata. In effetti, molti scrittori in seguito introducono un meccanismo esplicito per le deviazioni, come contemplare la regressione di contro dove è costretto a giacere su una varietà ma l' può includere deviazioni casuali. Ciò equivale a supporre che le tuple si trovano vicinox x M kR d y ( xyxxMkRd yk(xi,yi)a, ma non necessariamente su, una varietà dimensionale immersa nella formak

(x,f(x))Mk×RRd×RRd+1

per una funzione regolare (regressione) . Dal momento che possiamo vedere tutti i punti perturbati , che sono semplicemente vicini al grafico di (una varietà dimensionale ), come distesi sulla il -dimensional collettore , questo aiuta a spiegare perché tale sciatteria nel distinguere "a" da "vicino a" può essere irrilevante in teoria. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

La differenza tra "on" e "near to" è estremamente importante per le applicazioni. "Vicino a" consente che i dati possano discostarsi dal collettore. Pertanto, se si sceglie di stimare quella varietà, è possibile quantificare la quantità tipica di deviazione tra i dati e la varietà. Un collettore montato sarà migliore di un altro quando la quantità tipica di deviazione è inferiore, ceteris paribus.

figura

La figura mostra due versioni dell'assunzione del collettore per i dati (grandi punti blu): il collettore nero è relativamente semplice (richiede solo quattro parametri per descriverlo) ma si avvicina solo "ai dati", mentre il collettore rosso tratteggiato si adatta ai dati perfettamente ma è complicato (sono necessari 17 parametri).

Come in tutti questi problemi, esiste un compromesso tra la complessità della descrizione della varietà e la bontà dell'adattamento (il problema del sovradimensionamento). È sempre possibile trovare una varietà unidimensionale adatta a qualsiasi quantità finita di dati in perfettamente (come con la varietà tratteggiata rossa nella figura, basta eseguire una curva uniforme attraverso tutti i punti , in qualsiasi ordine: quasi sicuramente non si intersecherà da solo, ma se lo fa, perturbare la curva nelle vicinanze di una tale intersezione per eliminarla). All'altro estremo, se è consentita solo una classe limitata di varietà (come solo iperpiani euclidei dritti), allora un buon adattamento potrebbe essere impossibile, indipendentemente dalle dimensioni, e la deviazione tipica tra i dati e l'adattamento potrebbe essere grande.Rd

Ciò porta a un modo semplice e pratico per valutare l'assunzione multipla: se il modello / predittore / classificatore sviluppato dall'assunzione multipla funziona accettabilmente bene, allora l'assunzione era giustificata. Pertanto, le condizioni appropriate ricercate nella domanda saranno che una misura pertinente della bontà dell'adattamento sia accettabilmente piccola. (Quale misura? Dipende dal problema ed equivale a selezionare una funzione di perdita.)

È possibile che varietà di dimensioni diverse (con diversi tipi di vincoli sulla loro curvatura) possano adattarsi ai dati - e prevedere i dati trasmessi - ugualmente bene. Nulla può essere "provato" sulla varietà "sottostante" in generale, specialmente quando si lavora con set di dati umani grandi, disordinati. Tutto ciò che di solito possiamo sperare è che il collettore montato sia un buon modello.

Se non ti viene in mente un buon modello / predittore / classificatore, allora l'ipotesi multiforme non è valida, stai assumendo varietà di dimensioni troppo piccole, oppure non hai guardato abbastanza bene o abbastanza bene.


1
+1 Molto bello. Consentitemi di aggiungere (senza implicare che condividiate la mia opinione) che questo dimostra ancora una volta perché il modo di pensare di principio, ma scettico e spesso provvisorio, che è stato coltivato nelle statistiche per molti anni è molto importante per il spesso vago, veloce, lucido-nuovo- mondo giocattolo dell'apprendimento automatico e della scienza dei dati.
Momo,

5

Qualsiasi insieme finito di punti può adattarsi a qualsiasi varietà (è necessario il riferimento al teorema, non riesco a ricordare quale sia il teorema, ricordo solo questo fatto di uni).

Se non si desidera identificare tutti i punti, la dimensione più bassa possibile è 1.

Prendiamo come semplice esempio, dati N punti 2d, esiste un polinomio di ordine N - 1 in cui tutti i punti N si trovano su quel polinomio. Pertanto abbiamo una varietà 1d per qualsiasi set di dati 2d. Penso che la logica per dimensioni arbitrarie sia simile.

Quindi, non è questo il problema, i veri presupposti sono sulla struttura / semplicità della varietà, in particolare quando si trattano le varietà riemanniane collegate come spazi metrici. Ho letto articoli su questo molteplice hocus e ho scoperto che se leggi attentamente emergono alcune ipotesi piuttosto enormi!

Le assunzioni fatte sono quando si presume che la definizione indotta di "vicinanza" "preservi le informazioni nel nostro set di dati", ma poiché ciò non è formalmente definito in termini di Teorica dell'Informazione, la definizione risultante è piuttosto ad hoc e piuttosto un'ipotesi piuttosto grande. In particolare il problema sembra essere che la "vicinanza" sia preservata, cioè due punti vicini, restino vicini, ma quella "lontananza" non lo è, e quindi due punti "lontani" non rimangono lontani.

In conclusione, sarei molto diffidente nei confronti di questo inganno nell'apprendimento automatico a meno che non si sappia che l'insieme di dati è effettivamente euclideo naturale, ad esempio il riconoscimento di schemi visivi. Non considererei questi approcci appropriati per problemi più generali.


Grazie! La tua risposta mi ha aiutato a capire meglio il problema. Potresti consigliare alcuni dei documenti riguardanti l'assunto molteplice che hai menzionato qui?
thinkbear,

Spiacenti, non ricordo, Google dovrebbe essere in grado di aiutare :)
Samthebest,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.