Diviene rapidamente conto, guardando a molti resoconti della "supposizione multipla", che molti scrittori sono particolarmente sciatti sul suo significato. I più attenti lo definiscono con un avvertimento sottile ma estremamente importante : che i dati si trovino su o vicino a una varietà a bassa dimensione.
Anche coloro che non includono la clausola "o vicino a" adottano chiaramente il molteplice presupposto come una finzione approssimativa, conveniente per eseguire analisi matematiche, poiché le loro applicazioni devono contemplare deviazioni tra i dati e la varietà stimata. In effetti, molti scrittori in seguito introducono un meccanismo esplicito per le deviazioni, come contemplare la regressione di contro dove è costretto a giacere su una varietà ma l' può includere deviazioni casuali. Ciò equivale a supporre che le tuple si trovano vicinox x M k ⊂ R d y ( xyxxMk⊂Rd yk(xi,yi)a, ma non necessariamente su, una varietà dimensionale immersa nella formak
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
per una funzione regolare (regressione) . Dal momento che possiamo vedere tutti i punti perturbati , che sono semplicemente vicini al grafico di (una varietà dimensionale ), come distesi sulla il -dimensional collettore , questo aiuta a spiegare perché tale sciatteria nel distinguere "a" da "vicino a" può essere irrilevante in teoria. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
La differenza tra "on" e "near to" è estremamente importante per le applicazioni. "Vicino a" consente che i dati possano discostarsi dal collettore. Pertanto, se si sceglie di stimare quella varietà, è possibile quantificare la quantità tipica di deviazione tra i dati e la varietà. Un collettore montato sarà migliore di un altro quando la quantità tipica di deviazione è inferiore, ceteris paribus.
La figura mostra due versioni dell'assunzione del collettore per i dati (grandi punti blu): il collettore nero è relativamente semplice (richiede solo quattro parametri per descriverlo) ma si avvicina solo "ai dati", mentre il collettore rosso tratteggiato si adatta ai dati perfettamente ma è complicato (sono necessari 17 parametri).
Come in tutti questi problemi, esiste un compromesso tra la complessità della descrizione della varietà e la bontà dell'adattamento (il problema del sovradimensionamento). È sempre possibile trovare una varietà unidimensionale adatta a qualsiasi quantità finita di dati in perfettamente (come con la varietà tratteggiata rossa nella figura, basta eseguire una curva uniforme attraverso tutti i punti , in qualsiasi ordine: quasi sicuramente non si intersecherà da solo, ma se lo fa, perturbare la curva nelle vicinanze di una tale intersezione per eliminarla). All'altro estremo, se è consentita solo una classe limitata di varietà (come solo iperpiani euclidei dritti), allora un buon adattamento potrebbe essere impossibile, indipendentemente dalle dimensioni, e la deviazione tipica tra i dati e l'adattamento potrebbe essere grande.Rd
Ciò porta a un modo semplice e pratico per valutare l'assunzione multipla: se il modello / predittore / classificatore sviluppato dall'assunzione multipla funziona accettabilmente bene, allora l'assunzione era giustificata. Pertanto, le condizioni appropriate ricercate nella domanda saranno che una misura pertinente della bontà dell'adattamento sia accettabilmente piccola. (Quale misura? Dipende dal problema ed equivale a selezionare una funzione di perdita.)
È possibile che varietà di dimensioni diverse (con diversi tipi di vincoli sulla loro curvatura) possano adattarsi ai dati - e prevedere i dati trasmessi - ugualmente bene. Nulla può essere "provato" sulla varietà "sottostante" in generale, specialmente quando si lavora con set di dati umani grandi, disordinati. Tutto ciò che di solito possiamo sperare è che il collettore montato sia un buon modello.
Se non ti viene in mente un buon modello / predittore / classificatore, allora l'ipotesi multiforme non è valida, stai assumendo varietà di dimensioni troppo piccole, oppure non hai guardato abbastanza bene o abbastanza bene.