Sì, in teoria l'estensione polinomiale alla regressione logistica può approssimare qualsiasi limite di classificazione arbitraria. Questo perché un polinomio può approssimare qualsiasi funzione (almeno dei tipi utili ai problemi di classificazione), e questo è dimostrato dal teorema di Stone-Weierstrass .
Se questa approssimazione sia pratica per tutte le forme al contorno è un'altra questione. Potresti cercare meglio altre funzioni di base (ad es. Serie di Fourier o distanza radiale dai punti di esempio) o altri approcci del tutto (ad es. SVM) quando sospetti una forma di contorno complessa nello spazio delle caratteristiche. Il problema con l'utilizzo di polinomi di ordine elevato è che il numero di funzioni polinomiali che è necessario utilizzare aumenta in modo esponenziale con il grado del polinomio e il numero di funzioni originali.
Potresti creare un polinomio per classificare XOR. 5 - 10 x y potrebbe essere un inizio se si utilizza - 1 e 1 come input binari, questo input mappa ( x , y) per produrre come segue:
(−1,−1):−5(−1,1):5(1,−1):5(1,1):−5
Passandolo nella funzione logistica dovresti avere valori abbastanza vicini a 0 e 1.
Simile alle tue due aree circolari è una semplice curva a otto:
a(x2−y2−bx4+c)
dove a,b e csono costanti. Puoi ottenere due aree chiuse disgiunte definite nel tuo classificatore - sui lati opposti diy asse, scegliendo a,b e cappropriatamente. Ad esempio, provaa=1,b=0.05,c=−1 per ottenere una funzione che si separa chiaramente in due picchi intorno x=−3 e x=3:
La trama mostrata proviene da uno strumento online su academo.org ed è perx2−y2−0.05x4−1>0 - la classe positiva indicata come valore 1 nel grafico sopra, ed è in genere dove 11+e−z>0.5 in regressione logistica o semplicemente z>0
Un ottimizzatore troverà i valori migliori, che dovresti solo usare 1,x2,y2,x4 come termini di espansione (sebbene si noti che questi termini specifici sono limitati alla corrispondenza della stessa forma di base riflessa attorno a y asse - in pratica si vorrebbe avere più termini fino al polinomio di quarto grado per trovare gruppi disgiunti arbitrari in un classificatore).
Infatti qualsiasi problema che puoi risolvere con una rete neurale profonda - di qualsiasi profondità - puoi risolvere con una struttura piatta usando la regressione lineare (per problemi di regressione) o la regressione logistica (per problemi di classificazione). È "solo" una questione di trovare la giusta espansione delle funzionalità. La differenza è che le reti neurali tenteranno di scoprire direttamente l'espansione di una funzionalità funzionante, mentre l'ingegnerizzazione delle funzionalità utilizzando polinomi o qualsiasi altro schema è un duro lavoro e non è sempre ovvio come iniziare: considera ad esempio come potresti creare approssimazioni polinomiali a ciò che neurale convoluzionale le reti fanno per le immagini? Sembra impossibile È probabile che sia anche estremamente poco pratico. Ma esiste.