Sto cercando di cercare una buona argomentazione sul perché si dovrebbe usare la distanza di Manhattan sulla distanza euclidea in Machine Learning.
La cosa più vicina che ho trovato ad una buona discussione finora è su questa lezione del MIT .
Alle 36:15 puoi vedere nelle diapositive la seguente dichiarazione:
"In genere usa la metrica euclidea; Manhattan può essere appropriata se dimensioni diverse non sono comparabili. "
Poco dopo il professore afferma che, poiché il numero di gambe di un rettile varia da 0 a 4 (mentre le altre caratteristiche sono binarie, variano solo da 0 a 1), la funzione "numero di gambe" finirà per avere un valore molto più alto peso se viene utilizzata la distanza euclidea. Abbastanza sicuro, è proprio così. Ma si avrebbe anche quel problema se si utilizza la distanza di Manhattan (solo che il problema sarebbe leggermente mitigato perché non quadriamo la differenza come facciamo sulla distanza euclidea).
Un modo migliore per risolvere il problema di cui sopra sarebbe normalizzare la funzione "numero di segmenti", quindi il suo valore sarà sempre compreso tra 0 e 1.
Pertanto, poiché esiste un modo migliore per risolvere il problema, mi è sembrato che l'argomento dell'uso della distanza di Manhattan in questo caso mancasse di un punto di forza, almeno secondo me.
Qualcuno sa davvero perché e quando qualcuno dovrebbe usare la distanza di Manhattan su Euclide? Qualcuno può darmi un esempio in cui l'uso della distanza di Manhattan produrrebbe risultati migliori?