Ho un database dalla mia applicazione Facebook e sto cercando di utilizzare l'apprendimento automatico per stimare l'età degli utenti in base ai siti Facebook che preferiscono.
Ci sono tre caratteristiche cruciali del mio database:
la distribuzione dell'età nel mio set di formazione (in totale 12k di utenti) è distorta rispetto agli utenti più giovani (ovvero ho 1157 utenti di 27 anni e 23 utenti di 65 anni);
molti siti non hanno più di 5 liker (ho filtrato i siti FB con meno di 5 liker).
ci sono molte più funzioni rispetto ai campioni.
Quindi, le mie domande sono: quale strategia suggeriresti per preparare i dati per ulteriori analisi? Dovrei eseguire una sorta di riduzione della dimensionalità? Quale metodo ML sarebbe più appropriato usare in questo caso?
Uso principalmente Python, quindi i suggerimenti specifici per Python sarebbero molto apprezzati.