Ho studiato il database Redshift di Amazon come possibile rimpiazzo futuro per il nostro data warehouse. La mia esperienza è sempre stata nell'uso della modellazione dimensionale e dei metodi di Ralph Kimball, quindi è stato un po 'strano vedere che Redshift non supporta funzionalità come il tipo di dati seriale per le colonne a incremento automatico.
C'è, tuttavia, questo recente post sul blog AWS Big Data su come ottimizzare Redshift per uno schema a stella: https://blogs.aws.amazon.com/bigdata/post/Tx1WZP38ERPGK5K/Optimizing-for-Star-Schemas -e-Interleaved-Ordinamento-on-Amazon-Redshift
La domanda che ho è su quale sia la migliore pratica per caricare uno schema a stella in Redshift? Non riesco a trovare una risposta nella documentazione di Redshift.
Mi sto orientando verso l'importazione dei miei file da S3 in tabelle di gestione temporanea e quindi utilizzo SQL per eseguire trasformazioni come ricerche e generare chiavi surrogate prima di inserirle nelle tabelle di destinazione.
È quello che stanno facendo gli altri? Esiste uno strumento ETL che vale i soldi per renderlo più semplice?