digilib@itb.ac.id +62 812 2508 8800

Aisyah Farras Aqila [13519054].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Ketika melakukan migrasi data pipeline pada lingkungan data warehousing dari satu platform ke platform lainnya, butuh dipastikan bahwa seluruh data dan proses pada migrated data pipeline identik dengan legacy data pipeline. Data validation melakukan perbandingan data antar kedua data warehouse untuk memastikan bahwa data identik. Jika ditemukan perbedaan, dibutuhkan waktu dan usaha yang besar untuk mencari penyebabnya terutama jika data pipeline cukup kompleks. Namun hal tersebut dapat dibantu dengan konsep data lineage, dengan mencari input data yang menghasilkan suatu output data tertentu. Pada tugas akhir ini dikembangkan metode data validation menggunakan data lineage yang dapat mengidentifikasi nilai pada input data yang menyebabkan error pada output data. Metode terdiri dari beberapa tahap, yaitu: (1) penanganan surrogate key, dengan tidak memperhitungkan surrogate key saat membandingkan data pada kedua data warehouse; (2) error detection, dengan melakukan operasi set difference antar kedua data warehouse; (3) analisis error data dengan lineage tracing, dengan melakukan tracing untuk mencari data yang menyebabkan error; dan (4) pencarian pattern, dengan melihat apakah error hanya terjadi pada data dengan nilai tertentu. Tahap (3) menggunakan algoritma lineage tracing hasil penelitian Cui dkk. (2000) sedangkan tahap (4) merupakan pengembangan dari analisis Alberini (2021) dan open problem dari hasil penelitian Ikeda & Widom (2009). Selain itu juga dikembangkan aplikasi yang mengimplementasikan beberapa proses pada metode yang dikembangkan. Berdasarkan hasil pengujian, metode yang dikembangkan berhasil mengidentifikasi nilai pada input data yang menyebabkan error pada output data untuk suatu data pipeline di lingkungan data warehousing. Aplikasi yang dibangun juga mampu menjalankan metode yang dikembangkan dengan beberapa penyesuaian.