Aisyah Farras Aqila [13519054].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Ketika melakukan migrasi data pipeline pada lingkungan data warehousing dari
satu platform ke platform lainnya, butuh dipastikan bahwa seluruh data dan proses
pada migrated data pipeline identik dengan legacy data pipeline. Data validation
melakukan perbandingan data antar kedua data warehouse untuk memastikan
bahwa data identik. Jika ditemukan perbedaan, dibutuhkan waktu dan usaha yang
besar untuk mencari penyebabnya terutama jika data pipeline cukup kompleks.
Namun hal tersebut dapat dibantu dengan konsep data lineage, dengan mencari
input data yang menghasilkan suatu output data tertentu.
Pada tugas akhir ini dikembangkan metode data validation menggunakan data
lineage yang dapat mengidentifikasi nilai pada input data yang menyebabkan error
pada output data. Metode terdiri dari beberapa tahap, yaitu: (1) penanganan
surrogate key, dengan tidak memperhitungkan surrogate key saat membandingkan
data pada kedua data warehouse; (2) error detection, dengan melakukan operasi set
difference antar kedua data warehouse; (3) analisis error data dengan lineage
tracing, dengan melakukan tracing untuk mencari data yang menyebabkan error;
dan (4) pencarian pattern, dengan melihat apakah error hanya terjadi pada data
dengan nilai tertentu. Tahap (3) menggunakan algoritma lineage tracing hasil
penelitian Cui dkk. (2000) sedangkan tahap (4) merupakan pengembangan dari
analisis Alberini (2021) dan open problem dari hasil penelitian Ikeda & Widom
(2009). Selain itu juga dikembangkan aplikasi yang mengimplementasikan
beberapa proses pada metode yang dikembangkan.
Berdasarkan hasil pengujian, metode yang dikembangkan berhasil mengidentifikasi
nilai pada input data yang menyebabkan error pada output data untuk suatu data
pipeline di lingkungan data warehousing. Aplikasi yang dibangun juga mampu
menjalankan metode yang dikembangkan dengan beberapa penyesuaian.