18217024 Ismail Faizal Aziz.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Dengan meningkatnya volume data yang dihasilkan oleh manusia, organisasi
semakin bergantung pada analisis data untuk meningkatkan operasi bisnis. Dalam
proses mengubah data dasar menjadi informasi yang berguna diperlukan analisis
data. Sebelum data dasar dapat dianalisis, proses pengumpulan, pembersihan dan
transformasi data, dan pemuatan data diperlukan. Data pipeline adalah kumpulan
perangkat yang berfungsi mengantarkan data melalui ketiga proses tersebut
sebelum data dapat dianalisis. Pada PT. XYZ, ketiga proses tersebut memerlukan
waktu minimal satu hari. Hal ini menghambat proses hilir seperti analisis data ad-
hoc, pendeteksi kecurangan, dan lainnya. Pada tugas akhir ini, penulis
mengusulkan sistem streaming data pipeline untuk mempersingkat waktu jeda
pengumpulan data. Solusi yang diajukan memiliki sumber data dari basis data
PostgreSQL, destinasi data yaitu data warehouse Google BigQuery, dan kakas
platform streaming Apache Kafka. Pada konteks ini, data yang diproses
merupakan data transaksi keuangan dan data personal pelanggan dari PT. XYZ.
Dalam pengerjaannya, terdapat batasan-batasan seperti data yang diproses adalah
sumber daya yang disediakan adalah hanya satu mesin virtual. Proses
pengembangan data pipeline dibagi menjadi 4 tahapan utama, yaitu membuat
analisis kebutuhan, mengembangkan rancangan desain, mengimplementasi
rancangan, dan pengujian. Pengujian yang dilakukan pada sistem adalah
pengujian kebutuhan fungsional dan non-fungsional dengan cara simulasi
pemrosesan data end-to-end. Hasil akhir dari desain dan implementasi streaming
data pipeline adalah streaming data pipeline yang menggunakan kakas Debezium,
Apache Kafka, dan Confluent Google BigQuery Sink Connector. Hasil pengujian
pada streaming data pipeline yang telah diimplementasi menunjukkan streaming
data pipeline memenuhi kebutuhan fungsional dan non-fungsional. Pengujian
yang dilakukan sebagai perbandingan, pemrosesan pengumpulan data sebesar 500
ribu baris memiliki waktu jeda selama 2 hingga 3 menit. Hal ini mempersingkat
proses pengumpulan data dari satu hari menjadi hitungan menit.