digilib@itb.ac.id +62 812 2508 8800

18217024 Ismail Faizal Aziz.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dengan meningkatnya volume data yang dihasilkan oleh manusia, organisasi semakin bergantung pada analisis data untuk meningkatkan operasi bisnis. Dalam proses mengubah data dasar menjadi informasi yang berguna diperlukan analisis data. Sebelum data dasar dapat dianalisis, proses pengumpulan, pembersihan dan transformasi data, dan pemuatan data diperlukan. Data pipeline adalah kumpulan perangkat yang berfungsi mengantarkan data melalui ketiga proses tersebut sebelum data dapat dianalisis. Pada PT. XYZ, ketiga proses tersebut memerlukan waktu minimal satu hari. Hal ini menghambat proses hilir seperti analisis data ad- hoc, pendeteksi kecurangan, dan lainnya. Pada tugas akhir ini, penulis mengusulkan sistem streaming data pipeline untuk mempersingkat waktu jeda pengumpulan data. Solusi yang diajukan memiliki sumber data dari basis data PostgreSQL, destinasi data yaitu data warehouse Google BigQuery, dan kakas platform streaming Apache Kafka. Pada konteks ini, data yang diproses merupakan data transaksi keuangan dan data personal pelanggan dari PT. XYZ. Dalam pengerjaannya, terdapat batasan-batasan seperti data yang diproses adalah sumber daya yang disediakan adalah hanya satu mesin virtual. Proses pengembangan data pipeline dibagi menjadi 4 tahapan utama, yaitu membuat analisis kebutuhan, mengembangkan rancangan desain, mengimplementasi rancangan, dan pengujian. Pengujian yang dilakukan pada sistem adalah pengujian kebutuhan fungsional dan non-fungsional dengan cara simulasi pemrosesan data end-to-end. Hasil akhir dari desain dan implementasi streaming data pipeline adalah streaming data pipeline yang menggunakan kakas Debezium, Apache Kafka, dan Confluent Google BigQuery Sink Connector. Hasil pengujian pada streaming data pipeline yang telah diimplementasi menunjukkan streaming data pipeline memenuhi kebutuhan fungsional dan non-fungsional. Pengujian yang dilakukan sebagai perbandingan, pemrosesan pengumpulan data sebesar 500 ribu baris memiliki waktu jeda selama 2 hingga 3 menit. Hal ini mempersingkat proses pengumpulan data dari satu hari menjadi hitungan menit.