digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Dessy Rondang Monaomi

Big data memiliki karakteristik volume, velocity dan variety (3v) yang tinggi dan terus tumbuh secara eksponensial mengikuti perkembangan pemanfaatan teknologi informasi dan komunikasi dunia. Masalah utama dalam pemanfaatan big data adalah data deluge, yaitu fenomena laju pertumbuhan data lebih tinggi dari pada laju kemampuan memproses dan menganalisis data suatu organisasi. Oleh karena itu, dibutuhkan metode dan teknik dalam menyimpan dan menganalisis yang lebih dari komputasi konvensional. Kebutuhan teknologi dan metode penyimpanan dan pemrosesan big data untuk mengimbangi laju pertumbuhan data yang eksponensial berpotensi tidak terbatas, sehingga menimbulkan masalah peningkatan kebutuhan teknologi yang eksponensial juga. State of the art penelitian saat ini, teknik analisis big data cenderung memproses data yang telah menumpuk (historical analytic) dengan volume yang besar secara batch processing, atau analisis real time terhadap data yang baru muncul (real time processing). Historical analysis dengan volume data yang besar memerlukan media penyimpanan yang besar dan teknik serta teknologi pemrosesan yang tinggi. Demikian juga dengan analisis real time, memerlukan teknik dan teknologi pemrosesan yang tinggi juga. Saat ini kebutuhan ini diselesaikan dengan teknologi penyimpanan dan metode pemrosesan paralel yang berjalan di atas ekosistem Hadoop, Flink, Spark, Storm, S4 dan sejenisnya yang berjalan di atas cluster komputer sekala besar. Dengan demikian teknik analisis big data ini hanya dapat dilakukan oleh perusahaan/organisasi besar juga, tidak dapat dilaksanakan oleh organisasi/perusahaan sekala kecil dan menengah. Pada penelitian ini diusulkan pendekatan baru pada ranah analisis big data, yaitu: memisahkan proses konstruksi basic knowledge (BK) dari data asal (berupa data stream) menjadi pengetahuan dengan velocity dan volume yang jauh lebih kecil. Kemudian dari BK ini dapat dianalisis lebih lanjut untuk menghasilkan knowledge akhir yang diperlukan. Masalah yang diselesaikan mencakup: (1) merumuskan definisi dan representasi BK yang sesuai, (2) mengembangkan metode untuk mengkonstruksi BK dari data awal, dan (3) mengembangkan metode untuk menganalisis BK menjadi knowledge akhir. Metode yang digunakan untuk ii mengkonstruksi BK berbasis clustering. Analisis BK menjadi knowledge akhir dibatasi untuk proses analisis berbasis clustering. Kontribusi dari penelitian ini ada 2 metode yaitu: (1) Basic Knowledge Construction (BKC) dan (2) Basic Knowledge Analysis (BKA). Penelitian dibagi dalam 4 tahap, yaitu: (1) untuk data terstruktur berdimensi rendah, (2) data terstruktur berdimensi tinggi, (3) data tidak terstruktur, dan (4) integrasi dari seluruh metode. Hipotesis yang dibuktikan mencakup: (1) basic knowledge merupakan representative sample dari data asal yang memiliki volume lebih kecil, namun memiliki makna mirip; (2) algoritma BKC efektif untuk mengkonstruksi basic knowledge dari big data; (3) algoritma BKA lebih cepat dari pada baseline, dan menghasilkan knowledge yang mirip dengan baseline. Untuk data terstruktur, telah dipilih algoritma BIRCH sebagai baseline, dengan pertimbangan kecocokan case data dan memiliki kompleksitas algoritma O(n). BK didefinisikan sebagai representative sample dari data stream pada rentang waktu tertentu, dengan volume lebih kecil, namun memiliki makna mirip sehingga masih dapat dianalisis menjadi knowledge akhir. BK direpresentasikan sebagai Clustering Feature (CF) yang menyimpan 3 nilai, yaitu: N (banyaknya data) yang diwakili, LS (Linear Sum) dan SS (Square Sum). Dengan representasi CF, maka semua informasi statistik terkait seperti centroid dan distribusi data yang diwakili dapat dihitung. Selain itu, dengan CF, semua fungsi jarak antar data point juga dapat dihitung. Metode BKC dikembangkan dari CluStream dengan mengambil Micro Cluster (MC) sebagai BK. Untuk metode BKA dikembangkan dari BIRCH dengan masukan berupa BK berformat CF. Hasil pengujian untuk data terstruktur berdimensi rendah pada tahap 1 menggunakan data artifisial yang dibangkitkan dari WEKA menunjukkan bahwa BKC mampu menghasilkan BK dengan volume yang jauh lebih kecil dari data asli (tingkat reduksi signifikan) dan BKA mampu menghasilkan knowledge berupa cluster yang sama dengan metode baseline. Pengujian juga dilakukan menggunakan dataset dari UCI Machine Learning Dataset, yaitu: IRIS4D dan Diabetes. Pengujian menggunakan IRIS4D (berlabel) menunjukkan bahwa metode BKC + BKA mampu memberikan hasil lebih dekat dengan ground truth dari pada metode baseline dengan penggunaan storage dan waktu proses yang lebih kecil. Pengujian menggunakan dataset Diabetes memberikan tingkat reduksi yang signifikan dengan pola hasil clustering yang mirip dengan baseline. Untuk data terstruktur berdimensi tinggi pada tahap 2, baseline diambil dari 2 algoritma, yaitu BIRCH dan Paralel BIRCH (PBIRCH) yang diimplementasikan pada lingkungan Spark/Hadoop. Algoritma dimodifikasi dengan memparalelkan perhitungan LS dan SS dengan hasil peningkatan kinerja 17% sampai 25%. PBIRCH dipecah menjadi BKC dan BKA dengan hasil waktu lebih cepat (1,69% untuk data kecil, 43,50% untuk data besar) dan tingkat reduksi volume di atas 96%. Metode Adjusted Rand Index (ARI) digunakan untuk mengukur tingkat kemiripan pola yang dihasilkan algoritma baseline dan usulan. Hasil ARI menunjukkan secara konsisten bahwa pola yang dihasilkan baseline dan usulan sama (ARI=1.0). iii Untuk data tidak terstruktur pada tahap 3, menggunakan data teks berita berbahasa Indonesia. Sebagai baseline dipilih algoritma text clustering K-Means. BKC dikembangkan dari peringkasan teks ekstraksi cepat berbasis BIRCH. BK didefinisikan sebagai ringkasan text berita yang memiliki makna hampir sama, ukuran lebih kecil, dan representasinya berupa frekuensi kata dasar. Pengujian menggunakan data artifisial untuk validasi model, data real berita Pilpres 2019 dan Pilkada 2020 untuk kasus nyata, dan berita berbahasa Inggris sebagai perbandingan, untuk membuktikan bebas konteks bahasa. Hasil pengujian menunjukkan bahwa metode yang diusulkan lebih efisien dalam menggunakan penyimpanan data (45,65% hingga 51,86%), lebih cepat dalam pemrosesan (75,94% hingga 99,66%), dan menghasilkan pengetahuan akhir yang mirip dengan baseline (ARI=1,0 untuk data artifisial, 0,99 untuk data nyata berbahasa Indonesia, dan 0,94 untuk data pembanding berbahasa Inggris). Semua metode atau algoritma, baik baseline maupun usulan telah diintegrasikan dalam bentuk arsitektur dan artefaknya. Juga telah disusun panduan dan contoh penggunaannya untuk analisis big data terstruktur dan tidak terstruktur. Sehingga siap untuk digunakan masyarakat, khususnya para peneliti. Dengan demikian dapat disimpulkan bahwa perumusan BK, metode konstruksi BK dan analisis dari BK menjadi knowledge akhir yang diusulkan, baik untuk data terstruktur dan tidak terstruktur dapat membuktikan seluruh hipotesis. Melalui integrasi arsitektur dan artefak serta panduan, siap dikontribusikan kepada masyarakat peneliti.