Big data memiliki karakteristik volume, velocity dan variety (3v) yang tinggi dan
terus tumbuh secara eksponensial mengikuti perkembangan pemanfaatan teknologi
informasi dan komunikasi dunia. Masalah utama dalam pemanfaatan big data
adalah data deluge, yaitu fenomena laju pertumbuhan data lebih tinggi dari pada
laju kemampuan memproses dan menganalisis data suatu organisasi. Oleh karena
itu, dibutuhkan metode dan teknik dalam menyimpan dan menganalisis yang lebih
dari komputasi konvensional. Kebutuhan teknologi dan metode penyimpanan dan
pemrosesan big data untuk mengimbangi laju pertumbuhan data yang eksponensial
berpotensi tidak terbatas, sehingga menimbulkan masalah peningkatan kebutuhan
teknologi yang eksponensial juga.
State of the art penelitian saat ini, teknik analisis big data cenderung memproses
data yang telah menumpuk (historical analytic) dengan volume yang besar secara
batch processing, atau analisis real time terhadap data yang baru muncul (real time
processing). Historical analysis dengan volume data yang besar memerlukan media
penyimpanan yang besar dan teknik serta teknologi pemrosesan yang tinggi.
Demikian juga dengan analisis real time, memerlukan teknik dan teknologi
pemrosesan yang tinggi juga. Saat ini kebutuhan ini diselesaikan dengan teknologi
penyimpanan dan metode pemrosesan paralel yang berjalan di atas ekosistem
Hadoop, Flink, Spark, Storm, S4 dan sejenisnya yang berjalan di atas cluster
komputer sekala besar. Dengan demikian teknik analisis big data ini hanya dapat
dilakukan oleh perusahaan/organisasi besar juga, tidak dapat dilaksanakan oleh
organisasi/perusahaan sekala kecil dan menengah.
Pada penelitian ini diusulkan pendekatan baru pada ranah analisis big data, yaitu:
memisahkan proses konstruksi basic knowledge (BK) dari data asal (berupa data
stream) menjadi pengetahuan dengan velocity dan volume yang jauh lebih kecil.
Kemudian dari BK ini dapat dianalisis lebih lanjut untuk menghasilkan knowledge
akhir yang diperlukan. Masalah yang diselesaikan mencakup: (1) merumuskan
definisi dan representasi BK yang sesuai, (2) mengembangkan metode untuk
mengkonstruksi BK dari data awal, dan (3) mengembangkan metode untuk
menganalisis BK menjadi knowledge akhir. Metode yang digunakan untuk
ii
mengkonstruksi BK berbasis clustering. Analisis BK menjadi knowledge akhir
dibatasi untuk proses analisis berbasis clustering. Kontribusi dari penelitian ini ada
2 metode yaitu: (1) Basic Knowledge Construction (BKC) dan (2) Basic
Knowledge Analysis (BKA). Penelitian dibagi dalam 4 tahap, yaitu: (1) untuk data
terstruktur berdimensi rendah, (2) data terstruktur berdimensi tinggi, (3) data tidak
terstruktur, dan (4) integrasi dari seluruh metode. Hipotesis yang dibuktikan
mencakup: (1) basic knowledge merupakan representative sample dari data asal
yang memiliki volume lebih kecil, namun memiliki makna mirip; (2) algoritma
BKC efektif untuk mengkonstruksi basic knowledge dari big data; (3) algoritma
BKA lebih cepat dari pada baseline, dan menghasilkan knowledge yang mirip
dengan baseline.
Untuk data terstruktur, telah dipilih algoritma BIRCH sebagai baseline, dengan
pertimbangan kecocokan case data dan memiliki kompleksitas algoritma O(n). BK
didefinisikan sebagai representative sample dari data stream pada rentang waktu
tertentu, dengan volume lebih kecil, namun memiliki makna mirip sehingga masih
dapat dianalisis menjadi knowledge akhir. BK direpresentasikan sebagai Clustering
Feature (CF) yang menyimpan 3 nilai, yaitu: N (banyaknya data) yang diwakili,
LS (Linear Sum) dan SS (Square Sum). Dengan representasi CF, maka semua
informasi statistik terkait seperti centroid dan distribusi data yang diwakili dapat
dihitung. Selain itu, dengan CF, semua fungsi jarak antar data point juga dapat
dihitung. Metode BKC dikembangkan dari CluStream dengan mengambil Micro
Cluster (MC) sebagai BK. Untuk metode BKA dikembangkan dari BIRCH dengan
masukan berupa BK berformat CF.
Hasil pengujian untuk data terstruktur berdimensi rendah pada tahap 1
menggunakan data artifisial yang dibangkitkan dari WEKA menunjukkan bahwa
BKC mampu menghasilkan BK dengan volume yang jauh lebih kecil dari data asli
(tingkat reduksi signifikan) dan BKA mampu menghasilkan knowledge berupa
cluster yang sama dengan metode baseline. Pengujian juga dilakukan
menggunakan dataset dari UCI Machine Learning Dataset, yaitu: IRIS4D dan
Diabetes. Pengujian menggunakan IRIS4D (berlabel) menunjukkan bahwa metode
BKC + BKA mampu memberikan hasil lebih dekat dengan ground truth dari pada
metode baseline dengan penggunaan storage dan waktu proses yang lebih kecil.
Pengujian menggunakan dataset Diabetes memberikan tingkat reduksi yang
signifikan dengan pola hasil clustering yang mirip dengan baseline.
Untuk data terstruktur berdimensi tinggi pada tahap 2, baseline diambil dari 2
algoritma, yaitu BIRCH dan Paralel BIRCH (PBIRCH) yang diimplementasikan
pada lingkungan Spark/Hadoop. Algoritma dimodifikasi dengan memparalelkan
perhitungan LS dan SS dengan hasil peningkatan kinerja 17% sampai 25%.
PBIRCH dipecah menjadi BKC dan BKA dengan hasil waktu lebih cepat (1,69%
untuk data kecil, 43,50% untuk data besar) dan tingkat reduksi volume di atas 96%.
Metode Adjusted Rand Index (ARI) digunakan untuk mengukur tingkat kemiripan
pola yang dihasilkan algoritma baseline dan usulan. Hasil ARI menunjukkan secara
konsisten bahwa pola yang dihasilkan baseline dan usulan sama (ARI=1.0).
iii
Untuk data tidak terstruktur pada tahap 3, menggunakan data teks berita berbahasa
Indonesia. Sebagai baseline dipilih algoritma text clustering K-Means. BKC
dikembangkan dari peringkasan teks ekstraksi cepat berbasis BIRCH. BK
didefinisikan sebagai ringkasan text berita yang memiliki makna hampir sama,
ukuran lebih kecil, dan representasinya berupa frekuensi kata dasar. Pengujian
menggunakan data artifisial untuk validasi model, data real berita Pilpres 2019 dan
Pilkada 2020 untuk kasus nyata, dan berita berbahasa Inggris sebagai
perbandingan, untuk membuktikan bebas konteks bahasa. Hasil pengujian
menunjukkan bahwa metode yang diusulkan lebih efisien dalam menggunakan
penyimpanan data (45,65% hingga 51,86%), lebih cepat dalam pemrosesan
(75,94% hingga 99,66%), dan menghasilkan pengetahuan akhir yang mirip dengan
baseline (ARI=1,0 untuk data artifisial, 0,99 untuk data nyata berbahasa Indonesia,
dan 0,94 untuk data pembanding berbahasa Inggris).
Semua metode atau algoritma, baik baseline maupun usulan telah diintegrasikan
dalam bentuk arsitektur dan artefaknya. Juga telah disusun panduan dan contoh
penggunaannya untuk analisis big data terstruktur dan tidak terstruktur. Sehingga
siap untuk digunakan masyarakat, khususnya para peneliti.
Dengan demikian dapat disimpulkan bahwa perumusan BK, metode konstruksi BK
dan analisis dari BK menjadi knowledge akhir yang diusulkan, baik untuk data
terstruktur dan tidak terstruktur dapat membuktikan seluruh hipotesis. Melalui
integrasi arsitektur dan artefak serta panduan, siap dikontribusikan kepada
masyarakat peneliti.