digilib@itb.ac.id +62 812 2508 8800

23216038-abstrak.pdf
PUBLIC Alice Diniarti

Saat ini, toko online berkembang sangat cepat. Terdapat banyak situs web yang menyediakan tempat untuk siapapun yang ingin memiliki toko online. Peningkatan jumlah toko online saat ini menjadi masalah bagi Badan Pusat Statistik yang bertanggung jawab dalam pendataan seluruh aktivitas usaha di Indonesia karena sulitnya mendapatkan informasi terkait usaha online yang dilakukan oleh responden dan anggota rumah tangganya. Web crawling dan web scraping merupakan beberapa cara untuk mengekstraksi data dari halaman web. Karena situs toko online menggunakan halaman dinamis, web crawlers sederhana tidak dapat mengambil data dari halaman tersebut. Penelitian ini mengusulkan mekanisme web crawling halaman web dengan data dinamis yang dijalankan secara terdistribusi. Data yang diekstraksi adalah data setiap akun toko pada dua situs toko online. Untuk mengekstraksi data secara otomatis, dirancang mekanisme automated extraction menggunakan analisis semantik. Untuk mempercepat proses crawling, dirancang mekanisme distributed crawling menggunakan Apache Spark. Sebuah prototipe dibangun untuk menguji rancangan yang telah dibuat. Beberapa eksperimen menggunakan prototipe tersebut dilakukan untuk mengetahui kinerja dari distributed crawling yang diusulkan. Hasil eksperimen menunjukkan bahwa automated extraction menggunakan analisis semantik memberikan hasil yang baik dengan nilai presisi 100 persen dan recall 94,94 persen. Distributed crawling dapat mempercepat proses crawling dan mempermudah dalam pengaturan skalabilitas. Untuk menambah kapasitas data yang diekstraksi, cukup menambah sumber daya berupa simpul tanpa perlu mengubah aplikasinya.