Perpustakaan Digital - Digilib ITB

Advanced Search

DISTRIBUTED CRAWLING PADA SITUS WEB TOKO ONLINE

5 views

Penulis	:	NurÃ‚Â’izzah Inayati - NIM: 23216038
Kontributor / Dosen Pembimbing	:	Achmad Imam K., ST. M.Sc. Ph.D
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Teknik Elektro
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	distributed crawling, halaman web dinamis, ekstraksi data, analisis semantik, apache Spark
Sumber	:
Staf Input/Edit	:	Karya Sumpena Alice Diniarti
File	:	1 file
Tanggal Input	:	01 Okt 2018

23216038-abstrak.pdf

PUBLIC Open In Flip Book Alice Diniarti

Saat ini, toko online berkembang sangat cepat. Terdapat banyak situs web yang menyediakan tempat untuk siapapun yang ingin memiliki toko online. Peningkatan jumlah toko online saat ini menjadi masalah bagi Badan Pusat Statistik yang bertanggung jawab dalam pendataan seluruh aktivitas usaha di Indonesia karena sulitnya mendapatkan informasi terkait usaha online yang dilakukan oleh responden dan anggota rumah tangganya. Web crawling dan web scraping merupakan beberapa cara untuk mengekstraksi data dari halaman web. Karena situs toko online menggunakan halaman dinamis, web crawlers sederhana tidak dapat mengambil data dari halaman tersebut. Penelitian ini mengusulkan mekanisme web crawling halaman web dengan data dinamis yang dijalankan secara terdistribusi. Data yang diekstraksi adalah data setiap akun toko pada dua situs toko online. Untuk mengekstraksi data secara otomatis, dirancang mekanisme automated extraction menggunakan analisis semantik. Untuk mempercepat proses crawling, dirancang mekanisme distributed crawling menggunakan Apache Spark. Sebuah prototipe dibangun untuk menguji rancangan yang telah dibuat. Beberapa eksperimen menggunakan prototipe tersebut dilakukan untuk mengetahui kinerja dari distributed crawling yang diusulkan. Hasil eksperimen menunjukkan bahwa automated extraction menggunakan analisis semantik memberikan hasil yang baik dengan nilai presisi 100 persen dan recall 94,94 persen. Distributed crawling dapat mempercepat proses crawling dan mempermudah dalam pengaturan skalabilitas. Untuk menambah kapasitas data yang diekstraksi, cukup menambah sumber daya berupa simpul tanpa perlu mengubah aplikasinya.

Perpustakaan Digital ITB

Advanced Search

DISTRIBUTED CRAWLING PADA SITUS WEB TOKO ONLINE

Artikel Terkait