2008 TS PP IQBAL SYAMSU 1-COVER.pdf
2008 TS PP IQBAL SYAMSU 1-BAB1.pdf
2008 TS PP IQBAL SYAMSU 1-BAB2.pdf
2008 TS PP IQBAL SYAMSU 1-BAB3.pdf
2008 TS PP IQBAL SYAMSU 1-BAB4.pdf
2008 TS PP IQBAL SYAMSU 1-BAB5.pdf
2008 TS PP IQBAL SYAMSU 1-PUSTAKA.pdf
Sejalan dengan pertumbuhan dan bertambahnya ukuran dokumen dalam web, maka diperlukan suatu crawler yang berkinerja tinggi. Crawler tunggal secara praktis tidak mampu menangani kebutuhan tersebut. Salah satu metoda yang ditempuh adalah dengan menggunakan suatu crawler yang mampu menangani proses secara paralel. Pendekatan yang diambil adalah dengan membangun sistem crawler paralel terdistribusi. Dengan cara itu diharapkan dapat mengambil halaman-halaman web dengan jumlah yang banyak dalam waktu yang lebih singkat.
Tulisan ini menjelaskan mengenai perancangan sebuah crawler yang terdistribusi untuk mesin pencari web. Beberapa issue atau permasalahan dalam crawler terdistribusi seperti overlap dan coverage, menjadi fokus utama untuk dapat diperkecil pengaruhnya dengan menggunakan sistem yang terkoordinir. Perancangan dibuat dengan menggunakan empat buah proses crawler dan diuji pada jaringan intra-site crawler paralel. Strategi yang digunakan adalah breadth-first dengan mode pertukaran. Analisis dilakukan pada sampel data yang dihasilkan crawler sebesar 1,2 Gigabyte menggunakan query pada database koordinator.
Dengan menggunakan proses paralel terdistribusi, crawler mengalami peningkatan kinerja. Namun penambahan jumlah proses tidak selalu berbanding lurus dengan unjuk kerja. Selain itu pemodelan menggunakan modus pertukaran (exchange mode) mempunyai nilai overlap (N-I)/I yang lebih kecil dan memperbesar nilai cakupan.