Path: Top > S1-Final Project > Informatics-Computer Science-STEI > 2017

PENGEMBANGAN KOLEKTOR DATA TABULAR DARI WEB UNTUK MENDAPATKAN DATA PENGAJARAN DAN PUBLIKASI PERGURUAN TINGGI

DEVELOPMENT OF TABULAR DATA COLLECTOR FROM WEB TO EXTRACT UNIVERSITY TEACHING AND PUBLICATION DATA

Undergraduate Theses from JBPTITBPP / 2017-10-09 10:28:07
Oleh : AHMAD DARMAWAN - NIM : 13513096 , S1 - Informatics-STEI
Dibuat : 2017-09-29, dengan 1 file

Keyword : Crawler, ekstraksi, template, tabel, list berulang, bibliografi

Banyak institusi telah mempublikasikan datanya secara tabular (data berulang, semi terstruktur) dalam web. Contohnya, Institut Teknologi Bandung (ITB) sebagai institusi perguruan tinggi telah mempublikasikan data pengajaran dan publikasi secara publik. Pengoleksian dan pengekstraksian data dilakukan untuk mendukung pembangunan linked open data atau visualisasi data lebih lanjut. Dalam kasus ini, data pengajaran dan publikasi dapat digunakan bagi perguruan tinggi untuk mengukur kinerja dosen. Akan tetapi, permasalahan yang terjadi dalam pengoleksian dan pengekstraksian data adalah data tersebar di berbagai tempat dan data memiliki bentuk yang tidak memenuhi aspek machine readable. Teknik pengoleksian data dimulai dari menjelajahi web menggunakan crawler untuk mengambil URL yang terhubung dalam suatu seed yang berpotensi memiliki data pengajaran dan publikasi ITB. Teknik pengekstraksian data dilakukan dengan berbagai macam teknik sesuai kasus yang dihadapi pada laman web. Ada tiga jenis ekstraksi umum yang ditawarkan sebagai solusi yaitu ekstraksi dengan template, ekstraksi tabel, dan ekstraksi list berulang. Selain itu, digunakan satu ekstraksi lain untuk menangani masalah khusus yaitu ekstraksi bibliografi. Teknik tersebut dibangun berdasarkan penelitian yang sudah ada dengan pengembangan tertentu untuk menghasilkan akurasi yang lebih baik. Pada tugas akhir ini, sistem dapat mengoleksi data pengajaran dari tahun 2013 s.d. 2017 menggunakan teknik ekstraksi menggunakan template. Sistem juga dapat mengoleksi data publikasi dosen ITB dengan nilai F1 0.887 menggunakan teknik ekstraksi tabel, list berulang, dan bibliografi. Sistem juga dapat dibangun menggunakan komposisi ekstraksi lainnya untuk mengekstraksi data pengajaran dan publikasi. Hasil pengoleksian dan pengekstraksian data pengajaran dan publikasi pada setiap laman web disimpan dalam suatu format terstruktur yang machine readable dalam JSON yang dapat digunakan untuk pengembangan linked open data dan visualisasi data lebih lanjut.

Deskripsi Alternatif :

Many institutions have published data tabularly (recurrent, semi-structured data) on the web. For example, the Bandung Institute of Technology (ITB) as a university institution has publicly published teaching and publication data. The purpose of data collection and data extraction is supporting the development of linked of open data, data visualization, etc. In this case, teaching and publication data can be used for universities to measure lecturer performance. However, the problem with collecting and extracting data is that the data scrattered in many places and the data has a form that doesn’t meet machine-readable aspect. The technique of data collection is using crawler to retrieve the linked URLs in a seed that potentially having teaching and publication data. The technique of data extractor has many variations based on the case encountered on the webpage. In this case, proposed three general extractor types as solution: template extractor, table extractor, and list extractor. In addition, there is a spesific extraction that be proposed for dealing with a particular problem of bibliographic extraction. In this research, the techniques will combine to certain system based on the data presented. Based on experiment, the system can collect the teaching data from 2013 to 2017 using template extractor. The system can also collect publication data of ITB’s lecturer with F1 value is 0.887. It used table extractor, list extractor, and bibliography extractor. The system can also be constructed using other combination of extractors to extract teaching and publication data. The collection data on each web page is stored in database with JSON format. The data can be used for open link data development, data visualization, etc.

Copyrights : Copyright (c) 2001 by Perpustakaan Digital ITB. Verbatim copying and distribution of this entire article is permitted by author in any medium, provided this notice is preserved.

Beri Komentar ?#(0) | Bookmark

PropertiNilai Properti
ID PublisherJBPTITBPP
OrganisasiS
Nama KontakUPT Perpustakaan ITB
AlamatJl. Ganesha 10
KotaBandung
DaerahJawa Barat
NegaraIndonesia
Telepon62-22-2509118, 2500089
Fax62-22-2500089
E-mail Administratordigilib@lib.itb.ac.id
E-mail CKOinfo@lib.itb.ac.id

Print ...

Kontributor...

  • Dr. Techn. Saiful Akbar, S.T., M.T., Editor: Irwan Sofiyan

File PDF...