digilib@itb.ac.id +62 812 2508 8800

23219057 Dahlia Winingsih.pdf
PUBLIC Dessy Rondang Monaomi

Metadata statistik bermanfaat sebagai rujukan dalam merencanakan, menyelenggarakan, dan mengevaluasi serangkaian kegiatan statistik. Metadata statistik terbagi menjadi metadata statistik dasar, sektoral, dan khusus. Ketiganya dibedakan berdasarkan tujuan dan pelaksana kegiatannya. Statistik dasar diselenggarakan oleh BPS, statistik sektoral oleh instansi pemerintahan, dan statistik khusus diselenggarakan oleh penyelenggara lainnya seperti lembaga swasta maupun perorangan. Perkembangan jumlah metadata statistik khusus yang terkumpul dalam sistem rujukan statistik terendah sebanyak 388 metadata jika dibandingkan dengan metadata statistik sektoral yang berjumlah 3.613 metadata. Salah satu cara mendapatkan informasi terkait pelaksanaan kegiatan statistik khusus adalah dengan melakukan pencarian artikel penelitian statistik yang menjadi media publisitas para peneliti dan penyelenggara riset lainnya. Namun, untuk mendapatkan informasi yang dibutuhkan dalam metadata statistik dari sebuah artikel penelitian ilmiah memerlukan serangkaian proses yang panjang. Proses pencarian informasi dalam sebuah dokumen berbentuk teks dapat dilakukan dengan ekstraksi informasi. Permasalahan yang muncul dalam menerapkan teknik ekstraksi informasi untuk mencari informasi metadata statistik yang terdiri dari judul, identitas penyelenggara, publikasi, tahun kegiatan, variabel, sumber dan periode data, unit observasi, serta metode analisis yang digunakan pada sebuah artikel penelitian adalah keberagaman karakteristik dari setiap informasi yang memerlukan perlakuan berbeda untuk mendapatkan informasi yang sesuai. Penelitian ini mengusulkan sebuah rancangan model ekstraksi metadata statistik berbasis fitur yang diperoleh dengan menerapkan algoritma machine learning. Algoritma yang digunakan adalah random forest, naïve bayes, support vector machine, dan decision tree. Fitur yang digunakan mencakup karakteristik penulisan teks, tata letak, konten, dan pola linguistik yang terdapat pada kata/frasa terkait informasi statistik yang sesuai. Hasil pengukuran kinerja model menunjukkan model dengan algoritma random forest dan decision tree memiliki nilai rata-rata f1- score tertinggi sebesar 0,92 sedangkan nilai f1-score terendah sebesar 0,88 berada pada model naïve bayes.