Metadata statistik bermanfaat sebagai rujukan dalam merencanakan,
menyelenggarakan, dan mengevaluasi serangkaian kegiatan statistik. Metadata
statistik terbagi menjadi metadata statistik dasar, sektoral, dan khusus. Ketiganya
dibedakan berdasarkan tujuan dan pelaksana kegiatannya. Statistik dasar
diselenggarakan oleh BPS, statistik sektoral oleh instansi pemerintahan, dan
statistik khusus diselenggarakan oleh penyelenggara lainnya seperti lembaga
swasta maupun perorangan. Perkembangan jumlah metadata statistik khusus yang
terkumpul dalam sistem rujukan statistik terendah sebanyak 388 metadata jika
dibandingkan dengan metadata statistik sektoral yang berjumlah 3.613 metadata.
Salah satu cara mendapatkan informasi terkait pelaksanaan kegiatan statistik
khusus adalah dengan melakukan pencarian artikel penelitian statistik yang menjadi
media publisitas para peneliti dan penyelenggara riset lainnya. Namun, untuk
mendapatkan informasi yang dibutuhkan dalam metadata statistik dari sebuah
artikel penelitian ilmiah memerlukan serangkaian proses yang panjang. Proses
pencarian informasi dalam sebuah dokumen berbentuk teks dapat dilakukan dengan
ekstraksi informasi. Permasalahan yang muncul dalam menerapkan teknik ekstraksi
informasi untuk mencari informasi metadata statistik yang terdiri dari judul,
identitas penyelenggara, publikasi, tahun kegiatan, variabel, sumber dan periode
data, unit observasi, serta metode analisis yang digunakan pada sebuah artikel
penelitian adalah keberagaman karakteristik dari setiap informasi yang memerlukan
perlakuan berbeda untuk mendapatkan informasi yang sesuai.
Penelitian ini mengusulkan sebuah rancangan model ekstraksi metadata statistik
berbasis fitur yang diperoleh dengan menerapkan algoritma machine learning.
Algoritma yang digunakan adalah random forest, naïve bayes, support vector
machine, dan decision tree. Fitur yang digunakan mencakup karakteristik penulisan
teks, tata letak, konten, dan pola linguistik yang terdapat pada kata/frasa terkait
informasi statistik yang sesuai. Hasil pengukuran kinerja model menunjukkan
model dengan algoritma random forest dan decision tree memiliki nilai rata-rata f1-
score tertinggi sebesar 0,92 sedangkan nilai f1-score terendah sebesar 0,88 berada
pada model naïve bayes.