World Wide Web terus berkembang menjadi repositori terbesar teks bahasa alami
dengan beragam jenis informasi yang tersaji dalam beragam bentuk seperti laman
web, artikel berita, konten media sosial maupun blog. Dalam beragam bentuk
informasi tersebut, terkandung cukup banyak informasi geografis dalam bentuk
penyebutan toponim. Oleh karena itu, beragam Sistem Temu Balik Informasi
Geografis (Geographic Information Retrieval / GIR) yang telah dikembangkan
pada ranah web dengan tujuan untuk melakukan ekstraksi informasi geospasial dari
teks bahasa alami dan menyajikan informasi yang dikehendaki dengan suatu
antarmuka berbentuk peta. Salah satu komponen fundamental dalam GIR adalah
geoparser, yang secara umum berfungsi melakukan pengenalan toponim
(geotagging) dan disambiguasi atau resolusi koordinat geografis (geocoding) dari
domain teks alami yang tidak terstruktur.
Namun persoalan geoparsing sendiri masih terbuka untuk diselesaikan sampai saat
ini. Hal ini teramati khususnya pada inputan artikel berita (news story) dalam situs
berita online yang mendeskripsikan beberapa peristiwa (event) yang masingmasingnya memiliki pola struktur semantik atau tematik yang berkelindan dengan
argumen peristiwa terkait informasi geospasial, temporal maupun numerik.
Geoparser yang ada belum mampu secara optimal menemukan lokasi dari teks
dengan skop resolusi peristiwa, melainkan hanya di level skop resolusi toponim
atau skop resolusi dokumen saja. Persoalan ekstraksi peristiwa maupun geoparsing
secara terpisah cukup banyak diteliti, namun integrasi metode ekstraksi peristiwa
ini ke dalam geoparsing untuk dapat menyelesaikan skop resolusi peristiwa masih
belum cukup dieksplorasi, terlebih di dalam domain berita berbahasa Indonesia.
Hipotesis utama penelitian adalah bahwa integrasi metode ekstraksi peristiwa dapat
meningkatkan kinerja dan kualitas geolokasi peristiwa dari teks. Hipotesis kedua
adalah bahwa eksplorasi semantik akan membantu kemampuan generalisasi
(generalizability) dari model dan meningkatkan kinerja geoparsing.
Disertasi ini menyajikan rangkaian penelitian teknik-teknik geoparsing dengan
fokus penyelesaian skop resolusi peristiwa dengan empat kontribusi utama.
Kontribusi pertama adalah perumusan dan implementasi sebuah model Geoparser
ii
Peristiwa (Event Geoparser) yang mengintegrasikan proses ekstraksi peristiwa
(event extraction process) ke dalam workflow geoparsing reguler dalam tiga
tahapan: 1) tahap geoparsing level toponim, 2) tahap ekstraksi peristiwa, dan 3)
tahap geoparsing level peristiwa. Pada akhirnya model geoparser peristiwa yang
diajukan mampu mengidentifikasi lokasi sejati dari peristiwa dengan mengenali
entitas lokasi semu yang tidak presisi ataupun tidak lokatif. Geoparser ini
diimplementasikan sebagai persoalan pelabelan urutan (sequence labeling
problem) dengan menggunakan arsitektur LSTM-CRF, yang menggunakan LSTM
sebagai word sequencing layer dan CRF untuk menangkap dependencies dari label
yang berdekatan.
Kontribusi kedua adalah Model Topik Teragregasi (Aggregated Topic Model /
ATM) yang memudahkan eksplorasi keterkaitan semantik (semantic relatedness)
dari token-token berdasarkan tag dokumen yang berjumlah sangat banyak. ATM
mengatasi batasan konsumsi memori Labeled LDA dengan membagi korpus dalam
partisi-partisi dan melakukan agregasi dari model topik yang dibangun dari masingmasing partisi. ATM menyediakan model topik yang digunakan bersama dengan
vektor semantic similarity dari word embedding word2vec untuk menyusun
semantic gazetteer berdasarkan tag-tag berjumlah sangat banyak (extreme
multilabel classification) yang disediakan dari artikel, yang pada akhirnya
digunakan untuk membangun handcrafted features untuk meningkatkan
generalisasi model.
Kontribusi ketiga adalah SMCD-ADM, yang merupakan algoritma resolusi
toponim yang diturunkan dari spatial minimality (SM) dengan menggunakan
metrik centroid distance dengan koefisien administrative (SMCD-ADM) untuk
menggantikan metrik luas poligon untuk menghindari kasus degenerasi pada
keperluan disambiguasi, sekaligus meningkatkan akurasi pada proses resolusi
toponim (toponym resolution). Algoritma resolusi toponim SMCD-ADM berhasil
menangani kasus degenerasi pada SM dan meningkatkan akurasi resolusi toponim
sebesar 5,71% dibandingkan dengan SM.
Kontribusi keempat adalah konstruksi korpora sebagai dataset untuk geoparsing
ekstraksi peristiwa teranotasi dengan toponim terdisambiguasi dari koleksi news
story dalam bahasa Indonesia. Korpus utama yang digunakan dalam penelitian ini
merupakan korpus dengan toponim terdisambiguasi sekaligus mengandung anotasi
ekstraksi peristiwa pertama dalam bahasa Indonesia yang dikonstruksi dari
berbagai sumber berita online Indonesia dalam empat peristiwa utama: Gempa,
Banjir, Kecelakaan dan Kebakaran. Korpus ini dibangun di atas korpus induk
berlabel banyak yang terdiri atas 645.679 dokumen hasil proses crawling dari situs
berita online.
Kinerja geoparser peristiwa dikomparasi dengan baseline LSTM-CRF dengan fitur
standard gazetteer dan part-of-speech tags untuk ekstraksi entitas, klasifikasi
peristiwa dan klasifikasi argumen. Kombinasi fitur yang diuji berhasil
meningkatkan kinerja weighted F-1 pada langkah ekstraksi entitas sebesar 2,46%,
pada langkah ekstraksi peristiwa sebesar 10,76%, dan 13,88% pada langkah
ekstraksi argumen. Selain itu, penggunaan fitur Smallest Administrative Level
iii
(SAL) dengan event labels dan event arguments dari tahapan sebelumnya mampu
meningkatkan pengenalan entitas lokasi semu (pseudo-location) sebesar 23,43%.
Sebagai implikasi dari metode ekstraksi peristiwa, model geoparser ini memiliki
kemampuan mengekstrak argumen numerik maupun string yang terasosiasikan
dengan peristiwa yang terjadi teks. Hal ini secara kualitatif mampu memperkaya
hasil geoparsing untuk aplikasi pemetaan tematik. Dengan demikian, dari integrasi
metode geoparsing dengan ekstraksi peristiwa dan identifikasi lokasi semu dan
eksplorasi semantik, didapatkan peningkatan kualitas dan kuantitas dari metode
inferensi peristiwa dan lokasinya dari teks.