digilib@itb.ac.id +62 812 2508 8800

World Wide Web terus berkembang menjadi repositori terbesar teks bahasa alami dengan beragam jenis informasi yang tersaji dalam beragam bentuk seperti laman web, artikel berita, konten media sosial maupun blog. Dalam beragam bentuk informasi tersebut, terkandung cukup banyak informasi geografis dalam bentuk penyebutan toponim. Oleh karena itu, beragam Sistem Temu Balik Informasi Geografis (Geographic Information Retrieval / GIR) yang telah dikembangkan pada ranah web dengan tujuan untuk melakukan ekstraksi informasi geospasial dari teks bahasa alami dan menyajikan informasi yang dikehendaki dengan suatu antarmuka berbentuk peta. Salah satu komponen fundamental dalam GIR adalah geoparser, yang secara umum berfungsi melakukan pengenalan toponim (geotagging) dan disambiguasi atau resolusi koordinat geografis (geocoding) dari domain teks alami yang tidak terstruktur. Namun persoalan geoparsing sendiri masih terbuka untuk diselesaikan sampai saat ini. Hal ini teramati khususnya pada inputan artikel berita (news story) dalam situs berita online yang mendeskripsikan beberapa peristiwa (event) yang masingmasingnya memiliki pola struktur semantik atau tematik yang berkelindan dengan argumen peristiwa terkait informasi geospasial, temporal maupun numerik. Geoparser yang ada belum mampu secara optimal menemukan lokasi dari teks dengan skop resolusi peristiwa, melainkan hanya di level skop resolusi toponim atau skop resolusi dokumen saja. Persoalan ekstraksi peristiwa maupun geoparsing secara terpisah cukup banyak diteliti, namun integrasi metode ekstraksi peristiwa ini ke dalam geoparsing untuk dapat menyelesaikan skop resolusi peristiwa masih belum cukup dieksplorasi, terlebih di dalam domain berita berbahasa Indonesia. Hipotesis utama penelitian adalah bahwa integrasi metode ekstraksi peristiwa dapat meningkatkan kinerja dan kualitas geolokasi peristiwa dari teks. Hipotesis kedua adalah bahwa eksplorasi semantik akan membantu kemampuan generalisasi (generalizability) dari model dan meningkatkan kinerja geoparsing. Disertasi ini menyajikan rangkaian penelitian teknik-teknik geoparsing dengan fokus penyelesaian skop resolusi peristiwa dengan empat kontribusi utama. Kontribusi pertama adalah perumusan dan implementasi sebuah model Geoparser ii Peristiwa (Event Geoparser) yang mengintegrasikan proses ekstraksi peristiwa (event extraction process) ke dalam workflow geoparsing reguler dalam tiga tahapan: 1) tahap geoparsing level toponim, 2) tahap ekstraksi peristiwa, dan 3) tahap geoparsing level peristiwa. Pada akhirnya model geoparser peristiwa yang diajukan mampu mengidentifikasi lokasi sejati dari peristiwa dengan mengenali entitas lokasi semu yang tidak presisi ataupun tidak lokatif. Geoparser ini diimplementasikan sebagai persoalan pelabelan urutan (sequence labeling problem) dengan menggunakan arsitektur LSTM-CRF, yang menggunakan LSTM sebagai word sequencing layer dan CRF untuk menangkap dependencies dari label yang berdekatan. Kontribusi kedua adalah Model Topik Teragregasi (Aggregated Topic Model / ATM) yang memudahkan eksplorasi keterkaitan semantik (semantic relatedness) dari token-token berdasarkan tag dokumen yang berjumlah sangat banyak. ATM mengatasi batasan konsumsi memori Labeled LDA dengan membagi korpus dalam partisi-partisi dan melakukan agregasi dari model topik yang dibangun dari masingmasing partisi. ATM menyediakan model topik yang digunakan bersama dengan vektor semantic similarity dari word embedding word2vec untuk menyusun semantic gazetteer berdasarkan tag-tag berjumlah sangat banyak (extreme multilabel classification) yang disediakan dari artikel, yang pada akhirnya digunakan untuk membangun handcrafted features untuk meningkatkan generalisasi model. Kontribusi ketiga adalah SMCD-ADM, yang merupakan algoritma resolusi toponim yang diturunkan dari spatial minimality (SM) dengan menggunakan metrik centroid distance dengan koefisien administrative (SMCD-ADM) untuk menggantikan metrik luas poligon untuk menghindari kasus degenerasi pada keperluan disambiguasi, sekaligus meningkatkan akurasi pada proses resolusi toponim (toponym resolution). Algoritma resolusi toponim SMCD-ADM berhasil menangani kasus degenerasi pada SM dan meningkatkan akurasi resolusi toponim sebesar 5,71% dibandingkan dengan SM. Kontribusi keempat adalah konstruksi korpora sebagai dataset untuk geoparsing ekstraksi peristiwa teranotasi dengan toponim terdisambiguasi dari koleksi news story dalam bahasa Indonesia. Korpus utama yang digunakan dalam penelitian ini merupakan korpus dengan toponim terdisambiguasi sekaligus mengandung anotasi ekstraksi peristiwa pertama dalam bahasa Indonesia yang dikonstruksi dari berbagai sumber berita online Indonesia dalam empat peristiwa utama: Gempa, Banjir, Kecelakaan dan Kebakaran. Korpus ini dibangun di atas korpus induk berlabel banyak yang terdiri atas 645.679 dokumen hasil proses crawling dari situs berita online. Kinerja geoparser peristiwa dikomparasi dengan baseline LSTM-CRF dengan fitur standard gazetteer dan part-of-speech tags untuk ekstraksi entitas, klasifikasi peristiwa dan klasifikasi argumen. Kombinasi fitur yang diuji berhasil meningkatkan kinerja weighted F-1 pada langkah ekstraksi entitas sebesar 2,46%, pada langkah ekstraksi peristiwa sebesar 10,76%, dan 13,88% pada langkah ekstraksi argumen. Selain itu, penggunaan fitur Smallest Administrative Level iii (SAL) dengan event labels dan event arguments dari tahapan sebelumnya mampu meningkatkan pengenalan entitas lokasi semu (pseudo-location) sebesar 23,43%. Sebagai implikasi dari metode ekstraksi peristiwa, model geoparser ini memiliki kemampuan mengekstrak argumen numerik maupun string yang terasosiasikan dengan peristiwa yang terjadi teks. Hal ini secara kualitatif mampu memperkaya hasil geoparsing untuk aplikasi pemetaan tematik. Dengan demikian, dari integrasi metode geoparsing dengan ekstraksi peristiwa dan identifikasi lokasi semu dan eksplorasi semantik, didapatkan peningkatan kualitas dan kuantitas dari metode inferensi peristiwa dan lokasinya dari teks.