






Ekstraksi informasi event yang dilakukan dengan mendefinisikan skema terlebih
dahulu secara manual merupakan pekerjaan yang membutuhkan upaya besar. Oleh
karena itu, muncul beberapa penelitian tentang pembangunan skema event secara
otomatis. Pendekatan yang umumnya digunakan dalam pembangunan skema event
secara otomatis adalah dengan memanfaatkan redundansi kemunculan kata-kata
yang terkait dengan topik event tertentu. Pada data berukuran besar, pendekatan
tersebut telah terbukti dapat menghasilkan skema secara otomatis dan dimanfaatkan
untuk task terkait, seperti misalnya ekstraksi argumen event. Akan tetapi,
pada kondisi redundansi kemunculan kata-kata yang menunjukkan pola tipe event
tertentu sulit dijumpai pada koleksi dokumen, diperlukan tambahan informasi dari
luar, antara lain dari basis pengetahuan. Dengan pemanfaatan informasi dari basis
pengetahuan yang berisi ketarkaitan semantik antar kata, dapat diperoleh informasi
tambahan untuk mengenali kata-kata yang menunjukkan tipe event.
Pada penelitian ini, untuk membangun skema event, digunakan hasil ekstraksi
sistem Open Information Extraction (Open IE), yang biasa disebut sebagai tuple
relasi. Open IE adalah sebuah paradigma ekstraksi informasi yang menerapkan
batasan seminimal mungkin untuk dapat mengekstrak bagian tertentu dari teks.
Tuple relasi Open IE mempunyai struktur yang terdiri atas relasi/trigger dan
argumen, dan mempunyai kemiripan dengan struktur representasi event yang
banyak digunakan pada beberapa penelitian pembangunan skema event secara
otomatis. Tuple relasi Open IE sebagai sebuah struktur antara juga telah terbukti
mempunyai kinerja yang lebih baik dibanding struktur lainnya, pada task yang
terkait dengan keterkaitan semantik.
Kontribusi penelitian ini terletak pada pengembangan metode klasterisasi tuple
relasi dengan pemanfaatan basis pengetahuan serta pengembangan metode untuk
meningkatkan kualitas hasil ekstraksi Open IE pada tahap prapemrosesan masukan
dan penambahan aturan ekstraksi. Pemanfaatan basis pengetahuan pada penelitian
tentang pembangunan skema event berbasis klasterisasi belum pernah dilakukan
sebelumnya. Klasterisasi tuple relasi berdasar keterkaitan semantik akan
menghasilkan skema yang dapat dimanfaatkan sebagai kerangka untuk ekstraksi
informasi. Metode yang diusulkan untuk pengelompokan tuple relasi dengan
i
menekankan pada kemiripan semantik yang tidak bergantung pada informasi yang
diperoleh dari redundansi pada dokumen, karena metode tersebut tidak selalu
dapat mengumpulkan tuple relasi dengan kemiripan semantik yang tinggi dalam
kelompok yang sama, terutama jika hasil ekstraksi Open IE kurang lengkap dan
mengandung noise. Pendefinisian metode klasterisasi dilakukan berdasar beberapa
variasi penghitungan kemiripan, antara lain berdasar: statistika kemunculan katakata
secara bersamaan, nilai kemiripan semantik dari basis pengetahuan WordNet,
dan nilai kemiripan semantik dari statistika korpus yang lebih besar. Pemanfaatan
basis pengetahuan juga dilakukan pada proses constrained clustering, dan filtering
klaster berdasar klasifikasi argumen tuple relasi.
Oleh karena dalam penelitian ini digunakan tuple relasi Open IE sebagai masukan
dalam pembangunan skema, perlu dilakukan analisis kualitas hasil ekstraksi Open
IE. Berdasarkan pemeriksaan pada hasil ekstraksi sistem Open IE yang sudah
ada, terdapat peluang untuk peningkatan kualitas hasil ekstraksi dari sisi ketepatan
dan kelengkapan. Untuk meningkatkan ketepatan dan kelengkapan hasil ekstraksi
Open IE, dilakukan prapemrosesan pada masukan sistem Open IE dan modifikasi
aturan ekstraksi. Prapemrosesan kalimat masukan Open IE dilakukan dengan cara
penyederhanaan kalimat menggunakan metode berbasis aturan dengan fitur tanda
baca, POSTag, dan jenis frase. Metode tersebut mempunyai tingkat kompleksitas
yang rendah jika dibandingkan dengan penggunaan fitur yang lebih rumit misal tipe
dependensi, namun mempunyai kinerja yang setara. Sementara dalam penambahan
aturan ekstraksi relasi, kandidat aturan-aturan baru diperoleh dari proses pembelajaran
dengan menggunakan metode decision tree. Fitur yang diusulkan dalam
penambahan aturan ekstraksi adalah fitur tipe dependensi level kedua. Dengan
adanya aturan ekstraksi dengan fitur tipe dependensi kedua tersebut, terbukti
meningkatkan jumlah relasi relevan yang dapat diekstrak.
Evaluasi skema yang dihasilkan dari klasterisasi tuple relasi dilakukan dengan
mengadakan pengujian terhadap task identifikasi dan ekstraksi argumen event.
Hasil pengujian menunjukkan bahwa skema yang dibangun dapat digunakan pada
task ekstraksi argumen event pada dataset standar English Open Event Extraction
(ASTRE), dan kinerjanya yang ditunjukkan oleh nilai precision, recall, dan F1
meningkat, dengan peningkatan F1 mencapai 46% dari sebesar 0,13 pada kondisi
tanpa pemanfaatan basis pengetahuan. Sementara jika dibandingkan dengan kinerja
penelitian state-of-the-art, sistem usulan mempunyai keunggulan di sisi precision,
yaitu lebih tinggi 4,7% dibanding nilai tertinggi sebelumnya yaitu 0,21, namun
terdapat beberapa argumen yang tidak berhasil diekstrak sehingga nilai recall dan
F1 lebih rendah.