digilib@itb.ac.id +62 812 2508 8800

COVER Ade Romadhony
PUBLIC Alice Diniarti

BAB 1 Ade Romadhony
PUBLIC Alice Diniarti

BAB 2 Ade Romadhony
PUBLIC Alice Diniarti

BAB 3 Ade Romadhony
PUBLIC Alice Diniarti

BAB 4 Ade Romadhony
PUBLIC Alice Diniarti

BAB 5 Ade Romadhony
PUBLIC Alice Diniarti

PUSTAKA Ade Romadhony
PUBLIC Alice Diniarti

Ekstraksi informasi event yang dilakukan dengan mendefinisikan skema terlebih dahulu secara manual merupakan pekerjaan yang membutuhkan upaya besar. Oleh karena itu, muncul beberapa penelitian tentang pembangunan skema event secara otomatis. Pendekatan yang umumnya digunakan dalam pembangunan skema event secara otomatis adalah dengan memanfaatkan redundansi kemunculan kata-kata yang terkait dengan topik event tertentu. Pada data berukuran besar, pendekatan tersebut telah terbukti dapat menghasilkan skema secara otomatis dan dimanfaatkan untuk task terkait, seperti misalnya ekstraksi argumen event. Akan tetapi, pada kondisi redundansi kemunculan kata-kata yang menunjukkan pola tipe event tertentu sulit dijumpai pada koleksi dokumen, diperlukan tambahan informasi dari luar, antara lain dari basis pengetahuan. Dengan pemanfaatan informasi dari basis pengetahuan yang berisi ketarkaitan semantik antar kata, dapat diperoleh informasi tambahan untuk mengenali kata-kata yang menunjukkan tipe event. Pada penelitian ini, untuk membangun skema event, digunakan hasil ekstraksi sistem Open Information Extraction (Open IE), yang biasa disebut sebagai tuple relasi. Open IE adalah sebuah paradigma ekstraksi informasi yang menerapkan batasan seminimal mungkin untuk dapat mengekstrak bagian tertentu dari teks. Tuple relasi Open IE mempunyai struktur yang terdiri atas relasi/trigger dan argumen, dan mempunyai kemiripan dengan struktur representasi event yang banyak digunakan pada beberapa penelitian pembangunan skema event secara otomatis. Tuple relasi Open IE sebagai sebuah struktur antara juga telah terbukti mempunyai kinerja yang lebih baik dibanding struktur lainnya, pada task yang terkait dengan keterkaitan semantik. Kontribusi penelitian ini terletak pada pengembangan metode klasterisasi tuple relasi dengan pemanfaatan basis pengetahuan serta pengembangan metode untuk meningkatkan kualitas hasil ekstraksi Open IE pada tahap prapemrosesan masukan dan penambahan aturan ekstraksi. Pemanfaatan basis pengetahuan pada penelitian tentang pembangunan skema event berbasis klasterisasi belum pernah dilakukan sebelumnya. Klasterisasi tuple relasi berdasar keterkaitan semantik akan menghasilkan skema yang dapat dimanfaatkan sebagai kerangka untuk ekstraksi informasi. Metode yang diusulkan untuk pengelompokan tuple relasi dengan i menekankan pada kemiripan semantik yang tidak bergantung pada informasi yang diperoleh dari redundansi pada dokumen, karena metode tersebut tidak selalu dapat mengumpulkan tuple relasi dengan kemiripan semantik yang tinggi dalam kelompok yang sama, terutama jika hasil ekstraksi Open IE kurang lengkap dan mengandung noise. Pendefinisian metode klasterisasi dilakukan berdasar beberapa variasi penghitungan kemiripan, antara lain berdasar: statistika kemunculan katakata secara bersamaan, nilai kemiripan semantik dari basis pengetahuan WordNet, dan nilai kemiripan semantik dari statistika korpus yang lebih besar. Pemanfaatan basis pengetahuan juga dilakukan pada proses constrained clustering, dan filtering klaster berdasar klasifikasi argumen tuple relasi. Oleh karena dalam penelitian ini digunakan tuple relasi Open IE sebagai masukan dalam pembangunan skema, perlu dilakukan analisis kualitas hasil ekstraksi Open IE. Berdasarkan pemeriksaan pada hasil ekstraksi sistem Open IE yang sudah ada, terdapat peluang untuk peningkatan kualitas hasil ekstraksi dari sisi ketepatan dan kelengkapan. Untuk meningkatkan ketepatan dan kelengkapan hasil ekstraksi Open IE, dilakukan prapemrosesan pada masukan sistem Open IE dan modifikasi aturan ekstraksi. Prapemrosesan kalimat masukan Open IE dilakukan dengan cara penyederhanaan kalimat menggunakan metode berbasis aturan dengan fitur tanda baca, POSTag, dan jenis frase. Metode tersebut mempunyai tingkat kompleksitas yang rendah jika dibandingkan dengan penggunaan fitur yang lebih rumit misal tipe dependensi, namun mempunyai kinerja yang setara. Sementara dalam penambahan aturan ekstraksi relasi, kandidat aturan-aturan baru diperoleh dari proses pembelajaran dengan menggunakan metode decision tree. Fitur yang diusulkan dalam penambahan aturan ekstraksi adalah fitur tipe dependensi level kedua. Dengan adanya aturan ekstraksi dengan fitur tipe dependensi kedua tersebut, terbukti meningkatkan jumlah relasi relevan yang dapat diekstrak. Evaluasi skema yang dihasilkan dari klasterisasi tuple relasi dilakukan dengan mengadakan pengujian terhadap task identifikasi dan ekstraksi argumen event. Hasil pengujian menunjukkan bahwa skema yang dibangun dapat digunakan pada task ekstraksi argumen event pada dataset standar English Open Event Extraction (ASTRE), dan kinerjanya yang ditunjukkan oleh nilai precision, recall, dan F1 meningkat, dengan peningkatan F1 mencapai 46% dari sebesar 0,13 pada kondisi tanpa pemanfaatan basis pengetahuan. Sementara jika dibandingkan dengan kinerja penelitian state-of-the-art, sistem usulan mempunyai keunggulan di sisi precision, yaitu lebih tinggi 4,7% dibanding nilai tertinggi sebelumnya yaitu 0,21, namun terdapat beberapa argumen yang tidak berhasil diekstrak sehingga nilai recall dan F1 lebih rendah.