digilib@itb.ac.id +62 812 2508 8800

Disertasi
PUBLIC karya

Penelitian disertasi ini membahas identifikasi relasi antar makalah ilmiah berbasis rhetorical citation yang diperoleh dengan menganalisis citation context yang terkandung dalam suatu kalimat sitasi. Pendekatan ini dikenal sebagai pendekatan berbasis citation context, dimana pendekatan ini adalah pendekatan yang lebih detil dibandingkan dua pendekatan sebelumnya yaitu pendekatan berbasis konten dan berbasis citation analysis. Kedua pendekatan relasi yang terakhir ini hanya dapat digunakan untuk mengidentifikasi relasi makalah berdasarkan tingkat kemiripan isi makalahnya. Saat ini, skema relasi makalah ilmiah yang dikembangkan berbasis citation context secara eksplisit baru dilakukan oleh Wang dkk. dimana relasi yang dihasilkan adalah relasi extend, criticize dan compare. Fitur utama yang digunakan Wang untuk mengidentifikasi relasi makalah ini tergolong sederhana yaitu fitur cue phrase. Fokus penelitian disertasi ini adalah mengembangkan metode ekstraksi fitur dan menghasilkan set fitur relasi makalah yang dapat mengidentifikasi relasi makalah Wang dengan lebih baik. Identifikasi relasi makalah dilakukan dengan mengklasifikasi setiap kalimat dengan menggunakan pendekatan supervised machine learning. Proses pengembangan fitur dilakukan secara bertahap, yaitu dimulai dari relasi extend, relasi criticize dan terakhir adalah relasi compare. Hasil penelitian menunjukkan setiap jenis relasi makalah memiliki fitur yang unik dan berbeda. Pada relasi extend, berhasil diperoleh beberapa fitur penting yaitu fitur kombinasi frasa dan fitur n-gram dengan top-N correlation. Pada relasi criticize, terdapat 5 kelompok fitur penting yaitu fitur adaptasi relasi extend, kombinasi cue phrase dengan citation, kombinasi cue phrase dengan previous citation, kombinasi cue phrase, dan conjunction dari beberapa fitur dasar. Pada relasi compare, terdapat tiga kelompok fitur penting yang dihasilkan yaitu fitur proportionWord, fitur probabilityWord dan fitur cuephraseWord. Proses pengembangan fitur dilakukan dengan mengamati pola yang muncul dalam setiap kalimat relasi. Meskipun dibandingkan baseline, fitur yang diusulkan tersebut memiliki kinerja yang lebih baik, tetapi dalam penelitian ini masih dijumpai beberapa permasalahan seperti masih tingginya nilai false prediction, konteks kalimat citation yang hilang (co-reference) dan lain sebagainya. Peningkatan kinerja F-Measure yang diperoleh ini berkisar dari 15-40 % dibandingkan menggunakan fitur baseline.