Penelitian disertasi ini membahas identifikasi relasi antar makalah ilmiah berbasis
rhetorical citation yang diperoleh dengan menganalisis citation context yang
terkandung dalam suatu kalimat sitasi. Pendekatan ini dikenal sebagai pendekatan
berbasis citation context, dimana pendekatan ini adalah pendekatan yang lebih detil
dibandingkan dua pendekatan sebelumnya yaitu pendekatan berbasis konten dan
berbasis citation analysis. Kedua pendekatan relasi yang terakhir ini hanya dapat
digunakan untuk mengidentifikasi relasi makalah berdasarkan tingkat kemiripan isi
makalahnya.
Saat ini, skema relasi makalah ilmiah yang dikembangkan berbasis citation context
secara eksplisit baru dilakukan oleh Wang dkk. dimana relasi yang dihasilkan
adalah relasi extend, criticize dan compare. Fitur utama yang digunakan Wang
untuk mengidentifikasi relasi makalah ini tergolong sederhana yaitu fitur cue
phrase. Fokus penelitian disertasi ini adalah mengembangkan metode ekstraksi
fitur dan menghasilkan set fitur relasi makalah yang dapat mengidentifikasi relasi
makalah Wang dengan lebih baik. Identifikasi relasi makalah dilakukan dengan
mengklasifikasi setiap kalimat dengan menggunakan pendekatan supervised
machine learning. Proses pengembangan fitur dilakukan secara bertahap, yaitu
dimulai dari relasi extend, relasi criticize dan terakhir adalah relasi compare.
Hasil penelitian menunjukkan setiap jenis relasi makalah memiliki fitur yang unik
dan berbeda. Pada relasi extend, berhasil diperoleh beberapa fitur penting yaitu fitur
kombinasi frasa dan fitur n-gram dengan top-N correlation. Pada relasi criticize,
terdapat 5 kelompok fitur penting yaitu fitur adaptasi relasi extend, kombinasi cue
phrase dengan citation, kombinasi cue phrase dengan previous citation, kombinasi
cue phrase, dan conjunction dari beberapa fitur dasar. Pada relasi compare, terdapat
tiga kelompok fitur penting yang dihasilkan yaitu fitur proportionWord, fitur
probabilityWord dan fitur cuephraseWord. Proses pengembangan fitur dilakukan
dengan mengamati pola yang muncul dalam setiap kalimat relasi.
Meskipun dibandingkan baseline, fitur yang diusulkan tersebut memiliki kinerja
yang lebih baik, tetapi dalam penelitian ini masih dijumpai beberapa permasalahan
seperti masih tingginya nilai false prediction, konteks kalimat citation yang hilang
(co-reference) dan lain sebagainya. Peningkatan kinerja F-Measure yang diperoleh
ini berkisar dari 15-40 % dibandingkan menggunakan fitur baseline.