digilib@itb.ac.id +62 812 2508 8800

33216307 Ridwan Ilyas.pdf
PUBLIC Dessy Rondang Monaomi

Peneliti biasanya membuat kalimat sitasi di dalam makalah ilmiah dalam rangka menghargai penelitian lain, kaitannya sebagai perbandingan, persamaan atau pengembangan hasil yang sudah ada. Kalimat sitasi digunakan sebagai argumen ilmiah yang dapat menguatkan penelitian yang sedang dikerjakan. Dalam penulisan kalimat sitasi perlu adanya alternatif penulisan dengan kata yang berbeda namun tetap memiliki makna yang sama. Oleh karena itu teknik parafrase diperlukan dalam menulis kalimat sitasi. Parafrase dapat dibagi dalam tiga tugas utama. Pertama adalah ekstraksi parafrase yaitu aktivitas mengumpulkan pasangan kalimat parafrase dari kumpulan dokumen. Kedua adalah deteksi parafrase yaitu aktivitas mengukur dua pasang unit teks apakah parafrase atau tidak. Ketiga adalah pembangkitan parafrase yaitu aktivitas menghasilkan kalimat baru dari kalimat masukan. Pada penelitian ini semua tugas parafrase dijalankan dalam domain makalah ilmiah khususnya kalimat sitasi. Ekstraksi parafrasa dilakukan dengan cara mengekstraksi kalimat sitasi dari makalah. Kalimat sitasi dengan target sitasi yang sama dikelompokkan dengan teknik clustering. Setiap cluster yang terbentuk menjadi kandidat korpus sitasi dengan cara setiap kalimat dipasangkan satu sama lain. Hasil pembuatan kandidat korpus diberi label satu persatu oleh ahli sehingga dihasilkan korpus pasangan kalimat parafrase dan bukan parafrase. Jumlah pasangan kalimat yang telah diberi label sebanyak 4675 dengan jumlah kalimat parafrase 2386 dan jumlah kalimat yang tidak parafrase 2289. Deteksi parafrase dilakukan dengan cara membangun formula untuk mengukur derajat parafrase dua buah kalimat. Tahapan pembentukan formula ini dilakukan dengan dua tahap. Pertama adalah memilih komponen perhitungan dua buah kalimat untuk mengukur kesamaan semantik dan perbedaan leksikal. Kandidat komponen yang dipakai dalam penelitian ini antara lain Meteor, Meta Discourse dan Pinc Score. Kedua adalah memilih template fungsi objektif yang diisi dengan komponen perhitungan. Kandidat formula yang dipakai dalam penelitian ini antara lain Weighted Linear, Harmonic Means 2 dan Harmonic Means 3. Dari hasil penelitian, formula terbaik yang terbentuk adalah dengan Weight Linear dengan komponen pembentuk formula adalah Meteor dan Pinc Score. Hasil akhir formula yang terbentuk adalah PScore = 0,9 ? Meteor + (1 ? 0,9) Pinc. PScore adalah fungsi untuk mengukur nilai parafrase dua buah pasangan kalimat. Fungsi ini selain dipakai untuk melakukan deteksi parafrasa, dipakai sebagai fungsi objektif untuk memandu proses pembangkitan dengan algoritma Simulated annealing. ii Pembangkitan parafrase dilakukan dengan mengembangkan algoritma Simulated annealing. Algoritma ini dipilih karena dapat menghasilkan keluaran bersifat stokastik dan memiliki kemampuan keluar dari local minimum sehingga hasilnya konvergen terhadap fungsi objektif. Dengan menggunakan algoritma untuk pembangkitan teks maka diperlukan beberapa hal antara lain fungsi objektif, sumber daya bahasa untuk operasi perubahan teks dan strategi operasi. Fungsi objektif dibutuhkan untuk menilai apakah setiap state hasil operasi kalimat sudah lebih baik atau belum dari operasi sebelumnya. Dalam bagian penelitian deteksi parafrase telah ditemukan fungsi objektif yang optimal terhadap data set yang dimiliki. Oleh karena itu formula pengukur parafrase tersebut yang dipakai sebagai fungsi objektif. Operasi (state) dalam algoritma simulated annealing untuk pembangkitan teks dalam penelitian ini dilakukan dalam level leksikal. Operasi yang memungkikan antara lain substitusi, penambahan dan penghapusan. Operasi substitusi adalah mengganti unit teks dalam kalimat dengan unit teks lain. Operasi penambahan adalah menyisipkan uni teks baru dalam kalimat. Operasi penghapusan adalah menghilangkan unit teks tertentu dalam kalimat. Dalam operasi substitusi dan penambahan dibutuhkan sumber daya bahasa, dalam penelitian ini digunakan word2vec sebagai sumber daya bahasa pendukung yang dibentuk dari kumpulan kalimat pada makalah ilmiah. Kandidat kalimat baru dari hasil operasi substitusi dan penambahan bisa lebih dari satu, untuk memilih kandidat kalimat baru yang paling optimal dilakukan dengan cara menghitung peluang kemunculan susunan kalimat berdasarkan model bahasa N-Gram. Penelitian ini mengusulkan metode StoPGEN singkatan dari Stochastic Paraphrase Generator sebagai metode pembangkitkan kalimat sitasi. IV-21. Evaluasi juga dilakukan dengan membandingkan dengan metode yang lain seperti Variant Auto Encoder, Lagging Variant Auto Encoder, Metropolis Hastings, Unsupervised Simulated annealing, LSTM encoder-decoder, bidirectional LSTM dan Transformer. Evaluasi menggunakan korpus standar, StoPGEN menghasilkan nilai BLEU 6.26, Rouge 1 28.60 dan Rouge 2 8.75 pada data set twitter. StoPGEN menghasilkan nilai BLEU 22.37, Rouge 1 61.09 dan Rouge 2 40.79 pada data set Quora. Semua nilai tersebut mengungguli metode yang lain. Evaluasi menggunakan korpus sitasi, StopGEN menghasilkan BLEU 55.37, Rouge 1 71.28, Rouge 2 47.46 dan RougeL 66.32. Selain evaluasi kuantitatif, pada penelitian ini dilakukan juga evaluasi kualitatif. Evaluasi kualitatif dilakukan dengan cara melakukan survey penerimaan kalimat hasil pembangkitan. Survey pertama dilakukan dengan mengukur tingkat penerimaan hasil keluaran 3 varian metode StoPGEN. Hasilnya metode StoPGEN3 mendapatkan nilai penerimaan tertinggi dengan nilai 50.96. Survey kedua dilakukan dengan mengukur tingkat penerimaan keluaran metode StoPGEN dibandingkan dengan UPSA dan UPSA yang telah dimodifikasi sumberdaya bahasanya. Hasilnya metode StoPGEN mendapatkan tingkat penerimaan kalimat tertinggi dengan nilai 50.80.