digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flip Book Dessy Rondang Monaomi

Drug-drug interactions (DDI) terjadi ketika dua atau lebih obat digunakan bersamaan dan bereaksi dalam tubuh, menyebabkan efek yang tidak terduga dan berbahaya. Identifikasi DDI memerlukan dataset spesifik seperti DDI Extraction 2013, namun jumlah publikasi riset yang terus bertambah tanpa anotasi data yang cepat membuat proses ini menantang. Teknik machine learning, terutama deep learning, dapat digunakan untuk mengekstraksi dan mengidentifikasi DDI secara efisien dari literatur biomedis. Meskipun demikian, ketidakseimbangan kelas dalam dataset tetap menjadi masalah signifikan yang mempengaruhi kinerja model. Penelitian ini memperkenalkan BFT-GBRET yang merupakan kombinasi dari metode augmentasi data menggunakan Pretrained Language Model (PLM) BioGPT-2 dan Generative Adversarial Network (GAN) untuk mengatasi masalah ketidakseimbangan kelas dalam tugas ekstraksi DDI. Penelitian ini mengidentifikasi celah dalam beberapa penelitian imbalance handler dan mengusulkan peningkatan performa melalui augmentasi data yang dihasilkan oleh PLM serta penggunaan data tidak berlabel dalam proses semi-supervised learning dengan GAN. Kombinasi PLM dan GAN dapat menghasilkan data baru yang berkualitas tinggi dan sangat mirip dengan data asli, meningkatkan kemampuan model dalam mengenali dan mengekstraksi interaksi obat dari teks biomedis. BioGPT-2 digunakan untuk augmentasi data, menghasilkan data tambahan dari data berlabel dan tidak berlabel, yang memperkaya set data pelatihan. Data ini kemudian diproses secara semi-supervised menggunakan GAN-BERT, memungkinkan model belajar dari distribusi data yang lebih kompleks dan realistis, sehingga meningkatkan kualitas data dan kemampuan generalisasi model. Hasil evaluasi menunjukan bahwa BFT-GBRET memiliki kinerja yang unggul dibandingkan beberapa baseline, dengan peningkatan signifikan pada metrik Micro F1-score untuk kelas minor. Skor Micro F1-score pada oversampling sebagai model imbalance handler baseline terbaik adalah 0.8311, sementara BFT-GBRET mencapai 0.8482. Pendekatan ini menunjukan potensi besar untuk diterapkan lebih luas dalam tugas-tugas NLP di bidang biomedis.