Drug-drug interactions (DDI) terjadi ketika dua atau lebih obat digunakan
bersamaan dan bereaksi dalam tubuh, menyebabkan efek yang tidak terduga dan
berbahaya. Identifikasi DDI memerlukan dataset spesifik seperti DDI Extraction
2013, namun jumlah publikasi riset yang terus bertambah tanpa anotasi data yang
cepat membuat proses ini menantang. Teknik machine learning, terutama deep
learning, dapat digunakan untuk mengekstraksi dan mengidentifikasi DDI secara
efisien dari literatur biomedis. Meskipun demikian, ketidakseimbangan kelas dalam
dataset tetap menjadi masalah signifikan yang mempengaruhi kinerja model.
Penelitian ini memperkenalkan BFT-GBRET yang merupakan kombinasi dari
metode augmentasi data menggunakan Pretrained Language Model (PLM)
BioGPT-2 dan Generative Adversarial Network (GAN) untuk mengatasi masalah
ketidakseimbangan kelas dalam tugas ekstraksi DDI. Penelitian ini
mengidentifikasi celah dalam beberapa penelitian imbalance handler dan
mengusulkan peningkatan performa melalui augmentasi data yang dihasilkan oleh
PLM serta penggunaan data tidak berlabel dalam proses semi-supervised learning
dengan GAN. Kombinasi PLM dan GAN dapat menghasilkan data baru yang
berkualitas tinggi dan sangat mirip dengan data asli, meningkatkan kemampuan
model dalam mengenali dan mengekstraksi interaksi obat dari teks biomedis.
BioGPT-2 digunakan untuk augmentasi data, menghasilkan data tambahan dari data
berlabel dan tidak berlabel, yang memperkaya set data pelatihan. Data ini kemudian
diproses secara semi-supervised menggunakan GAN-BERT, memungkinkan model
belajar dari distribusi data yang lebih kompleks dan realistis, sehingga
meningkatkan kualitas data dan kemampuan generalisasi model. Hasil evaluasi
menunjukan bahwa BFT-GBRET memiliki kinerja yang unggul dibandingkan
beberapa baseline, dengan peningkatan signifikan pada metrik Micro F1-score
untuk kelas minor. Skor Micro F1-score pada oversampling sebagai model
imbalance handler baseline terbaik adalah 0.8311, sementara BFT-GBRET
mencapai 0.8482. Pendekatan ini menunjukan potensi besar untuk diterapkan lebih
luas dalam tugas-tugas NLP di bidang biomedis.