Protein pengikat DNA (DBP) merupakan salah satu kelompok protein yang melakukan banyak aktivitas biologi penting, antara lain: replikasi DNA, perbaikan kerusakan DNA, regulasi transkripsi, translasi, dan rekombinasi. Beberapa DBP telah digunakan sebagai target penting dalam pengembangan obat kanker, antibiotik, dan steroid. Oleh karena itu, identifikasi DBP menjadi sangat penting di bidang farmasi dalam pengembangan obat-obat baru yang menargetkan pengendalian kinerja protein dalam kelompok ini. Melalui kemajuan teknologi pengurutan DNA, data proteomik meningkat pesat di bank data. Namun, kurang dari 1% dari sekitar 200 juta protein di bank data yang telah memiliki anotasi, termasuk diantaranya DBP. Beberapa metode telah dikembangkan untuk mengidentifikasi DBP melalui penentuan struktur protein dalam bentuk kompleks dengan DNA untuk melakukan anotasi secara eksperimen, antara lain: teknik spektroskopi, kristalografi sinar-X dan resonansi magnetik nuklir (NMR). Namun, metode eksperimen memerlukan biaya relatif tinggi dan memakan waktu yang lama untuk menganotasi sekian banyak protein yang masuk dalam kategori DBP. Hal ini memotivasi banyak peneliti untuk mengembangkan metode komputasi otomatis dengan memanfaatkan urutan protein. Untuk memprediksi DBP berbasis urutan, penelitian-penelitian sebelumnya menggunakan teknik multiple sequence alignment (MSA) untuk mengekstraksi informasi evolusi (IE) yang mengaitkan kemiripan urutan tertentu dengan fungsi DBP. Mayoritas metode yang telah dikembangkan ini menggunakan metode komputasi berbasis pembelajaran mesin konvensional untuk memanfaatkan IE sebagai masukan. Namun, penggunaan IE yang berupa fitur kompleks memerlukan biaya komputasi tinggi terlebih lagi beberapa penelitian sebelumnya menggunakan teknik multi-ektraksi fitur IE yang menggunakan lebih dari satu variasi metode PSSM. Selain itu, pada metode pembelajaran mesin konvesional masih melibatkan intervensi manusia dan memiliki kinerja terbatas dalam memproses data dengan jumlah sampel yang besar. Kelemahan ini membuat proses prediksi belum bisa berjalan secara optimal.
Pada beberapa tahun terakhir, algoritma pembelajaran mendalam telah berhasil diterapkan untuk memprediksi protein dalam kelompok DBP secara otomatis. Metode pembelajaran mendalam yang telah digunakan dalam klasifikasi protein DBP antara lain jaringan saraf konvolusi (CNN) dan jaringan saraf berulang (RNN). CNN memiliki algoritma yang dapat mengekstrak fitur dengan berbagai tingkat kompleksitas dalam mengklasifikasikan protein. CNN dapat mengenali fitur sederhana di lapisan bawah dan fitur kompleks di lapisan lebih dalam, sedangkan RNN dapat menangkap fitur kontekstual dari rangkaian asam amino. Salah satu kekurangan dari algoritma pembelajaran mendalam adalah kinerjanya kurang optimal untuk dataset dengan jumlah sampel
yang kecil. Salah satu cara untuk mengatasi kelemahan ini adalah dengan memanfaatkan algoritma pembelajaran mendalam baru yang dikenal sebagai capsule network (CapsNet). CapsNet dirancang untuk mengatasi beberapa keterbatasan dalam pengenalan objek tradisional menggunakan CNN. Perbedaan utama CapsNet terletak pada kapsul yang merupakan unit dasarnya. CapsNet memiliki kemampuan untuk menangkap hubungan fitur antar kapsul menggunakan algoritma perutean dinamis. Metode ini telah berhasil diimplementasikan dalam banyak studi proteomik.
Selain itu, kemajuan pemrosesan bahasa alami (NLP) dan aksesibilitas superkomputer telah mendukung model bahasa pra-latih di bidang proteomik yang memungkinkan model untuk mempelajari pola, fungsi, dan struktur urutan. Model pra-latih ini memberikan informasi yang penting tentang urutan protein dalam bentuk embedding yang terbukti efektif dalam menyelesaikan berbagai tugas prediksi, seperti prediksi fungsi protein, protein, prediksi contact map, and prediksi interaksi protein-protein (PPI).
Atas dasar uraian di atas, pada penelitian ini mendesain dua pendekatan pembelajaran mendalam untuk memprediksi protein kelompok DBP dengan satu teknik representasi protein, menghilangkan proses intervensi manusia dalam proses pemilihan fitur, dan bekerja pada dua dataset dengan jumlah sampel yang berbeda. Metode pertama yang dilakukan adalah menggabungkan algoritma Bi-LSTM dan 1D-CapsNet dengan input one-hot encoding, yang disingkat dalam penelitian ini menjadi BiCaps-DBP. Metode kedua adalah dengan memanfaatkan arsitektur 1D-CapsNet dengan input protein sequence embedding (ProtT5, ESM-1b, dan ESM-2), yang disingkat menjadi EmbedCaps-DBP. Masukan untuk data latih dan data uji independen kedua metode di atas adalah urutan protein yang berasal dari dua dataset dengan sampel yang berbeda, yaitu: PDB14189-PDB2272 dan PDB1075-PDB186. Hasil simulasi BiCaps-DBP dan EmbedCaps-DBP (ProtT5) untuk dataset uji independen PDB2272, keduanya terbukti dapat meningkatkan akurasi masing-masing sebesar 1,05% dan 12,65%, dibandingkan dengan metode Target-DBPPred. Pada dataset uji independen PDB186, metode EmbedCaps-DBP (ProtT5) memberikan akurasi sebesar 84.73%. Hasil ini 0,33% lebih tinggi dibandingkan dengan metode HKAM-MKM yang menggunakan dataset yang sama. Target-DBPPred dan HKAM-MKM merupakan metode berbasis pembelajaran mesin konvensional yang menggunakan lebih dari tiga variasi metode PSSM. Hasil ini menunjukkan bahwa metode yang digunakan dalam penelitian ini lebih unggul dari kedua metode acuan.