Pada kondisi ekstrem (temperatur tinggi, pH terlalu asam/basa, salinitas tinggi)
protein dapat mengalami denaturasi akibat terputusnya interaksi non-kovalen yang
menstabilkan konformasi natif protein hingga menyebabkan hilangnya fungsi.
Namun, ada kelompok protein yang diisolasi dari bakteri ekstremofilik (termofilik,
halofilik, asidofilik, dan alkalifilik) yang mampu bertahan pada kondisi ekstrem
sesuai dengan habitatnya. Stabilitas protein ekstremofil ini menarik minat para
peneliti karena dapat dimanfaatkan untuk mengkatalisis proses-proses di industri,
khususnya yang melibatkan proses pada kondisi temperatur tinggi, kadar garam
tinggi, asam/basa dan kondisi ekstrim lainnya.
Disamping diisolasi dari bakteri ekstremofilik, protein ekstremofil juga dapat
diperoleh dari hasil rekayasa. Untuk dapat mentransformasi protein biasa menjadi
ekstremofil diperlukan informasi tentang fitur dari asam amino penyusun protein
yang harus diubah. Saat ini diantara berbagai macam protein ekstremofil, baru
protein termofil yang telah intensif dipelajari diikuti dengan halofil sedangkan
protein ektremofil lainnya masih belum banyak dipelajari karena terbatasnya
dataset yang tersedia. Penelitian untuk mengidentifikasi protein termofilik dan
halofilik menggunakan pendekatan in silico sebagai alternatif terhadap metode
eksperimen yang memakan waktu dan memerlukan biaya tinggi. Metode in silico
menggunakan berbagai fitur yang diekstrak dari urutan asam amino dan dipilih
secara manual (hand crafted features) untuk menjadi input bagi model machine
learning. Proses ekstraksi yang membutuhkan waktu, perlunya keahlian di bidang
proteomik, dan adanya unsur subjektifitas membuat skalabilitas pendekatan hand
crafted features rendah. Pendekatan deep learning saat ini mampu menghasilkan
kinerja yang baik dalam melakukan klasifikasi maupun prediksi lainnya, tapi
pendekatan ini dianggap black box yang hasil klasifikasinya sulit untuk
diinterpretasikan. Padahal, selain mengidentifikasi protein ektremofil, para peneliti
di bidang rekayasa protein juga membutuhkan informasi fitur-fitur unik yang
menyebabkan protein mampu bertahan di kondisi yang ektrem sebagai basis untuk
melakukan desain dan rekayasa protein.
Penelitian ini berusaha mengatasi kendala keterbatasan data dan pemilihan fitur
manual dengan mengadopsi pendekatan transfer learning dari domain pemrosesan
bahasa alami (NLP). Penggunaan embeddings dari pre-trained protein language
model (pLM) ataupun fine-tuning pre-trained pLM dalam domain proteomik dan
klasifikasi berbasis neural network berhasil meningkatkan kinerja model dalam
mengidentifikasi protein ekstremofilik, meskipun dataset yang digunakan terbatas.
Dengan memanfaatkan 2.596 protein termofilik, 5.018 protein halofilik, 1.002
protein alkalifilik, dan 4.089 protein acidofilik, model yang menggunakan
embeddings sebagai input menunjukkan nilai akurasi, F1, dan MCC yang cukup
tinggi. Model terbaik untuk klasifikasi termofilik mencapai 0,98;0,98;0,96;
Halofilik 0,92; 0,94; 0,8; Alkalifilik 0,89; 0,84; 0,75; Asidofilik 0,9;0,93;0,75
masing-masing untuk nilai akurasi, F1, dan MCC secara berurutan. Hasil penelitian
juga menunjukkan raw embedding mampu menangkap sifat termofil, halofil,
alkalifil, dan acidofil protein saat pre-training. Perbandingan model embeddings
dengan fine-tuned model menunjukkan bahwa supervised fine-tuned pLM
meningkatkan kinerja model. Untuk tugas klasifikasi multi-class, fine-tune model
ProtT5 mencapai akurasi 0,70 dan F1-score 0,57 dibandingkan dengan model
embeddings dengan nilai akurasi 0,67 dan F1-score 0,53.
Selain mengidentifikasi protein ekstremofilik, penelitian ini juga berupaya
menginterpretasikan model klasifikasi dan mendapatkan fitur-fitur penting penentu
keputusan model. Metode DeepSHAP yang menggunakan Shapley Value
digunakan untuk menginterpretasikan model klasifikasi yang menggunakan deep
learning dengan arsitektur yang relatif kompleks. Hasil interpretasi menunjukkan
hasil yang selaras dengan penelitian berbasis eksperimen. Hasil interpretasi ini
berkontribusi untuk menjembatani kesenjangan antara kompleksitas model deep
earning dan pemahaman manusia, memfasilitasi pengembangan model yang lebih
dapat dipercaya dan dapat diinterpretasikan dalam penelitian proteomik.