digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flip Book Dessy Rondang Monaomi

Pada kondisi ekstrem (temperatur tinggi, pH terlalu asam/basa, salinitas tinggi) protein dapat mengalami denaturasi akibat terputusnya interaksi non-kovalen yang menstabilkan konformasi natif protein hingga menyebabkan hilangnya fungsi. Namun, ada kelompok protein yang diisolasi dari bakteri ekstremofilik (termofilik, halofilik, asidofilik, dan alkalifilik) yang mampu bertahan pada kondisi ekstrem sesuai dengan habitatnya. Stabilitas protein ekstremofil ini menarik minat para peneliti karena dapat dimanfaatkan untuk mengkatalisis proses-proses di industri, khususnya yang melibatkan proses pada kondisi temperatur tinggi, kadar garam tinggi, asam/basa dan kondisi ekstrim lainnya. Disamping diisolasi dari bakteri ekstremofilik, protein ekstremofil juga dapat diperoleh dari hasil rekayasa. Untuk dapat mentransformasi protein biasa menjadi ekstremofil diperlukan informasi tentang fitur dari asam amino penyusun protein yang harus diubah. Saat ini diantara berbagai macam protein ekstremofil, baru protein termofil yang telah intensif dipelajari diikuti dengan halofil sedangkan protein ektremofil lainnya masih belum banyak dipelajari karena terbatasnya dataset yang tersedia. Penelitian untuk mengidentifikasi protein termofilik dan halofilik menggunakan pendekatan in silico sebagai alternatif terhadap metode eksperimen yang memakan waktu dan memerlukan biaya tinggi. Metode in silico menggunakan berbagai fitur yang diekstrak dari urutan asam amino dan dipilih secara manual (hand crafted features) untuk menjadi input bagi model machine learning. Proses ekstraksi yang membutuhkan waktu, perlunya keahlian di bidang proteomik, dan adanya unsur subjektifitas membuat skalabilitas pendekatan hand crafted features rendah. Pendekatan deep learning saat ini mampu menghasilkan kinerja yang baik dalam melakukan klasifikasi maupun prediksi lainnya, tapi pendekatan ini dianggap black box yang hasil klasifikasinya sulit untuk diinterpretasikan. Padahal, selain mengidentifikasi protein ektremofil, para peneliti di bidang rekayasa protein juga membutuhkan informasi fitur-fitur unik yang menyebabkan protein mampu bertahan di kondisi yang ektrem sebagai basis untuk melakukan desain dan rekayasa protein. Penelitian ini berusaha mengatasi kendala keterbatasan data dan pemilihan fitur manual dengan mengadopsi pendekatan transfer learning dari domain pemrosesan bahasa alami (NLP). Penggunaan embeddings dari pre-trained protein language model (pLM) ataupun fine-tuning pre-trained pLM dalam domain proteomik dan klasifikasi berbasis neural network berhasil meningkatkan kinerja model dalam mengidentifikasi protein ekstremofilik, meskipun dataset yang digunakan terbatas. Dengan memanfaatkan 2.596 protein termofilik, 5.018 protein halofilik, 1.002 protein alkalifilik, dan 4.089 protein acidofilik, model yang menggunakan embeddings sebagai input menunjukkan nilai akurasi, F1, dan MCC yang cukup tinggi. Model terbaik untuk klasifikasi termofilik mencapai 0,98;0,98;0,96; Halofilik 0,92; 0,94; 0,8; Alkalifilik 0,89; 0,84; 0,75; Asidofilik 0,9;0,93;0,75 masing-masing untuk nilai akurasi, F1, dan MCC secara berurutan. Hasil penelitian juga menunjukkan raw embedding mampu menangkap sifat termofil, halofil, alkalifil, dan acidofil protein saat pre-training. Perbandingan model embeddings dengan fine-tuned model menunjukkan bahwa supervised fine-tuned pLM meningkatkan kinerja model. Untuk tugas klasifikasi multi-class, fine-tune model ProtT5 mencapai akurasi 0,70 dan F1-score 0,57 dibandingkan dengan model embeddings dengan nilai akurasi 0,67 dan F1-score 0,53. Selain mengidentifikasi protein ekstremofilik, penelitian ini juga berupaya menginterpretasikan model klasifikasi dan mendapatkan fitur-fitur penting penentu keputusan model. Metode DeepSHAP yang menggunakan Shapley Value digunakan untuk menginterpretasikan model klasifikasi yang menggunakan deep learning dengan arsitektur yang relatif kompleks. Hasil interpretasi menunjukkan hasil yang selaras dengan penelitian berbasis eksperimen. Hasil interpretasi ini berkontribusi untuk menjembatani kesenjangan antara kompleksitas model deep earning dan pemahaman manusia, memfasilitasi pengembangan model yang lebih dapat dipercaya dan dapat diinterpretasikan dalam penelitian proteomik.