digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Marco William Langi
PUBLIC Open In Flipbook Esha Mustika Dewi

Prediksi keaktifan cis-regulatory regions (CRRs) menggunakan neural network pada data epigenomik penting untuk riset penyakit genetik. Namun, data dari proyek FANTOM (Functional Annotation Of The Mammalian Genome) dan ENCODE (Encyclopedia Of DNA Elements) masih tersebar dalam format mentah yang tidak terstruktur, sehingga analisis menjadi lambat dan tidak efisien. Penelitian ini merancang basis data epigenomik terstruktur menggunakan tiga model: MySQL (relasional), Cassandra (kolumnar), dan MongoDB (dokumen), untuk dievaluasi dari sisi kecepatan ekstraksi data. Eksperimen dilakukan dalam dua kondisi: terbatas dan produksi. Pada kondisi terbatas, Cassandra menunjukkan kinerja rendah dibanding MySQL dan MongoDB, sehingga tidak digunakan pada tahap production. Dalam kondisi production, aplikasi web yang dikembangkan mendukung query data epigenomik, pemilihan fitur dan lini sel, serta pelatihan model klasifikasi menggunakan Feedforward Neural networks melalui batch streaming untuk mengatasi masalah memori. MongoDB, dengan skema denormalisasi dan dukungan dokumen bersarang, secara konsisten unggul dalam mengurangi waktu ekstraksi—hingga 100× lebih cepat pada skala kecil dan 12× pada skala besar dibanding MySQL, serta 1,31× lebih cepat dibanding metode tanpa basis data.