Prediksi keaktifan cis-regulatory regions (CRRs) menggunakan neural network pada data
epigenomik penting untuk riset penyakit genetik. Namun, data dari proyek FANTOM
(Functional Annotation Of The Mammalian Genome) dan ENCODE (Encyclopedia Of DNA
Elements) masih tersebar dalam format mentah yang tidak terstruktur, sehingga analisis
menjadi lambat dan tidak efisien.
Penelitian ini merancang basis data epigenomik terstruktur menggunakan tiga model: MySQL
(relasional), Cassandra (kolumnar), dan MongoDB (dokumen), untuk dievaluasi dari sisi
kecepatan ekstraksi data. Eksperimen dilakukan dalam dua kondisi: terbatas dan produksi.
Pada kondisi terbatas, Cassandra menunjukkan kinerja rendah dibanding MySQL dan
MongoDB, sehingga tidak digunakan pada tahap production.
Dalam kondisi production, aplikasi web yang dikembangkan mendukung query data
epigenomik, pemilihan fitur dan lini sel, serta pelatihan model klasifikasi menggunakan
Feedforward Neural networks melalui batch streaming untuk mengatasi masalah memori.
MongoDB, dengan skema denormalisasi dan dukungan dokumen bersarang, secara konsisten
unggul dalam mengurangi waktu ekstraksi—hingga 100× lebih cepat pada skala kecil dan 12×
pada skala besar dibanding MySQL, serta 1,31× lebih cepat dibanding metode tanpa basis data.
Perpustakaan Digital ITB