digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Hansel Noble Lawrence
PUBLIC Dwi Ary Fuziastuti

Penyakit kardiovaskular merupakan salah satu penyumbang terbesar kematian global yang dapat langsung menyerang secara tidak terduga, tanpa adanya gejala medis. Karenanya, penting sekali bagi sektor kesehatan untuk bisa mendeteksi lebih awal penyakit kardiovaskular, terutama pada individu yang sudah memiliki faktor risiko atau mengalami indikasi tertentu. Mengingat keterbatasan kemampuan manusia, teknologi tentu sudah berkembang hingga ke sektor kesehatan, khususnya pembelajaran mesin yang kini sudah tidak asing lagi dan kerap dimanfaatkan untuk membangun model prediksi penyakit kardiovaskular berdasarkan data rekam medis pasien. Maka dari itu, akan dilakukan studi untuk membandingkan penerapan model regresi logistik dan pohon keputusan, beserta dengan metode data resampling Tomek Links, SMOTETomek, dan SMOTE-NC dalam memprediksi penyakit kardiovaskular. Penggunaan regresi logistik dan pohon keputusan ditujukan untuk membandingkan performa antara metode pembelajaran mesin yang paling sederhana dan populer, tentunya dengan mempertimbangkan kemampuan keduanya yang baik dalam menghadapi dataset yang kecil, sekaligus meminimalkan risiko overfitting pada model. Sementara, metode resampling SMOTE-NC, Tomek Links, dan SMOTETomek digunakan untuk membandingkan pengaruh teknik oversampling, undersampling, dan kombinasi antara keduanya terhadap proses training model dan hasil prediksi penyakit kardiovaskular. Dalam Tugas Akhir ini, digunakan dataset publik bersumber dari Kaggle yang memuat sejumlah 303 data rekam medis pasien dari rumah sakit di area Cleveland dan VA Long Beach (Amerika Serikat), Hungaria, dan Switzerland. Akan dilakukan penyeimbangan distribusi kelas data dan dibangun model-model prediksi, berturut-turut dengan ketiga metode resampling dan kedua metode pembelajaran mesin di atas, untuk kemudian dievaluasi menggunakan confusion matrix dan indikator akurasi, presisi, recall, serta F1-score. Berdasarkan hasil studi ini, diperoleh bahwa untuk dataset yang digunakan, metode data resampling SMOTE-NC dan model pohon keputusan merupakan yang terbaik dalam memprediksi penyakit kardiovaskular.