Coronavirus disease 2019 (COVID-19) merupakan pandemi yang sedang
berlangsung saat ini. Secara umum, COVID-19 ditularkan melalui droplets yang
dihasilkan ketika orang yang terinfeksi batuk, bersin, atau menghembuskan napas.
Beberapa peneliti telah melakukan penelitian terkait suara batuk sebagai fitur
pembeda antara pengidap COVID-19 dan tidak. Dalam penelitian tesis ini penulis
mencoba memanfaatkan artificial intelligence untuk mengklasifikasikan COVID19 menggunakan rekaman batuk dengan menggunakan pemodelan shallow
learning. Metode ini dapat berfungsi sebagai alat untuk memprioritaskan seseorang
untuk mendapatkan diagnosis lebih lanjut, yaitu RT-PCR.
Pada penelitian ini, kontribusi yang dilakukan adalah mencoba berbagai ekstraksi
fitur yang berbeda, penanganan imbalanced data, dan beberapa teknik pemodelan
untuk mengklasifikasikan COVID-19 menggunakan rekaman batuk. Teknik
ekstraksi fitur yang dicoba diantaranya adalah Mel Frequency Cepstrum Coefficient
(MFCC), Non-negative Matrix Factorization on MFCC (NMF-MFCC), Nonnegative Matrix Factorization on spectrogram (NMF-spectrogram), dan log mel
spectrogram. Teknik penanganan imbalanced data yang digunakan adalah
undersampling, oversampling, dan Synthetic Minority Over-Sampling Technique
(SMOTE). Sedangkan teknik pemodelan yang dicoba adalah K-nearest neighbor
(KNN), Support Vector Machine (SVM), dan eXtreme Gradient Boosting
(XGBoost). Berdasarkan evaluasi dan analisis terhadap hasil eksperimen fitur
NMF-spectrogram cenderung menghasilkan performa yang lebih baik
dibandingkan dengan teknik ekstraksi fitur lainnya. Teknik penanganan
imbalanced data cenderung menghasilkan performa yang sama, sehingga teknik
undersampling lebih preferable jika dilihat dari sisi pemanfaatan memori dan
waktu pelatihan model. Pemodelan menggunakan XGBoost cenderung
menghasilkan performa yang terbaik, walaupun hasil terbaik didapatkan oleh model
SVM, tetapi pemodelan SVM menggunakan fitur MFCC-based selalu terjebak ke
dalam masalah overfitting, sehingga tidak dapat menggeneralisasi permasalahan
dengan baik. Berdasarkan hasil eksperimen hasil terbaik diperoleh menggunakan
kombinasi fitur NMF-Spectrogram, metode undersampling, dan SVM. Kombinasi
ini memberikan nilai sensitivity 90,9%, specificity 55,6% dan AUC-ROC 73,3%.