digilib@itb.ac.id +62 812 2508 8800

Coronavirus disease 2019 (COVID-19) merupakan pandemi yang sedang berlangsung saat ini. Secara umum, COVID-19 ditularkan melalui droplets yang dihasilkan ketika orang yang terinfeksi batuk, bersin, atau menghembuskan napas. Beberapa peneliti telah melakukan penelitian terkait suara batuk sebagai fitur pembeda antara pengidap COVID-19 dan tidak. Dalam penelitian tesis ini penulis mencoba memanfaatkan artificial intelligence untuk mengklasifikasikan COVID19 menggunakan rekaman batuk dengan menggunakan pemodelan shallow learning. Metode ini dapat berfungsi sebagai alat untuk memprioritaskan seseorang untuk mendapatkan diagnosis lebih lanjut, yaitu RT-PCR. Pada penelitian ini, kontribusi yang dilakukan adalah mencoba berbagai ekstraksi fitur yang berbeda, penanganan imbalanced data, dan beberapa teknik pemodelan untuk mengklasifikasikan COVID-19 menggunakan rekaman batuk. Teknik ekstraksi fitur yang dicoba diantaranya adalah Mel Frequency Cepstrum Coefficient (MFCC), Non-negative Matrix Factorization on MFCC (NMF-MFCC), Nonnegative Matrix Factorization on spectrogram (NMF-spectrogram), dan log mel spectrogram. Teknik penanganan imbalanced data yang digunakan adalah undersampling, oversampling, dan Synthetic Minority Over-Sampling Technique (SMOTE). Sedangkan teknik pemodelan yang dicoba adalah K-nearest neighbor (KNN), Support Vector Machine (SVM), dan eXtreme Gradient Boosting (XGBoost). Berdasarkan evaluasi dan analisis terhadap hasil eksperimen fitur NMF-spectrogram cenderung menghasilkan performa yang lebih baik dibandingkan dengan teknik ekstraksi fitur lainnya. Teknik penanganan imbalanced data cenderung menghasilkan performa yang sama, sehingga teknik undersampling lebih preferable jika dilihat dari sisi pemanfaatan memori dan waktu pelatihan model. Pemodelan menggunakan XGBoost cenderung menghasilkan performa yang terbaik, walaupun hasil terbaik didapatkan oleh model SVM, tetapi pemodelan SVM menggunakan fitur MFCC-based selalu terjebak ke dalam masalah overfitting, sehingga tidak dapat menggeneralisasi permasalahan dengan baik. Berdasarkan hasil eksperimen hasil terbaik diperoleh menggunakan kombinasi fitur NMF-Spectrogram, metode undersampling, dan SVM. Kombinasi ini memberikan nilai sensitivity 90,9%, specificity 55,6% dan AUC-ROC 73,3%.