Saat ini penelitian penggunaan pembelajaran mesin dalam bidang kesehatan
khususnya dalam bidang kedokteran semakin berkembang, ditambah dukungan
regulasi yang ada. Kebutuhan akan analisis data yang akurat dan tepat waktu terkait
masalah kesehatan menjadi sangat penting untuk pencegahan dan pengobatan
penyakit. Tetapi kebanyakan dari penelitian tersebut secara spesifik berfokus pada
penggunaan pembelajaran mesin untuk memprediksi penyakit tertentu saja atau
hanya menggunakan satu atau dua jenis data rekam medis pasien. Sementara jumlah
golongan penyakit sangat banyak dan regulasi yang ada khususnya di Indonesia,
bahwa penegakan penyakit pasien adalah wewenang dari tenaga medis (dokter).
Dokter dalam menegakkan penyakit pasien membutuhkan data rekam medis pasien
yang komprehensif. Task kecerdasan buatan yang bisa mengatasi permasalahan
tersebut adalah sistem pemberi rekomendasi dengan pendekatan output multiclass
yang bisa memberikan output top-n penyakit pasien. Content-based filtering (CBF)
adalah pendekatan dalam sistem pemberi rekomendasi yang membutuhkan atribut-
atribut data yang lengkap, dan data rekam medis bisa memenuhi kebutuhan itu.
Data rekam medis pasien memiliki atribut-atribut (feature) yang banyak dengan
tipe data yang beragam. Fitur-fitur data rekam medis tersebut tidak semuanya
berkontribusi terhadap penyakit pasien. Oleh karena itu perlu dibangun sebuah
model algoritma untuk memilih fitur-fitur yang berkontribusi terhadap penyakit
pasien. Kombinasi algoritma Light Gradient Boosting Machine (LightGBM) dan
SHapley Additive exPlanations (SHAP) adalah salah satu metode yang bisa
menghitung nilai kontribusi dari setiap fitur terhadap class target dan algoritma K-
Nearest Neighbors (K-NN) dengan similarity/distance metric yang berbeda sesuai
tipe data bisa mengatasi nilai fitur yang beragam. Penelitian ini mengusulkan model
sistem pemberi rekomendasi diagnosis pasien dengan pendekatan CBF dan
multiclass, kombinasi LightGBM dan SHAP untuk menghitung nilai kontribusi
setiap fitur, dan algoritma K-NN dengan similarity/distance metric Euclidean dan
Jaccard untuk memprediksi penyakit. Secara umum, model yang diusulkan ini
menghasilkan kinerja yang lebih baik dari model rujukan lainnya dengan accuracy
sebesar 82,19% dan f1-score sebesar 82,38%.