Hasil Ringkasan
25 Bab IV Hasil dan Pembahasan IV.1 Penyakit Kanker Payudara Dataset ini terdiri dari 699 entri dengan 10 parameter dan memiliki kelas yang mengklasifikasikan kanker payudara sebagai jinak (0) atau ganas (1). Berdasarkan grafik, didapatkan presentase sebesar 66% pasien terdiagnosis dengan kanker jinak dan 34% pasien terindikasi memiliki kanker ganas, dengan masing-masing jumlah pasien sebanyak 458 dan 241. Tahap preprocessing pada dataset kanker payudara menemukan terdapat data ganda sebanyak 8 data, sehingga jumlah data pada dataset kanker payudara menjadi 691 data dengan 453 data kanker payudara jinak dan 238 data kanker payudara ganas. Selanjutnya memeriksa nilai kosong pada dataset dengan menggunakan library python seperti pandas, Numpy, seaborn dan scikit learn. Gambar IV. 1 Nilai kosong yang terdapat pada dataset Kanker Payudara Pada dataset kanker payudara terdapat missing value sebanyak 16 data pada parameter Bare nuclei. Untuk menangani nilai kosong pada dataset tersebut akan dilakukan penghapusan parameter dan menghitung nilai pengganti dengan nilai mean. 26 Gambar IV. 2 Nilai matriks korelasi setiap parameter terhadap class pada penyakit kanker payudara 27 Tabel IV. 1 Nilai matriks korelasi setiap parameter terhadap class Parameter Nilai Class 1.00 Cell Size Uniformity 0.82 Cell Shape Uniformity 0.82 Bare Nuclei 0.82 Bland Chromatin 0.76 clump thickness 0.72 Normal Nuclei 0.72 Marginal Adhesion 0.70 Single Epithelial Cell Size 0.68 Mitoses 0.42 Id Number -0.08 Pada tabel IV.2 menunjukan nilai matriks korelasi semua parameter. Parameter Bare Nuclei yang mempunyai nilai kosong diisi dengan nilai mean. Parameter Id Number mempunyai nilai terendah -0.08 yang menunjukan bahwa parameter tersebut tidak mempunyai hubungan pada target, sehingga parameter dihilangkan. Parameter Mitosis mempunyai hubungan sedang terhadap target atau class yaitu sebesar 0.42. Parameter Cell Size uniformity, Cell Shape Uniformity dan Bare Nuclei mempunyai hubungan yang sangat kuat terhadap target class sebesar 0.82. Nilai korelasi pada parameter Id Number dan Mitosis tidak berubah meskipun terdapat parameter Bare nuclei maupun tidak. Nilai korelasi yang berubah pada parameter Normal Nuclei yaitu berubah 0.71 menjadi 0.72. Selanjutnya untuk proses pelatihan dataset dibagi menjadi 80% untuk data train dan 20% untuk data test. Hasil klasifikasi penyakit kanker payudara dengan berbagai parameter yang berbeda untuk mengetahui perfoma atau kinerja dari algoritma ditunjukan pada tabel dibawah ini: 28 Tabel IV. 2 Hasil klasifikasi penyakit kanker payudara dengan semua parameter kecuali Id Number Accuracy Precision Sensitivity F1-Score RF 0.96 0.93 1 0.96 LR 0.96 0.93 0.93 0.96 KNN 0.93 0.93 0.93 0.93 DT 0.87 0.81 0.95 0.8 NB 0.95 0.82 1 0.95 XGB 0.95 0.92 1 0.95 SVM 0.95 0.92 1 0.95 GB 0.94 0.91 0.97 0.94 AB 0.94 0.91 0.97 0.94 Pada tabel IV.2 hasil evaluasi kinerja model dikembangkan menggunakan model Random Forest (RF), Logistic Regression (LR), K-Nearest Neighbors (KNN), Decision Tree (DT), Naïve Bayes (NB), XGBoost (XGB), Support Vector Machine (SVM), Gradient Boosting Machine (GB) dan Adaptive Boosting Machine (AB) dengan semua parameter kecuali parameter Id Number. Menunjukan bahwa algoritma Random Forest dan Logistik Regression mempunyai nilai accuracy model tertinggi yaitu sebesar 0.96.