digilib@itb.ac.id +62 812 2508 8800

Analisis senyawa kimia dan biologi umumnya menggunakan spektrum Raman karena sifatnya yang non destruktif. Sifat spektrum Raman yang unik seperti fingerprint dapat digunakan untuk menganalisis dan mengekstrak informasi spektra Raman suatu sampel. Namun, spektrum Raman yang diperoleh dapat memiliki noise latar belakang yang mempersulit analisis secara langsung. Tahap preprocessing dalam kemometri menjadi tahap yang sangat penting sebelum melakukan analisis lebih lanjut. Raman dapat dianalisis secara komputasional menggunakan metode kemometri statistik seperti principal component analysis dan regresi atau least squares untuk memperoleh kemampuan diskriminannya. Metode principal component analysis dapat mengekstrak informasi dan mereduksi dimensi dari spektrum Raman. Metode principal component analysis juga dapat mengurangi noise yang berasal dari principal component di luar principal component utama. Dari principal component utama spektrum Raman, metode regresi, least square, klasifikasi, atau clustering dapat digunakan untuk melakukan prediksi selanjutnya. Salah satu masalah yang sering dihadapi pelaku usaha atau pemerintah terkait produk makanan olahan daging atau lemak adalah menentukan kandungan daging atau lemak di dalamnya. Salah satu teknik yang sering digunakan adalah teknik reaksi berantai polymerase yang menargetkan deoxyribonucleic acid (DNA) dari sampel. Pada penelitian kali ini, spektrum Raman dari lemak hewan ayam, sapi, bebek, kambing, dan sapi digunakan untuk menganalisis kandungan lemak suatu sampel. Analisis dengan metode kemometri komputasional digunakan untuk menentukan model terbaik dalam memprediksi konsentrasi, jenis, dan kehalalan lemak hewan berdasarkan spektrum Raman suatu lemak hewan. Lemak hewan dilakukan 16 kali pengukuran tiap bagian area lemak hewan (top, mid, bottom) menggunakan spektroskopi Raman dengan variasi konsentrasi campuran lemak babi dengan non-babi dan variasi jenis lemak murni. Dataset spektrum Raman tersebut kemudian dibagi dengan rasio 85%:15% menggunakan pengambilan acak sebagai data latih dan data uji. Preprocessing dilakukan dengan menggunakan metode koreksi baseline asymmetric least square, metode smoothing Savitzky-Golay berderajat dua, dan spike removal modified Z-score. Principal component analysis diaplikasikan pada spektrum Raman yang telah dipreprocessing untuk memperoleh principal component utama. Dengan menggunakan principal component dari principal component analysis (PCA), model regresi dibentuk untuk melakukan prediksi konsentrasi lemak hewan, memprediksi jenis lemak hewan (untuk spektrum data Raman dengan konsentrasi 100% pada satu tipe lemak), dan memprediksi kehalalan lemak hewan. Untuk prediksi jenis lemak hewan dan kehalalan lemak hewan, karena termasuk masalah klasifikasi, maka keluaran dari model regresi perlu ditransformasi atau dipetakan dengan fungsi argmax dan fungsi biner (dengan threshold nol). Model regresi yang digunakan adalah model linear, decision tree, random forest, dan k-nearest neighbor. Dengan menggunakan principal component dari principal component analysis (PCA), model klasifikasi juga dibentuk untuk melakukan prediksi jenis lemak hewan (untuk spektrum data Raman dengan konsentrasi 100% pada satu tipe lemak) dan memprediksi kehalalan lemak hewan. Classifier yang digunakan adalah regresi logit, decision tree, random forest, k-nearest neighbor (KNN), dan support vector machine (SVM). Berdasarkan spektrum Raman kelima hewan tersebut, model regresi k-nearest neighbor dengan lima principal component merupakan model terbaik untuk memprediksi konsentrasi tiap lemak hewan suatu sampel dengan nilai mean absolute error sebesar 0,031 atau 3,1% pada data latih dan 0,039 atau 3,9% pada data uji. Namun, model regresi k-nearest neighbor kurang cocok untuk memprediksi kehalalan suatu sampel, karena nilai konsentrasi lemak babi perlu bernilai nol untuk suatu sampel sedangkan galat prediksi rata-rata di angka 3,9%. Model klasifikasi support vector machine dengan lima principal component merupakan model terbaik untuk memprediksi jenis dan kehalalan lemak suatu hewan, dengan nilai skor F1 sebesar satu untuk prediksi jenis lemak suatu hewan dan nilai skor F1 sebesar 0,97 untuk prediksi kehalalan lemak suatu hewan. Namun, nilai skor F1 yang bernilai satu menandakan adanya indikasi terjadinya overfitting terhadap data. Indikasi tersebut perlu diuji dengan menambah variasi konsentrasi lemak hewan campuran, sehingga model support vector machine dapat diuji kemampuan generalisasi datanya.