Analisis senyawa kimia dan biologi umumnya menggunakan spektrum Raman
karena sifatnya yang non destruktif. Sifat spektrum Raman yang unik seperti
fingerprint dapat digunakan untuk menganalisis dan mengekstrak informasi spektra
Raman suatu sampel. Namun, spektrum Raman yang diperoleh dapat memiliki
noise latar belakang yang mempersulit analisis secara langsung. Tahap
preprocessing dalam kemometri menjadi tahap yang sangat penting sebelum
melakukan analisis lebih lanjut.
Raman dapat dianalisis secara komputasional menggunakan metode kemometri
statistik seperti principal component analysis dan regresi atau least squares untuk
memperoleh kemampuan diskriminannya. Metode principal component analysis
dapat mengekstrak informasi dan mereduksi dimensi dari spektrum Raman. Metode
principal component analysis juga dapat mengurangi noise yang berasal dari
principal component di luar principal component utama. Dari principal component
utama spektrum Raman, metode regresi, least square, klasifikasi, atau clustering
dapat digunakan untuk melakukan prediksi selanjutnya.
Salah satu masalah yang sering dihadapi pelaku usaha atau pemerintah terkait
produk makanan olahan daging atau lemak adalah menentukan kandungan daging
atau lemak di dalamnya. Salah satu teknik yang sering digunakan adalah teknik
reaksi berantai polymerase yang menargetkan deoxyribonucleic acid (DNA) dari
sampel. Pada penelitian kali ini, spektrum Raman dari lemak hewan ayam, sapi,
bebek, kambing, dan sapi digunakan untuk menganalisis kandungan lemak suatu
sampel. Analisis dengan metode kemometri komputasional digunakan untuk
menentukan model terbaik dalam memprediksi konsentrasi, jenis, dan kehalalan
lemak hewan berdasarkan spektrum Raman suatu lemak hewan.
Lemak hewan dilakukan 16 kali pengukuran tiap bagian area lemak hewan (top,
mid, bottom) menggunakan spektroskopi Raman dengan variasi konsentrasi
campuran lemak babi dengan non-babi dan variasi jenis lemak murni. Dataset
spektrum Raman tersebut kemudian dibagi dengan rasio 85%:15% menggunakan
pengambilan acak sebagai data latih dan data uji. Preprocessing dilakukan dengan menggunakan metode koreksi baseline asymmetric least square, metode smoothing
Savitzky-Golay berderajat dua, dan spike removal modified Z-score. Principal
component analysis diaplikasikan pada spektrum Raman yang telah dipreprocessing untuk memperoleh principal component utama.
Dengan menggunakan principal component dari principal component analysis
(PCA), model regresi dibentuk untuk melakukan prediksi konsentrasi lemak hewan,
memprediksi jenis lemak hewan (untuk spektrum data Raman dengan konsentrasi
100% pada satu tipe lemak), dan memprediksi kehalalan lemak hewan. Untuk
prediksi jenis lemak hewan dan kehalalan lemak hewan, karena termasuk masalah
klasifikasi, maka keluaran dari model regresi perlu ditransformasi atau dipetakan
dengan fungsi argmax dan fungsi biner (dengan threshold nol). Model regresi yang
digunakan adalah model linear, decision tree, random forest, dan k-nearest
neighbor.
Dengan menggunakan principal component dari principal component analysis
(PCA), model klasifikasi juga dibentuk untuk melakukan prediksi jenis lemak
hewan (untuk spektrum data Raman dengan konsentrasi 100% pada satu tipe lemak)
dan memprediksi kehalalan lemak hewan. Classifier yang digunakan adalah regresi
logit, decision tree, random forest, k-nearest neighbor (KNN), dan support vector
machine (SVM).
Berdasarkan spektrum Raman kelima hewan tersebut, model regresi k-nearest
neighbor dengan lima principal component merupakan model terbaik untuk
memprediksi konsentrasi tiap lemak hewan suatu sampel dengan nilai mean
absolute error sebesar 0,031 atau 3,1% pada data latih dan 0,039 atau 3,9% pada
data uji. Namun, model regresi k-nearest neighbor kurang cocok untuk
memprediksi kehalalan suatu sampel, karena nilai konsentrasi lemak babi perlu
bernilai nol untuk suatu sampel sedangkan galat prediksi rata-rata di angka 3,9%.
Model klasifikasi support vector machine dengan lima principal component
merupakan model terbaik untuk memprediksi jenis dan kehalalan lemak suatu
hewan, dengan nilai skor F1 sebesar satu untuk prediksi jenis lemak suatu hewan
dan nilai skor F1 sebesar 0,97 untuk prediksi kehalalan lemak suatu hewan. Namun,
nilai skor F1 yang bernilai satu menandakan adanya indikasi terjadinya overfitting
terhadap data. Indikasi tersebut perlu diuji dengan menambah variasi konsentrasi
lemak hewan campuran, sehingga model support vector machine dapat diuji
kemampuan generalisasi datanya.