Pencilan adalah suatu titik data yang sangat ekstrim berbeda dari data lainnya.
Pencilan juga disebut sebagai ketidaknormalan, ketidaksesuaian, penyimpangan,
atau anomali dalam penambangan data dan literatur statistik. Deteksi pencilan
sangat penting untuk memperbaiki kualitas dataset dalam proses penemuan pengetahuan
ataupun dalam suatu pemodelan matematis. Aliran data (data stream) adalah
barisan titik data yang bersifat tidak pasti, dinamis, dan tak terbatas. Deteksi
pencilan pada aliran data tersebut dapat dilakukan secara offline learning dan
online learning. Offline learning, juga dikenal sebagai batch learning dalam
pembelajaran mesin, merupakan pendekatan dalam pembelajaran mesin yang
memproses semua data dalam satu waktu untuk membangun model, sedangkan
online learning merupakan pendekatan dalam pembelajaran mesin yang memperbarui
model secara inkremental. Namun, karena jumlah data pada aliran data
bersifat tidak terbatas maka seluruh aliran data membutuhkan waktu dan komputasi
yang besar. Sedangkan, deteksi pencilan secara offline pada aliran data memiliki
kelemahan yaitu waktu dan komputasi yang besar. Oleh karena itu, deteksi pencilan
pada aliran data lebih cocok menggunakan pendekatan online learning.
Penelitian ini bertujuan untuk mengembangkan algoritma deteksi pencilan online
pada aliran data dengan menerapkan algoritma rekursif yang memperkirakan
formula iteratif untuk memperbarui parameter pada model ketika muncul data baru
dan mendeteksi pencilannya. Modifikasi analisis multivariat Principal Component
Analysis (PCA) dipilih untuk deteksi pencilan karena data memiliki lebih dari satu
variabel yang mana adanya keterkaitan antar variabelnya, sensitivitas metode PCA
terhadap pencilan sangat memungkinkan metode ini mendeteksi variasi ekstrem
dalam data, dan adanya dekomposisi eigen dari matriks kovariansi data. Lebih
lanjut, karena estimasi parameter ini adalah hasil dekomposisi eigen dari matriks
kovariansi, maka penelitian ini menggunakan jarak Mahalanobis untuk menghitung
skor pencilan.
Penelitian ini mendesain algoritma deteksi pencilan dengan jarak Mahalanobis
dilakukan baik secara offline dan online. Algoritma offline tersebut merupakan
baseline dari algoritma online-nya. Perbedaannya adalah algoritma offline pada
penelitian ini didasarkan pada metode PCA klasik untuk memperbarui parameter
modelnya, sedangkan algoritma online ini didasarkan pada metode PCA rekursif termodifikasi untuk memperbarui parameter modelnya. Karena asumsi lain
dari penelitian ini adalah perubahan matriks kovariansi dari data yang datang
tidak berubah drastis, sehingga dekomposisi eigen diaproksimasi dengan analisis
perturbasi orde pertama. Untuk mengidentifikasi pencilan digunakan jarak
Mahalanobis sebagai skor pencilan. Lebih lanjut, algoritma deteksi pencilan
tersebut tidak hanya didesain untuk kedatangan satu titik data saja tetapi dikembangkan
pula untuk kedatangan data ukuran mini-batch. Jenis pencilan yang diidentifikasi
pada penelitian adalah pencilan global (point anomalies).
Simulasi dilakukan pada beberapa dataset sintetis dan sebuah video riil untuk
mensimulasikan algoritma deteksi pencilan offline dan online tersebut baik untuk
tipe kedatangan data satu titik dan tipe kedatangan data ukuran mini-batch. Hasil
simulasi penelitian ini menghasilkan kesimpulan bahwa pada dataset sintetik efektifitas
kinerja algoritma online sama dengan algoritma offline untuk kedatangan data
satu titik dan efektifitas kinerja algoritma online selisih absolutnya tidak lebih
besar dari 0.03 dengan algoritma offline untuk kedatangan data berukuran minibatch
yang lebih dari satu titik data. Kemudian, pada dataset riil efektifitas kinerja
algoritma online selisih absolutnya tidak lebih besar dari 0.25 dengan algoritma
offline baik untuk kedatangan data satu titik maupun data berukuran mini-batch,
sedangkan efisiensi kinerja algoritma online lebih tinggi dari algoritma offline baik
untuk kedatangan data satu titik maupun data berukuran mini-batch. Lebih lanjut,
dari kedua jenis dataset sintetis dan riil dapat disimpulkan pula untuk efisiensi
algoritma deteksi pencilan baik secara offline dan online untuk tipe kedatangan data
berukuran mini-batch adalah lebih tinggi dari tipe kedatangan data satu titik, dan
semakin besar ukuran mini-batch maka efisiensi algoritma deteksi pencilan semakin
tinggi.