digilib@itb.ac.id +62 812 2508 8800

Proses discovery sebagai bagian utama dalam proses mining bertujuan untuk menghasilkan sebuah model dari sebuah event log. Event log merupakan rangkaian aktifitas dari proses bisnis yang selama ini dieksekusi dan terekam didalam sebuah Sistem Informasi. Event log saat ini digunakan untuk menganalisa keadaan yang ada saat ini di sebuah perusahaan. Hal ini merupakan salah satu tujuan dari proses mining. Akan tetapi penerapan proses mining di dunia nyata ternyata sering kali memiliki masalah. Varian dari proses bisnis yang sangat besar membuat model yang dihasilkan oleh proses discovery ini menjadi sulit untuk dipahami. Untuk menangani permasalahan ini diusulkan sebuah solusi untuk mempartisi atau membagi event log kedalam kelompok yang memiliki kemiripan. Metode ini dikenal sebagai sequence clustering. Sequence clustering merupakan proses tambahan yang dilakukan sebelum proses discovery dilakukan. Penerapan sequence clustering ini terbukti dapat menyajikan model yang dihasilkan oleh proses discovery ini menjadi lebih sederhana. Pada penelitian sebelumnya First Order Markov Chain digunakan sebagai metode untuk melakukan clustering. Setiap Cluster ini direpresentasikan oleh matriks transisi. Karena cluster data sebelumnya belum diketahui, para peneliti menggunakan metode Expectation Maximization untuk menentukan matriks transisi bagi setiap cluster. Setiap sequence dipetakan kedalam cluster berdasarkan nilai probabilitas yang paling tinggi. Akan tetapi setelah dilakukan pengujian pada hasil clustering ditemukan bahwa nilai fitness dan precision dari model proses yang dihasilkan sering kali mengalami penurunan, jika dibandingkan dengan model proses yang berasal dari event log yang tidak melalui proses clustering. Oleh karena itu pada tesis ini dikembangkan sebuah metodologi sequence clustering yang dapat meningkatkan nilai fitness dan precision. Metode K-Means dipilih sebagai metode yang digunakan untuk melakukan clustering. Penerapan K-Means pada sequence clustering mampu meningkatkan nilai fitness dan precision dari sebuah model yang dihasilkan dari tahap proses discovery. Akan tetapi, penentuan jumlah cluster yang optimal menjadi hal penting untuk diperhatikan. Salah dalam menentukan jumlah cluster, dapat berakibat pada menurunnya nilai fitness dan precision dari model yang dihasilkan.