digilib@itb.ac.id +62 812 2508 8800

Abstrak
PUBLIC karya

Perkembangan pesat ekstraksi informasi (IE) di web semantik telah mengarah pada pembangunan basis pengetahuan ensiklopedi (KB) yang besar. KB adalah kumpulan pengetahuan yang berisi jutaan fakta tentang entitas dunia nyata seperti orang, organisasi, dan tempat. KB berperan penting saat ini karena memungkinkan komputer untuk ”memahami” dunia nyata. KB digunakan dalam banyak aplikasi sistem temu kembali informasi, sistem tanya jawab, reasoning otomatis, dan bidang-bidang lainnya. Selain itu, kebanyakan informasi yang tersedia di KB saat ini memungkinkan ditemukannya pola yang sering muncul dalam data, salah satunya adalah penambangan aturan asosiasi. Aturan asosiasi dapat digunakan untuk menghasilkan fakta baru, mengidentifikasi kesalahan, dan memahami data dengan lebih baik. Aturan asosiasi dapat ditambang menggunakan representasi graf. Permasalahan penelitian penambangan aturan asosiasi pola graf antara lain adalah cara penambangan aturan asosiasi, ukuran aturan asosiasi, dan lain sebagainya. Dalam disertasi ini permasalahan aturan asosiasi yang dibahas adalah: menambang aturan horn tertutup (horn-closed) menggunakan pola graf di bawah OWA, misleading aturan asosiasi, dan adanya simpul yang sama atau homogen. Untuk mengatasi masalah tersebut, dilakukan penelitian dengan tiga tahapan. Tahapan pertama untuk menyelesaikan penambangan aturan horn tertutup menggunakan pola graf diusulkan algoritma RGGP (Rule Generated Graph Pattern). Tahapan kedua menyelesaikan misleading aturan asosiasi adalah menggunakan ukuran ketertarikan aturan asosiasi. Lift PCA confidence diusulkan sebagai ukuran ketertarikan di bawah OWA. Algoritma RGKB (Rule Generated Knowledge Base) diusulkan untuk mendapatkan ukuran ketertarikan lift PCA confidence. Tahapan ketiga menyelesaikan simpul yang sama atau homogen dengan cara menggunakan fungsi optimasi dua variabel diversifikasi max-sum untuk mendapatkan nilai optimum aturan asosiasi berdasarkan ukuran ketertarikan dan keragaman. Lift PCA confidence merupakan pengembangan dari lift confidence dan diusulkan untuk mengukur ketertarikan aturan asosiasi pola graf pada basis pengetahuan dengan model korelasi probabilistik. Setelah menambang aturan horn tertutup, dilakukan pengukuran kepercayaan (confidence measure) aturan asosiasi pola graf dengan dua ukuran kekuatan: standard confidence dan PCA confidence serta dua ukuran ketertarikan yaitu lift confidence dan lift PCA confidence. Algoritma Rule Generated KB (RGKB) digunakan untuk menghasilkan aturan asosiasi dengan nilai coverage coefisien (CC) lebih besar dari batas ambang (? ). Pengukuran ketertarikan aturan asosiasi dilakukan menggunakan algoritma confidence measure. Basis data graf yang digunakan adalah Yago2 KB, DBPedia 3.8, dan Wikidata. Optimasi keragaman aturan asosiasi dilakukan dengan menggunakan diversifikasi max-sum terhadap aturan asosiasi pola graf dengan consequent yang sama.