digilib@itb.ac.id +62 812 2508 8800

Integrasi basis data merupakan sebuah proses penggabungan dua atau lebih sumber data sehingga data yang terdapat pada setiap sumber data dapat diakses secara bersamaan. Integrasi antar basis data memungkinkan adanya konflik pada format, struktur, sintaks, dan semantik. Beberapa penyebab konflik tersebut adalah heterogenitas skema data dan semantik data. Terdapat dua metode pendekatan yang dapat diterapkan dalam melakukan integrasi basis data, yakni metode top-down design dan bottom-up design. Metode top-down design digunakan untuk basis data homogen yang terdistribusi, sedangkan metode bottom-up design untuk basis data heterogen. Penelitian ini menggunakan metode bottom-up design dalam integrasi basis data. Metode bottom-up design terjadi dalam dua langkah, yakni Schema Translation dan Schema Generation. Schema Translation merupakan proses menerjemahkan setiap skema sumber data ke dalam suatu representasi umum sehingga lebih mudah untuk dianalisis dan diproses, sedangkan Schema Generation bertujuan untuk membangun sebuah hubungan antara Skema Konseptual Lokal (SKL) dengan Skema Konseptual Global (SKG). Dalam membangun hubungan antara SKL dan SKG terdapat tiga tahapan yang dilakukan, yakni Schema Matching, Schema Integration dan Schema Mapping. Schema Matching merupakan proses mengidentifikasi hubungan antar elemen SKL, baik hubungan secara sintaksis maupun semantik. Schema Integration merupakan integrasi elemen skema umum ke dalam sebuah SKG. Tahap Schema Integration ini bertujuan untuk merancang sebuah SKG dari beberapa SKL. Schema Mapping merupakan proses hubungan antara SKG dengan SKL. Schema Mapping dilakukan dengan memetakan elemen SKG dengan elemen SKL. Secara garis besar, teknik Schema Matching (pencocokan skema) terdiri dari dua, yakni pendekatan pencocokan individu dan kombinasi. Teknik pencocokan skema secara individu dibagi menjadi dua pendekatan, yakni berbasis skema dan berbasis instance atau content (data). Pada teknik pencocokan secara individu, pendekatan berbasis skema (schema-based matcher) hanya mempertimbangkan informasi skema dari suatu basis data. Teknik pencocokan berbasis skema dapat digunakan pada level elemen dan struktur. Teknik pencocokan skema secara individu memiliki kelebihan dan kekurangan dalam penerapannya. Masingmasing teknik mungkin lebih cocok untuk beberapa kasus tertentu. Oleh karena itu, algoritma atau metodologi pencocokan yang lengkap perlu memanfaatkan lebih dari satu pencocokan individu. Teknik pencocokan skema secara kombinasi dapat dilakukan dengan dua cara, yakni secara hybrid atau composite. Pencocokan skema kombinasi secara hybrid menggabungkan pencocokan skema individu dalam satu algoritma, sedangkan pencocokan skema kombinasi secara composite menggunakan setiap matcher kepada elemen dari dua skema (atau instance) secara individu, mendapatkan nilai kesamaan individu, dan kemudian mereka menerapkan metode untuk menggabungkan nilai kemiripan ini. Penelitian ini mengusulkan pencocokan skema kombinasi secara hybrid, yakni menggunakan pencocokan skema individu berdasarkan linguistik (linguistic) dan constraint. Pencocokan skema berdasarkan linguistik dilakukan untuk membandingkan elemen pada sumber data yang diintegrasikan dengan menggunakan tiga algoritma, yakni N-Gram Similarity, Edit Distance (Levenshtein) dan Jaro-Distance. Pencocokan skema berdasarkan constraint digunakan pada indikator constraint seperti: tipe data properti, width tipe data dan constraint lainnya seperti nullable, unique dan key (primary key). Proses pencocokan skema secara hybrid ini digunakan untuk pembangunan query pada basis data yang heterogen. Query yang dibangun ini merepresentasikan semua sumber data, dan query ini disebut query global. Query global inilah yang kemudian ditulis ulang (query rewriting) sehingga memiliki skema yang sesuai dengan setiap sumber data. Jadi, penelitian ini dilakukan dengan tujuan menghasilkan query rewriting dengan pendekatan pencocokan skema kombinasi secara hybrid untuk integrasi basis data. Tahapan-tahapan untuk membangun query rewriting berdasarkan pencocokan skema kombinasi secara hybrid antara lain adalah: tahap pembangunan user-defined basis data leksikal, tahap ekstraksi skema sumber data, tahap identifikasi request, tahap identifikasi komponen query, tahap pembangunan query dan tahap akses data. Hasil pengujian menunjukkan bahwa fungsionalitas utama dari penelitian ini, yakni penanganan konflik struktur dan semantik dapat dipenuhi, meskipun terdapat beberapa kasus uji yang belum bisa ditangani. Proses query rewriting digunakan untuk mengakses basis data yang heterogen dengan menggunakan skema yang sesuai untuk setiap sumber data. Skema yang tepat ini didapatkan melalui identifikasi komponen query yang diusulkan.