digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi Ringkasan

Penalaran multimodal saintifik pada fisika memerlukan integrasi teks, gambar, dan pengetahuan konsep, namun benchmark sering hanya menilai jawaban akhir tanpa menelusuri proses penalaran atau kemampuan retrieval. Tesis ini memperkenalkan CoPBench, benchmark yang mengukur penggunaan konsep fisika pada jawaban penalaran dan retrieval teorema relevan dalam soal. CoPBench mencakup 478 soal fisika akademik dan olimpiade, yang didapatkan dari sumber terbuka di internet. Benchmark CoPBench mengevaluasi kemampuan model menjawab permasalahan fisika dengan tiga situasi yaitu, tanpa konsep, dengan konsep, dan dengan bantuan hasil retrieval oleh model encoder. Evaluasi dilakukan melalui penyocokan jawaban, penilaian penggunaan konsep otomatis, serta dense passage retrieval dengan metrik recall@k. Eksperimen pada tujuh model (lima open-source, dua closed-source) menunjukkan GPT-4.1 mini dan o4 mini unggul dengan akurasi pilihan ganda 62-66% (10-14 poin lebih tinggi dari open-source terbaik), dan konteks konsep menambah akurasi ~3%. Pada retrieval, Qwen3-Embedding-8B meraih recall@5 tertinggi 70,5%. CoPBench merupakan benchmark yang dapat digunakan untuk memetakan kelebihan dan kekurangan LLM dalam penalaran multimodal saintifik.