Penalaran multimodal saintifik pada fisika memerlukan integrasi teks, gambar, dan
pengetahuan konsep, namun benchmark sering hanya menilai jawaban akhir tanpa
menelusuri proses penalaran atau kemampuan retrieval. Tesis ini memperkenalkan
CoPBench, benchmark yang mengukur penggunaan konsep fisika pada jawaban
penalaran dan retrieval teorema relevan dalam soal.
CoPBench mencakup 478 soal fisika akademik dan olimpiade, yang didapatkan dari
sumber terbuka di internet. Benchmark CoPBench mengevaluasi kemampuan
model menjawab permasalahan fisika dengan tiga situasi yaitu, tanpa konsep,
dengan konsep, dan dengan bantuan hasil retrieval oleh model encoder. Evaluasi
dilakukan melalui penyocokan jawaban, penilaian penggunaan konsep otomatis,
serta dense passage retrieval dengan metrik recall@k.
Eksperimen pada tujuh model (lima open-source, dua closed-source) menunjukkan
GPT-4.1 mini dan o4 mini unggul dengan akurasi pilihan ganda 62-66% (10-14
poin lebih tinggi dari open-source terbaik), dan konteks konsep menambah akurasi
~3%. Pada retrieval, Qwen3-Embedding-8B meraih recall@5 tertinggi 70,5%.
CoPBench merupakan benchmark yang dapat digunakan untuk memetakan
kelebihan dan kekurangan LLM dalam penalaran multimodal saintifik.
Perpustakaan Digital ITB