Tesis Rifqi Naufal Abdjul mengembangkan CopBench, sebuah benchmark baru untuk mengevaluasi kemampuan model bahasa visual dalam penalaran fisika multimodal. CopBench mengukur bagaimana model menggunakan konsep fisika dalam menjawab soal fisika akademik dan olimpiade, serta kemampuan mereka dalam melakukan retrieval teorema relevan. Evaluasi dilakukan dengan membandingkan jawaban, menilai penggunaan konsep secara otomatis, dan mengukur kinerja retrieval. Hasil eksperimen menunjukkan model tertutup seperti GPT-4.1 Mini dan O4 Mini memiliki akurasi lebih tinggi dibandingkan model open-source, sementara Qwen3Embedding8B unggul dalam retrieval. CopBench diharapkan dapat menjadi alat untuk mengidentifikasi kelebihan dan kekurangan model bahasa besar dalam penalaran saintifik.