MeasureBench | Lab Index

Benchmark for evaluating VLMs on visual measurement instrument reading across 26 instrument types and four readout designs. Contains 2,442 image-question pairs (1,272 real-world + 1,170 synthetic). Reveals that the best model (Gemini 2.5 Pro) reaches only 30.3% overall accuracy on real images, showing measurement reading remains a challenging fine-grained vision task. Identifies indicator localization as a consistent failure mode.

Paper (arXiv)GitHub Project page

benchmarkevaluationmultimodal

Related