Molmo

Open multimodal VLM family with fully open training data (PixMo). Pioneered image pointing capabilities. Trained in two stages: dense captioning pre-training + supervised fine-tuning for QA, document reading, and pointing. Closes the gap between open and proprietary multimodal systems. Published at CVPR 2025.

Paper (arXiv)GitHub HuggingFace Artificial Analysis

Model Details

Architecture DENSE

AA Intelligence 4

Base model qwen2

Paper

Venue CVPR 2025

Citations 8

arXiv HTML

multimodalvisionopen-sourceopen-weight

Your notes

Model Details

Paper

Related