Step-3-VL-10B

"Compact giant" outperforming models 20x its size (including GPT-4o on certain benchmarks) via fully unfrozen perception-decoder training.

Outputs 2

model

"Compact giant" outperforming models 20x its size (including GPT-4o on certain benchmarks) via fully unfrozen perception-decoder training.

Architecture DENSE

Parameters 10B

Released Jan 20, 2026 on HuggingFace.

paper

Focused on "Intrinsic Vision-Language Synergy."

multimodalefficiencyopen-weight