豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

在2024年12月18日的火山引擎 FORCE 原动力大会上，火山引擎宣布对豆包大模型家族进行全面升级，并重磅发布了全新的视觉理解模型。

火山引擎总裁谭待表示，豆包大模型的日均 tokens 使用量在过去几个月中迅猛增长，达到了超过4万亿，相较于5月发布时增长了33倍。这一增长趋势显示出豆包大模型在多个应用场景中的广泛使用。

本次，火山引擎通过推出视觉理解模型，使得用户能够同时输入文本和图像的问题，模型能够综合理解并给出准确的回答。这一创新将大大简化应用的开发流程，并激活大模型在更多场景下的潜力。

视觉理解模型具备更强的内容识别能力，不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。比如识别影子、识别自然知识等。

视觉理解模型具备更强的理解和推理能力，不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算，比如:图表推理、物理推理。

另外，还拥有更细腻的视觉描述能力，可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作，比如图像创作、图像诗歌创作等。

豆包视觉理解模型在教育、旅游和电商等多个领域展现出广泛的应用前景。例如，在教育方面，模型可以帮助学生优化作文和科普知识;在旅游方面，模型能为游客提供外文菜单的翻译和建筑背景知识的讲解;在电商营销中，它可以帮助商家详细描述商品特性，从而提高广告效果。

视觉理解模型的使用成本也十分亲民，每千 tokens 的价格为0.003元，较行业平均价格降低了85%。这一价格水平使得每一块钱可以处理多达284张720P 的图片，标志着视觉理解技术进入了 “厘时代”。此外，火山引擎还为企业和开发者提供了高达15，000次的初始流量支持，帮助他们更好地利用这一技术。

在此次大会上，火山引擎不仅发布了视觉理解模型，还对其他多个模型进行了升级。豆包通用模型 pro 的综合任务处理能力较5月提升了32%，而在推理、指令遵循、代码和数学等领域也分别有显著提升。同时，豆包・视频生成模型将于2025年1月对外开放服务，企业可以预约使用。

为了提升企业的信息获取和搜索推荐能力，火山引擎还推出了全域 AI 搜索服务，帮助企业更好地连接信息和用户需求，助力各行业的智能化转型。