在信息爆炸的时代,我们每天都要处理海量的多模态信息,从图片到文字,再到代码。如何快速准确地找到所需信息,成为了人工智能领域亟需解决的问题。近日,智源人工智能研究院带来了令人振奋的消息,他们成功研发并发布了三款达到SOTA(最先进水平)的多模态检索模型:BGE-VL-Screenshot、BGE-Code-v1和BGE-VL-v1.5。这些模型在各自擅长的领域取得了 significant breakthroughs,极大地提升了AI对代码、图文等复杂多模态信息的理解和检索能力。
BGE-VL-Screenshot 截屏也能轻松搜
你有没有遇到过这样的情况 截了一张图,想根据图片里的文字内容去搜索,却发现很难做到?或者想通过图片来找到相关的网页内容?智源的 BGE-VL-Screenshot 模型就是专门为了解决这个问题而生的。
这款模型 unique 的能力在于,它能够 understanding the semantic meaning of screenshot images。也就是说,它不仅仅是识别图片里的文字,更能理解这些文字在图片中的布局和含义,并将其与 natural language query 进行关联。
通过 BGE-VL-Screenshot,你可以用一段文字来描述截图中的内容,模型就能帮你找到相关的截图;反之,你也可以上传一张截图,让模型帮你找到相关的文字信息或者网页链接。这对于我们日常工作和学习中查找和整理信息提供了 extreme convenience。例如,你可以用一段文字描述某个网页的特点,然后通过截图来快速定位到那个网页。
BGE-Code-v1 代码理解的得力助手
对于程序员和开发者来说,理解和查找代码是 daily routine。传统的代码搜索往往依赖于关键字匹配,效果 sometimes not ideal。智源的 BGE-Code-v1 模型在代码理解和检索方面取得了 significant progress。
这款模型专注于理解自然语言描述与代码之间的关系。它能够 effective 地将自然语言问题或需求与相关的代码片段进行匹配。
BGE-Code-v1 可以根据你用中文或英文描述的功能需求,在 vast code repositories 中搜索并找到最相关的代码片段。Similarly,它也可以理解一段代码的功能,并用通俗易懂的自然语言进行解释。这对于代码复用、代码学习、代码错误排查等场景都具有 tremendous value,可以极大地提升开发效率。
BGE-VL-v1.5 更强的通用图文理解能力
智源的 BGE-VL-v1.5 模型则是一款通用性更强的图文理解模型。它在多种图文相关的下游任务上都展现出了 impressive performance,并且取得了 SOTA 成绩。
这款模型的核心能力在于 its sophisticated understanding of the relationship between images and text。它能够 both understand the content of an image and its corresponding text description,并能够 accurately match them。
BGE-VL-v1.5 可以用于各种图文检索任务,例如:
- 以文搜图 根据一段文字描述搜索相关的图片。
- 以图搜文 根据一张图片搜索相关的文字描述、文章或网页。
- 跨模态匹配 理解图片和文字之间的 deeper relationship,进行更 nuanced 的匹配。
这款模型的出色表现, further pushed the boundaries of general visual-language understanding,为构建更强大的多模态AI应用提供了坚实的基础。
智源模型的优势与意义
智源此次发布的三大 SOTA 模型, 不仅仅是技术上的突破,更 significant 的意义在于:
提升多模态检索效率与准确性
这三款模型在各自的细分领域都达到了当前的最优水平,这意味着它们能够以更高的效率和准确性完成多模态检索任务,帮助用户更快地找到所需信息。
为开发者提供强有力的工具
这些模型的发布, 为开发者提供了 powerful tools to build more intelligent and user-friendly multi-modal applications。例如,可以利用 BGE-Code-v1 开发更智能的代码助手,利用 BGE-VL-v1.5 开发更精准的图文搜索引擎。
推动多模态AI技术发展
智源在这些领域的持续投入和技术突破, undoubtedly 对整个多模态AI领域的发展起到了推动作用,也为未来的 research and application opened up new possibilities。
智源研究院此次发布的三大 SOTA 多模态检索模型, 在代码和图文理解方面展现出了 leading 的能力, 这无疑是人工智能领域的又一 important milestone。我们期待这些模型能够在实际应用中发挥更大作用,为我们的生活和工作带来更多便利。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译
评论 (0)
暂无评论,快来发表第一条评论吧!