腾讯开源 finLLM-Eval 解锁金融AI评测新范式

匿名作者
2026-01-20 12:0737

导语 面对金融行业对数据准确性的苛刻要求,腾讯近日开源了评测工具 finLLM-Eval。该工具首创“无 GroundTruth”评测法,利用 AI Agent 自动进行逻辑与事实核验,准确率高达 96%,为大模型在金融领域的安全落地提供了关键的一把“标尺”。

填补金融评测的真空

在容错率极低的金融领域,大模型的“幻觉”问题一直是阻碍其大规模应用的核心痛点。腾讯推出的 finLLM-Eval 正是为了解决这一行业难题。作为行业内首个专门针对金融场景设计的评测工具,它不仅填补了市场空白,更为高风险场景下的 AI 应用建立了一套标准化的质量控制体系。

finLLM-Eval 的核心优势在于其高度的专业性。它包含逻辑一致性与事实准确性等多个评测模块,能够自动化输出包括千字幻觉率、错误点分布在内的详尽报告。这使得金融机构在部署大模型前,能够对其风险边界有一个清晰、量化的认知。

Google_AI_Studio_2026-01-20T04_01_26.414Z.png

图源备注:图片由AI生成

告别繁琐人工 AgentAsJudger登场

finLLM-Eval 最大的技术突破在于引入了“AgentAsJudger”自动化评测机制。传统的金融数据评测往往依赖大量昂贵且低效的人工标注(GroundTruth),而腾讯的方案通过智能提取金融事实三要素——“标的 × 时间 × 指标”,实现了评测流程的自动化。

在这个系统中,AI Agent 扮演了裁判员的角色。它能自动提取事实点与逻辑链,并直接与内部金融数据库或相关上下文进行比对验证。实验数据显示,这一自动化流程的准确率已超过 96%。这不仅大幅降低了评测成本,更保证了评测结果的客观性与一致性。未来,随着对非金融指标核验能力的拓展,该工具工具有望成为金融科技基础设施的重要组成部分。 Google_AI_Studio_2026-01-20T04_01_31.408Z.png

图源备注:图片由AI生成

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译