谷歌发布开源LMEval框架:打破AI模型比较壁垒

boyanx2天前技术教程3

IT之家 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异,确保测试跨平台无缝运行。

LMEval 不仅支持文本评测,还涵盖图像和代码等领域的基准测试,且新输入格式可轻松扩展,框架支持是非题、多选题和自由文本生成等多种评估类型。同时,该框架能识别模型采用的“规避策略”,即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分,展示模型规避有害内容的表现,百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中,确保数据本地化且不会被搜索引擎索引,兼顾了隐私与便捷。

LMEval 具备增量评估功能,无需在新增模型或问题时重新运行整个测试,仅执行必要的新增测试即可,并采用多线程引擎并行处理多项计算,有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具,通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务,精准定位模型错误,并直接比较多个模型在特定问题上的差异,图形化展示一目了然。

标签: 谷歌api

相关文章

谷歌地图API的三大开源替代品

CSDN移动将持续为您优选移动开发的精华内容,共同探讨移动开发的技术热点话题,涵盖移动应用、开发工具、移动游戏及引擎、智能硬件、物联网等方方面面。如果您想投稿、寻求《近匠》报道,或给文章挑错,欢迎发送...

谷歌推I/O版Gemini 2.5 Pro模型,AI助力前端开发与复杂编程

IT之家 5 月 7 日消息,科技媒体 The Decoder 昨日(5 月 6 日)发布博文,报道称谷歌为预热今年的 I/O 全球开发者大会,发布“I/O Edition”特别预览版 Gemini...

谷歌首款混合推理Gemini 2.5成本暴降!思考模式一开,直追o4-mini

编辑:桃子 好困【新智元导读】谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思...

什么是 API,一文明白?

你有没有想过,你手机中的不同应用和服务是如何无缝地相互通信的,让你可以通过谷歌地图预订优步,或者在Facebook上分享你的最新推文?这一切都要归功于一种叫做API的东西,它代表应用程序编程接口。什么...

谷歌Imagen3:终于开放API调用!

谷歌开放最新的Imagen3的API调用。我们知道可以到Google Labs上免费用上Imagen3,但是他们一直没有开放API出来,给大家基于它来开发自己的APP。而谷歌这次的开放相信对开发者来说...

Google Play Services将更新7.0版本,推出Places、Fit 等API

谷歌将在未来几日内发布 Google Play services 7.0,这一版本主要的新特性如下:1、Places APIPOI(Point of Interest)功能是为方便用户识别地图,在地图...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。