热点

刷榜跑分？AI评测不应走偏路线

时间：2024-03-22 10:23 来源：中国经济网阅读量：15387

“百模大战”以来，AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的，经常是一些名不见经传的国产大模型，它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

之所以令人大跌眼镜，是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅，实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯，那么更讽刺的是，有的大模型根本没对业界开放，就算大家想感受一下“第一名”的风采都找不到门路。

有人可能会好奇:一些AI大模型“高分低能”是怎么做到的？原因其实很简单，那就是评测中出现了数据污染和泄露。简单来说，榜单排名类似于有第三方“考官”出了一个题库，题库中大量考题针对性测评大模型各个方面的能力，而有的“考生”提前拿到题库，并把答案逐一背了下来。

“考高分”的目的也很明确，那就是投机取巧、炒作包装。业内人士告诉记者，在国内众多大模型激烈竞争、良莠不齐的当下，许多大模型还未在用户之间形成过硬的口碑，离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一，学术化榜单和市场化榜单都得到了广泛重视，刷榜跑分因此成为一些企业快速吸引眼球的手段。

当然，榜单失真的背后，不只有作弊的“考生”，也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真，“考官”如果协助“考生”作弊，无疑会扰乱AI大模型的评测环境。所幸我们看到，部分榜单在遇到刷榜跑分问题后，及时推出补救措施，例如将公开大模型和非公开大模型区分为两张榜单，成功挤出大量非公开大模型的水分。

是金非金焰烈而晓，部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话，关键核心技术要不来、买不来、讨不来，更包装不来，唯有一步一个脚印，扎扎实实地向前走。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

怎么选购电动叉车呢？易工机械分享几个要点

电动叉车是现代物流行业中的重要设备之一，与传统的燃油叉车相比，它具有更好的环保性、低噪音、更低的维护成本、操作简便、节省时间和更高的安全性等优势。但在选购电动叉车时，需要考虑以下几个方面：一、载货能力叉车的载货能力是一个非常重要的指标。在选...
不断创“芯”，亚略特为行业高质量发展提供

近日，由深圳市芯片行业协会联合凤凰网举办的“新时代芯未来“全球芯片产业链发展高峰论坛在深圳前海万科国际会议中心成功召开。亚略特作为杰出企业代表之一受邀参与了此次峰会，并凭借在多模态生物识别核心技术上的不断创新，以及芯片研发领域的持续突破，获...
我国5G基站总数达238.4万个

工信部发布2023年1—2月份通信业经济运行情况。截至2月末，我国5G基站总数达238.4万个，占移动基站总数的21.9%，5G网络建设稳步推进。数据显示，1—2月份，信息通信行业整体运行平稳。电信业务收入和业务总量稳步增长，云计算等新兴业...
灵感来自中国：俄罗斯电视台首次推出AI女

这年头，连女主播都可能不是真人了。据看看新闻KNEWS报道，俄罗斯南部斯塔夫罗波尔地区的一家电视台推出了一位AI天气预报女播报员，她亮相2次后就圈粉无数。3月22日SvoyoTV电视台首播了名为ldquo;未来预测rdquo;的新节目，最引...

热点

刷榜跑分？AI评测不应走偏路线

怎么选购电动叉车呢？易工机械分享几个要点

不断创“芯”，亚略特为行业高质量发展提供

我国5G基站总数达238.4万个

灵感来自中国：俄罗斯电视台首次推出AI女