程序员自制开源AI评分工具,衡量大模型“愚蠢程度”
创始人
2025-09-18 13:16:06
0

IT之家 9 月 18 日消息,程序员 ionutvi 今天发布了名为 AI Benchmark Tool 的 AI 评分工具,可衡量各大 AI 模型的“愚蠢程度”,帮助代码工作者选择最准确性最佳、更具性价比的 AI 工具。

ionutvi 表示,他在使用 ChatGPT、Grok、Claude 等 AI 大模型时经常发现,有时候这些模型第一天工作正常,但第二天就会“降智”,做相同的任务时胡乱回答,有时候干脆拒绝回答相同问题,很多人认为这只是自己的问题但这实际上官方有意降低了模型的性能,毕竟 Anthropic 官方就承认过这个问题。

因此他制作了这款 AI 评分工具,它可以自动在多款大模型运行 140 项编程、调试和优化任务,从准确性、拒绝回答率、回答时间、稳定性等方面衡量 AI 模型的“愚蠢程度”,并根据评分自动排名。

并且这名开发者还结合了各家的 AI 模型的价格综合评比,让用户知道每款模型的使用成本,有的 AI 模型看起来很便宜,但可能需要迭代 10 次才能得到能用的答案;而有的模型虽然价格比较高,但只要迭代两三次就能得到能用的版本,这种情况下稍贵的那款模型性价比就更高。

IT之家附该工具开源链接如下:

相关内容

热门资讯

山东一块巨石神似千里马走红,成... 大象新闻2026-01-16 12:53:41近日,青岛西海岸新区大珠山景区内,一块天然形成的“马”...
2025年北京接待入境游客54... 财联社1月16日电,记者16日从北京市文化和旅游局获悉,2025年北京共接待入境游客548万人次,同...
“AI+心理健康” 守护学生成... 2025年5月25日,在福州大学心理嘉年华活动上,学生在参与心理学仪器测试及互动体验。 新华社记者 ...
“多点发力”打造“消费新场景+... 原标题:“多点发力”打造“消费新场景+特色文旅名片” 古城焕发新活力更具“烟火气”央视网消息:“十五...
会畅科技新增“AI应用”概念 ... 2026年1月12日,会畅科技(300578)新增“AI应用”概念。据数据显示,入选理由是:2023...
北京环球度假区官宣五周年计划,... 新京报贝壳财经讯(记者曲筱艺)北京环球度假区五周年庆祝活动将于2026年全年展开。1月16日,北京环...
希捷取得存储系统中AI辅助入侵... 国家知识产权局信息显示,希捷科技有限公司取得一项名为“存储系统中对入侵的人工智能(AI)辅助异常检测...
成都开源计算生态科技申请基于R... 国家知识产权局信息显示,成都开源计算生态科技有限公司申请一项名为“基于RISC-V的工作负载调整方法...
强降雪将至!雪后去撒欢儿,郑州... 大象新闻·河南交通广播记者 许婷 晨阳据气象部门预报,1月18日夜间至20日河南将迎来强降雪过程,气...