观点网讯:6月25日,美团LongCat团队正式开源VitaBench2.0,推出面向长期动态智能体的评测基准。
据介绍,VitaBench2.0是首个真实生活场景下面向长期动态用户建模的智能体评测基准,它系统性地评测大语言模型在长期、真实、动态的用户互动中个性化与主动性的能力。
信息显示,该基准系列产品此前已以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了包含66个工具的交互式评测环境,为智能体在真实场景的研发应用提供基础设施。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
下一篇:开源证券获批碳排放权交易业务资质