Kimi K2 Thinking模型在Vending-Bench基准测试中表现卓越,成为最佳开源模型
Kimi.ai宣布,其Kimi K2 Thinking模型在Vending-Bench基准测试中表现出色,现已成为该测试中表现最佳的开源模型。Andon Labs重新运行测试后发现,使用Moonshot官方API显著提升了Kimi K2在工具调用方面的性能,使其在平均净值方面超越其他开源模型。Kimi.ai鼓励用户查看Kimi K2 Thinking的基准测试最佳实践并获取API密钥。
Kimi.ai近日发布消息,强调其Kimi K2 Thinking模型在Vending-Bench基准测试中的卓越表现。根据Andon Labs的重新测试结果,Kimi K2 Thinking模型在使用Moonshot官方API后,其在工具调用方面的性能得到了显著提升。这一改进使得Kimi K2 Thinking在Vending-Bench基准测试中,基于所实现的平均净值,成功超越其他开源模型,成为该测试中表现最佳的开源模型。Kimi.ai表示,这一结果印证了他们一直以来的宣传。同时,Kimi.ai鼓励用户查阅Kimi K2 Thinking的基准测试最佳实践指南,并获取相应的API密钥,以便更好地利用该模型的强大功能。