中文大模型评测基准SuperCLUE正式发布

   时间:2023-05-09 16:47 来源:数据世界

【数据世界网】5月9日消息,针对中文通用大模型的综合性评测基准SuperCLUE正式发布。该评测基准试图从多个维度测试一系列国内外代表性的模型,以回答中文大模型的效果情况。这些模型在不同任务上的表现,与国际上代表性模型的差距,以及与人类效果的对比等问题都将被探究。

据了解,SuperCLUE评测榜单包括总榜单、基础能力榜单和中文特性榜单。其中,基础能力榜单包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。而中文特性榜单则针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。这些榜单将定期更新,评测结果将能够帮助开发者和用户更好地了解各个模型的优劣。

中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底

首个榜单显示,在国内大模型中,近期发布的星火认知大模型表现最好,总分为53.58分。它在对话、百科知识、角色模拟、计算能力、语义理解和逻辑推理等方面已经达到了GPT 3.5平齐的水准,而在语义理解方面更是得到了100分的满分,超过了GPT-4。相比之下,百度文心一言排名最后一名,得分32.61分。

讯飞星火认知大模型的优异表现反映了中文大模型的不断发展和进步。据数据世界网了解,近年来,随着自然语言处理技术的不断发展和普及,越来越多的中文大模型相继问世,为人工智能的应用带来了更加广阔的前景。随着技术的不断革新和完善,相信中文大模型的表现和效果还将不断提升。

 
标签: SuperCLUE
 
更多>同类内容
全站最新
热门内容