革新大模型技术:Baichuan2-192K问鼎长文本评测榜首

   时间:2023-10-30 14:20 来源:数据世界

【数据世界】10月30日消息,百川智能今日宣布发布了全球最长上下文窗口的Baichuan2-192K大模型。这一模型的上下文窗口长度达到了192K,标志着在大模型领域的一项重要突破。

据数据世界了解,Baichuan2-192K具备处理约35万个汉字的能力,是目前同类大型模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,以及GPT-4(支持32K上下文窗口,实测约2.5万字)的14倍。Baichuan2-192K不仅在上下文窗口长度上超越Claude2,还在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面全面领先Claude2。

今年9月25日,百川智能已经开放Baichuan2的API接口,正式进军企业级市场,启动商业化进程。Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,百川智能目前已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。

此次发布的Baichuan2-192K在10项中英文长文本问答、摘要的评测集中表现出色,取得了7项SOTA(State of the Art)成绩,明显超越其他长窗口模型。此外,Longeval的评测结果显示,Baichuan2-192K在窗口长度超过100K后依然能够保持强大的性能,而其他模型在窗口增长后效果明显下降。这一成就表明Baichuan2-192K在长窗口内容记忆和理解方面具备显著的优势。

百川智能采用了一系列创新的算法和工程优化方法,以实现窗口长度和模型性能之间的平衡。通过针对RoPE和ALiBi动态位置编码的外推方案,Baichuan2-192K提升了模型对长序列的依赖建模能力。此外,百川智能采用了自主开发的分布式训练框架,整合了市场上的优化技术,极大降低了长窗口训练和推理中的显存占用。

这一模型的发布不仅在大模型技术领域有重要意义,同时也为学术研究提供了新的探索路径。Baichuan2-192K已经开启内测,已经在法律、媒体等领域的真实场景中取得了成功的应用。

全面开放API后,Baichuan2-192K将更好地与垂直领域深度结合,为各行业用户提供更多帮助,从而降低成本、提高效率。这一模型能够一次性处理大量材料,对于长篇文档的信息提取、分析、长文档摘要、审核、编写等任务都有巨大的助力作用。

此外,更长的上下文窗口也为处理多模态输入和实现更好的迁移学习提供了技术支持,为行业在Agent、多模态应用等前沿领域的探索提供了坚实基础。

 
 
更多>同类内容
全站最新
热门内容