当前位置:首页 > 创业圈 > 看点 > 正文

百川智能发布Baichuan2-192K大模型,上下文窗口长度创全球之最

来源:IPO早知道C叔 发布时间:2023-11-04 11:08:37 编辑:夕歌

导读:百川智能于10月30日发布了Baichuan2-192K大模型。其上下文窗口长度高达192K,是目前全球最长的上下文窗口。

作者|Stone Jin

据IPO早知道消息,百川智能于10月30日发布了Baichuan2-192K大模型。其上下文窗口长度高达192K,是目前全球最长的上下文窗口。

值得一提的是,Baichuan2-192K能够处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的 4.4倍,更是 GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍。

Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

这里不妨补充一点,上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好的捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。

扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。

而本次百川发布的Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

更进一步来讲,Baichuan2-192K的发布不仅是大模型技术层面的突破,对于学术领域同样有着重要意义——Baichuan2-192K验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。

今年9月25日,百川智能已开放了Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。

全面开放API之后,Baichuan2-192K便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。