您的位置:主页 > 公告动态 > 国王金融动态 > 国王金融动态

大模子的「成本瘦身」运动-国际黄金

数据大、参数目大、算力大,大模子的某些能力才会“涌现”,这一点在科技圈广为撒播。

做大模子的主流头脑是:不要容易说模子“不行”,若是“它还没行”,那就做得更大一点。

以是,不到一年的时间,大模子的参数规模增进100倍,现在已经突破了万亿级别,资源消耗量伟大,也带来了越来越高的存储成本、推理成本、运维成本、落地成本……以及社会成本。

现在,大模子仍处于商业化的黎明,若何接纳大模子的投入,还存在许多未知数与不确定,而大模子一直在变大,成了一门极其烧钱的生意,背靠微软的Open AI,2022年就亏损了5.4 亿美元左右。

不停膨胀的成本,就是一张张真金白银的账单,压在大模子企业身上的一根根“稻草”。Anthropic的首席执行官Dario Amodei最近展望,在未来两年内,他们的模子成本将到达100亿美元。

除了企业自身,社会也同样在肩负大模子的隐形成本。谷歌就曾讲述称,训练 PaLM 在约莫两个月内花费了约莫 3.4 千瓦时的电量,相当于300 个家庭每年的能源消耗总量。大模子高能耗给环境带来的肩负和成本,最终由整个社会来买单的。

很显然,无论是商业上、环境上,比拼模子体量都是不能连续的。

一味求大的时代,已经由去了。

问题是,怎么给大模子“减负”呢?

事实上,通用大模子的头部厂商,一直都在起劲地开展“成本瘦身”运动。

好比微软在Microsoft Build 2020 上曾公然了为GPT-3提供支持的AI supercomputing超级盘算机,可以让AI模子的训练效率比其他平台高16倍,更快的训练可以降低时间成本与风险成本。

国产大模子也不破例。

盘古大模子早在2.0版本中,就实验接纳希罕 浓密架构,以降低训练成本。文心一言推出一个月以后,也通过手艺手段将大模子的推理性能提升近10倍,推理成本降到原来的十分之一。

阻止走向臃肿繁重,成为人人都能使用的工具,大模子的“成本瘦身运动”,势在必行。详细怎么实现?本文就来谈一谈这个问题。

01 一口吃不成胖子

大模子的哪些成本可以优化,哪些成本无法削减,哪些成本还要进一步加大投入?搞清晰这些之前,首先得知道是怎么胖的。才气在保证大模子的性能显示和用户体验(康健)的条件下,合理且精准地举行“成本瘦身”。

简朴来说,AI三要素——数据、算力、算法,仍然是决议大模子成本的最要害因素。

先说数据。Garbage in, garbage out,在大模子时代依然适用。

数据质量会直接决议大模子的能力。OpenAI招聘了多位博士来处置各行业的专业数据,并找了独角兽企业Scale AI等多家数据标注公司,给GPT-3举行大规模的数据集投喂。同时,算法模子会不停迭代升级,对数据量的需求会随着使用量的上升和性能优化而连续不短的时间。

中文大模子的成本高,一个主要缘故原由就是,中文数据量和质量,与英文还存在差距,训练中文大模子,需要采集和处置的中文语言数据更多。另一方面,英语语法结构相比中文更简朴,中文文本的庞大性和多样性,有的中文词汇可以表达多种寄义,语境厚实,上下文明白的歧义多、难度大,也增添了中文模子的训练难度,需要分外的资源来支持中文大模子的训练。

再说算力。

大模子的训练、运行、服务、迭代等一整个全周期,都要盘算和存储资源。

大模子的训练,主打一个“暴力美学”,参数越大,训练所用的盘算资源就越多。GPT-3所使用的超级盘算机,包罗了一万个GPU、285000个处置器内核。海内的文心4.0,也是基于飞桨平台在万卡集群训练出来的。

这还不算完。大模子在部署后开放服务,随着使用量的增添,要完成的推理义务也越来越多。24小时举行大量的“思索”和“输出”,这个推理历程,也会连续消耗盘算资源,就像人脑在处置大量庞大义务时,需要消耗糖原,很容易感应饥饿,得大吃一顿来弥补能量。以是,大模子的推理成本也是很高的。

175B的GPT-3部署后的推理至少需要五个A100 GPU,而海内面向全社会开放服务的大模子,好比文心一言,听说推理成本也是上一代的8-10倍。

最后说说算法。

降低大模子对盘算资源的伟大依赖,一个主流方案是优化模子,在性能稳固的基础上,以更快的推理速率、更小的延迟、更低的资源需求来运行,相当于ROI投入产出比更高了,训练、推理环节所需要的算力资源,单元成本更低。

有若干人工,就有若干智能,没有人才不能能搞出真正能打的大模子。算法开发、测试、迭代、产物化等,都需要大量手艺人才。人力成本事实高不高,还要看大模子的商业模式是否稳健。

学历拉满的人才队伍,在研发阶段,是相当有竞争力的。问题在于,怎么挣钱呢?API挪用或使用量收费,一个token不到一美分,回本盈利可能遥遥无期;付费订阅(专业版),头部大模子具有虹吸效应,人人都市选择OpenAI或BATH等大厂,自家大模子能否被用户接受并愿意付费,是未知数;给行业客户定制开发,ToB要深入领会行业,调研开发测试迭代,让年薪几十上百万的算法工程师,在工地矿山农场一待几个月,项目的毛利率估量不会太悦目。

以是,一个大模子能不能乐成,不仅仅是靠算法自己的能力,还要看从开发到落地的商业循环是否可连续。

02 管住嘴,迈开腿

辛巴400万粉抖音号被封:头部主播与平台之争

若是我们把大模子的成本“瘦身”,比作一个希望减去多余赘肉的人,那么这个目的,可以拆解为两种基本途径:

一是制造“热量差”。就是管住嘴迈开腿,控制投入,减去多余的成本,加速商业化提高收入,自然就瘦了。

二是酿成“易瘦体质”。充实领会大模子的机理,用新的架构来解决Transformer注重力机制的问题,拥有“怎么吃都不胖”的体质。

听起来,第二种是不是异常有诱惑力呢?

不用苦哈哈的控制成本、吸引用户、定制服务,轻轻松松躺着挣钱,另有这种好事儿?确实。

现在,所有的大语言模子都用的Transformer架构,而这种架构难以处置长文本及高分辨率图像,逻辑推理、知识归纳等就靠“鼎力出事业”,成本高昂。许多基础原理仍然不清晰,这就导致许多现存问题一筹莫展,好比“幻觉”的发生,推理能力有限等。

图灵奖得主 Yann LeCun就不止一次指斥过大语言模子的手艺范式,以为“LLM 对天下的明白异常肤浅”,他希望构建一个“天下模子”,先学习天下运作方式,尔后形成一个内部模子,再通过这个内部模子来完成种种义务。除此之外,关于AGI通用智能另有许多科学家从各自的研究领域去探讨。

总结一下,当前的大语言模子,许多原理尚不清晰,手艺仍在转变中。未来可能会泛起其他手艺范式,推翻当前一味求大的模子,那时可能就不需要过高的成本,也就不用痛苦地“瘦身”了。

可能你已经发现了,研究底层的原理、找到一种更壮大的AGI手艺,这事儿虽然听起来很酷,但着实没谱,现在还没有一个清晰的时间表。而这一轮大语言模子的手艺范式,在工程实践上是可行的,在产业中能work的,有提质增效的明确效果的。先用起来,掌握住现在,才是科技企业的当务之急。

以是,大模子企业只能管住嘴、迈开腿,尽快控制成本、加速商业化,制造良性可连续生长的“热量差”。

03 制造“热量差”的四化运动

那么,事实该怎么制造“热量差”呢?综合现在市面上的主流手段,我们将其总结为“四化运动”:数据规模化、模子压缩化、盘算高效化、商业分层化。

数据规模化,是通过规模效应,来提高数据的边际效益,获得*性价比。规模效应主要通过三种方式来实现,一是产业集中的规模化,国家层面已经明确提出,要“加速培育数据要素市场”,涉及数据生产、采集、存储、加工、剖析、服务等多个环节,产业化有助于削减大模子企业的数据成本。二是AI工具的应用,削减数据工程各个环节的人工介入,加速预训练数据的处置,为模子训练降本提效。三是反馈数据的规模化。大模子对微调数据(SFT/RLHF)的需求量和质量要求很高,一些更早向全社会开放服务的大模子,如百度文心一言、商汤“商议SenseChat”、百川智能“百川大模子”、科大讯飞“星火大模子”等,“数据飞轮”更早最先转动,有望更快一步到达边际效益*的数据规模。

数据是有边际效益的。OpenAl 已经可以让用户来决议,是否允许其使用谈天数据举行训练,也就是说,可以不再依赖用户反馈数据了,那么数据的存储和盘算成本自然就能控制住了。

模子压缩化,就是提高模子的性能,以更少的资源实现更高性能,将资源麋集型的大模子,通过压缩手艺,转化为加倍紧凑高效的版本。类似于将脂肪转化为肌肉,肌肉的密度更大,体重(性能)稳固,人却变瘦(更小)了。

现在,大模子压缩的常见手段,主要有三种:量化、剪枝、知识蒸馏。

量化,相当于抽脂,简朴粗暴然则有用。模子的精度越高,所需要的存储空间就越大。但在推理时,实在并不需要捕捉庞大模子中十分细小的梯度转变,以是量化可以直接降低模子的参数精度,“抽”去一部门细节性信息,从而削减占用空间,同时也不外于降低推理能力。好比以问生图的天生式 AI 模子Stable Diffusion,此前只能在云端运行,高通AI Research使用量化手艺,让模子可以在更低精度水平保持准确性,首次实现了在 Android 智能手机上部署 Stable Diffusion。量化手艺,也在文心、盘古等国产大模子中有所应用。

剪枝,类似“切除手术”,直接减去一些对效果没什么影响的旁枝,好比大量冗余的结构、神经元,这些权重较小的部门删减掉,对模子效果带来的影响不大,也削减了模子的巨细。固然,剪枝是一门“手艺活儿”,剪枝越准确,给模子准确率的损失就越小,压缩效果越好。

知识蒸馏,就是让大模子“蒸桑拿”,千亿模子一通蒸馏,产出若干个性能靠近、结构更简的小模子,落地成本更低。挑战在于,千亿规模的模子蒸馏,也要消耗极高的盘算资源,而且,从千亿蒸馏到几万万,数据量差距过大,容易影响蒸馏的效果。无损蒸馏,是各大厂商的手艺赛点之一。

既然模子压缩手艺,也会消耗盘算资源,那么提高算力基础设施的盘算效率,就变得格外主要了。

盘算高效化,是大模子厂商能够以更高效益来提供模子服务的条件。

芯片和盘算集群的性能,是研究和优化的重点。微软云azure专门为OpenAI打造了适用于AI盘算的超级盘算机。海内厂商,百度、华为都拥有自研芯片、深度学习框架,可以通过端到端优化来提升盘算效率,提升大模子的训练速率和推理速率,从而降低训练时间和成本。

而对于产业大模子、行业大模子等非通用大模子来说,规模效应和硬件优化手艺有限,自行构建和维护基础设施的成本是异常高的,使用云服务来训练和部署服务,是成本更优的选择。

归根结底,大模子要提升商业收入,来到达优化ROI、接纳获本的目的。现在,各种大模子的商业化,体现出了显著的分层化特点。

简朴来说,就是差异体量、差异功效、差异偏向的大模子,商业化路径也最先泾渭明白。

通用大模子,以规模效益、高价值市场,为主要目的。OpenAI的用户量伟大,生长API经济具有规模效应,前期投入可以随着营业量增进而被均摊。BATH(百度、阿里、腾讯、华为)等都有各自的云营业,积累了较为厚实的行业服务履历,尤其是金融、矿山、政务等大型政企的客户触达能力,具备较大的商业转化潜力,因此除了面向民众服务的订阅模式、商业版付费模式等,也可以开展高价值的ToB项目定制开发。ToB客户的高要求推动模子体验和效果提升,也可以服务ToC市场,通过规模化来进一步摊平成本。

行业大模子,则在自动收束产物和营业界限,围绕焦点营业和功效,以更少的资源来开发专精的小模子,在投入和商业化之间取得一个很好ROI平衡。好比金融领域,度小满的“轩辕70B”融入了大量的专业金融语料,提高对金融知识的明白能力,可控性、平安性上知足金融客户的稀奇要求,获得了上百家金融机构申请试用。

总而言之,大模子并不是只有通用、泛化一条路,千行百业的私有化、个性化部署,会发生价钱、隐私、平安等多方面的决议因素,也带来大量的细分商机。通用大模子与行业大模子、专有小模子,分层 协力打开商业化之路。和而差异,磨练着产业链上每一个角色的智慧。

为了久远、可连续的服务,管住嘴、迈开腿,大模子的“成本瘦身”是必经之路。

这个历程或许痛苦,却会凝练出一条护城河,守护整个行业的康健生长。

20世纪40年月,盘算机刚刚降生的时刻,人们赞叹于这座“机械怪兽”的重大身躯,但随后开启了信息时代的飞跃。智能手机刚刚降生时,功效机厂商曾对它极尽取笑,没想到这种人人皆可触网的普惠联接,推起了移动互联网的繁荣。

随着大模子越来越好、成本越来越低,“人人皆可AI”,也将不再是一个遥远的梦。