ChatGPT的火爆带动了国内对大语言模型的开发热潮。从百度3月份发布“文心一言”以来,不到两个月,国内互联网大厂、AI企业和初创团队陆续官宣了约10个大模型项目。此番热闹场景让不少人感慨:自从“千团大战”之后,中国互联网产业已经有十年没有如此“卷”过了。
面对英伟达CEO黄仁勋所谓的AI“iPhone”时刻,没有人愿意被甩在“大模型时代”的浪潮身后。然而,“炼大模型”需要的是天量的算力支持和资金投入,据悉,仅硬件上的投资就需要30亿元,这无疑考验着参与者的资金实力和战略定力。
AI大模型最终将是大厂之间的“游戏”吗?中小企业的机会又在哪里?《每日经济新闻》采访了多家互联网大厂、逐浪AI的创业者及行业人士,一窥这场竞速赛中的发展现状。
(资料图片)
热到发烫的大模型
随着ChatGPT的现象级爆红,国内科技领域的创业热情也被点燃。一时间,打造“中国版OpenAI”和类ChatGPT产品成为最热门的话题和趋势。
互联网大厂自然不会错失这样的机遇。百度已率先推出“文心一言”,阿里巴巴发布“通义千问”,华为也介绍了“盘古”大模型的最新进展……
据《每日经济新闻》记者的不完全统计,今年3月~4月,已经约有10家企业及机构发布大模型或启动大模型测试邀请。接下来,蓄势待发的还有腾讯的“混元”、京东的“言犀”、字节跳动的自研大模型等一系列大模型。
大厂之外,还有许多重量级科技大佬也已高调入局。原美团联合创始人王慧文、前搜狗CEO王小川、创新工场董事长兼首席执行官李开复等相继成立初创公司,投身AI大模型创业。
图片来源:每经记者 兰素英制图
一场“百模大战”就此在国内全面拉开序幕。
一名不愿具名的硅谷大模型工程师认为,国内现在的大模型领域有点过热。“在海外,搞大模型的其实就那么几家。在国内,竞争对手的数量是美国的几倍,而市场就这么大。”他告诉《每日经济新闻》记者。
这种热到发烫的形势也让许多人质疑,蜂拥的投入能不能在商业价值上带来回报。长期关注芯片产业的集微咨询资深分析师钱禹对《每日经济新闻》记者表示,“我个人觉得是有机会的,因为现在的AIGC(AI生成内容)产品的准确性和效率的优势是非常明显的。”他认为,互联网和AI的商业模式灵活度很高,未来既可做API或者SDK开发包的授权,也可以参与硬件业务,探索to B和to C的服务。
图片来源:阿里云提供
“缺芯”卡脖子
随着众多玩家“入局”大模型研发,一场关于算力的争夺战也打响了。
在业内,开发大语言模型被戏称为“炼大模型”,是一个“大力出奇迹”的模式,指的就是依靠巨大算力训练海量数据后“涌现”出的对答如流能力。ChatGPT的成功就得益于微软慷慨的资金和算力支持。美国市场研究机构TrendForce推算称,处理ChatGPT的训练数据需要2万枚GPU芯片,而随着OpenAI进一步展开ChatGPT和其他GPT模型的商业应用,其GPU需求量将突破3万张(该报告计算以A100芯片为主)。
行业人士普遍认为,1万颗A100芯片是训练大模型的入门券。马斯克4月17日表示,他要开发一款名为“TruthGPT”的AI模型,叫板ChatGPT。据外媒报道,马斯克已经为搭建大模型购入了1万张A100芯片。
“现在(国内大模型厂商面临的)问题是买不到芯片。对于目前训练大模型的主流芯片,例如英伟达GPU A100和(更新一代的)GPT H100,市场上所有的公司都在抢货。一个公司能抢到多少?”上述硅谷工程师反问道,“国内真正有万卡级别的公司是凤毛麟角。”
据此前媒体报道,国内拥有超过1万枚GPU的企业不超过5家,且多为英伟达中低性能产品,而拥有1万枚A100芯片的企业最多只有一家。
在A100这样的“香饽饽”短缺的情况下,英伟达在国内市场推出了A100的低配版A800和专为ChatGPT研发的H100芯片的“特供版”芯片H800,但A800和H800的数据传输速率相比A100分别下降了30%和50%。有业内人士对媒体表示,H800国内已经少量出货,但新近下的订单可能要年底才能到货。
互联极简联合创始人&CTO马力遥告诉《每日经济新闻》记者,目前市场上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就专注于应用私有数据微调大模型,服务垂直行业。钱禹估计,国内的互联网公司或算法公司之前肯定对英伟达芯片做了储备,不过具体数量不好量化。
百度、阿里等大厂以及国内芯片厂商也在自研芯片,但钱禹指出,目前这些自研芯片主要还是部署在大模型的推理阶段,而非要求更高的训练阶段。
少数人的游戏
即便市场上芯片供应充足,但也不是每个入局者都能玩得起的,挡在他们面前的不仅是高昂的成本,还有协同发挥硬件设施的能力。
图片来源:每经记者兰素英制图
1)烧钱的GPU
取决于购买量和英伟达的折扣政策,一颗80GB的A100芯片在国外的定价为1万~1.5万美元(约合人民币68800~103300元)之间。
《每日经济新闻》记者注意到,目前京东售卖的的80GB A800芯片价格为89999元(约13079美元),而库存仅剩数张。有媒体报道称,实际上A800现在处于“有价无市”的情况,供应紧张,真实成交价格高于平台报价。即便按89999元一颗A800芯片的价格计算,1万颗的成本就是约人民币9亿元。
更重要的是,这还只是GPU芯片部分的成本,并非全部的硬件投入花费。钱禹对《每日经济新闻》记者指出,除GPU外,建设数据中心还需要ASIC或FPGA类专用芯片、服务器CPU芯片,以及服务于分布式训练硬件架构的光模块通信芯片。搭建一台服务器,刨除GPU芯片成本,还需要3万元到4万元的成本。据估算,一台服务器多由8颗GPU组成,那1万颗GPU就意味着1250台服务器,所涉及的GPU之外的成本就还需要3750万~5000万元。
业内估计,服务器的采购成本通常为数据中心建设成本的30%,按此推算,一个服务于大模型的数据中心建设成本或超过30亿元。
2)不只是GPU
构建大模型的计算基础设施,不仅是简单的硬件堆砌,更需要实际搭建过程中积累的know-how(实践知识)。
“大模型训练离不开密集型计算算力,今天模型的训练往往会以有多少张卡来表示背后的算力,其实这是一个非常简单的描述,”阿里云CTO周靖人对《每日经济新闻》记者表示。
他进一步指出,“所有GPU不是简简单单的堆砌,更需要的是让所有GPU,让异构算力能够联合起来去为我们的模型训练服务。我们有成千上万的模块,如何帮助他们有效地高速连接起来,如何能够提供一个高吞吐、低延迟的网络方案,对模型训练是至关重要的。”此外,完善的大规模的数据存储和低延迟的网络方案同样重要。
前述硅谷工程师也认为,就算是现在市面上能直接商业化买到的最强算力策略,也很难建设一个特别大的计算机群,因为连接芯片用的是电,而电的衰减很快,一般来说只能达到百卡互联的量级。
“如果是距离较近的芯片连接,你可能感受不到损耗;但如果距离稍微远一点,例如说机器在10米远的地方,想把两个卡连在一起,电的损耗实际上是非常大的。”他对记者解释称。 3) 训练和运营成本
硬件搭建完成后,大模型的训练花费也不菲。马力遥对记者透露,训练大模型门槛非常高,GPT-4的训练成本据估计达到了10亿美元,是GPT-3的5倍。在他看来,大模型的训练绝对是少数人的游戏。
此外,钱禹还指出,若芯片性能不足,那模型的训练效率就会受到巨大影响。“比如一个大模型,用英伟达可能一个月就训练好了,但如果训练卡算力没有人家那么好,那训练三个月或者半年都是有可能的。”而如果要加快训练速度,电力消耗就会攀升。
原腾讯副总裁、自然语言模型专家吴军此前就在一次直播分享中形象地描绘了大模型训练中的电力成本:ChatGPT训练一次需要耗费的电量,相当于3000辆特斯拉电动车每辆跑20万英里(32万公里)的耗电量。
一旦推出,每天的用户访问也需要大量算力支撑。相比训练阶段,大规模运营的推理阶段对算力要求更高。
半导体研究公司SemiAnalysis认为,ChatGPT大规模服务用户的成本远超训练成本,以GPT-3模型推算,ChatGPT每天的运营成本高达70万美元,新一代的GPT-4模型只会更烧钱。按每日70万美元计算,则ChatGPT一年的运营成本高达2.555亿美元(约17.6亿人民币)。
国盛证券则从电费角度进行了分析,以英伟达A100芯片、DGX A100服务器、现阶段每日2500万访问量等假设为基础,ChatGPT的初始投入成本约为8亿美元(约合人民币55亿元),对应约4000台服务器,每日运行电费约为5万美元。
这还没算人力成本,高昂的投资意味着只有手握云计算、数据资源和资金实力的几家大厂才能承担开发大模型的成本。
图片来源:视觉中国-VCG41N1356593648
出路在哪儿?
实际上,在巨额的投入面前,部分一开始激动不已的创业者也逐渐冷静。
出门问问创始人、前谷歌科学家李志飞曾在2月份第一个喊出做中国OpenAI的口号,但在近期的采访中,他已经转变思路,放弃了从零开始“炼大模型”的思路。他在一次采访中提到, “两个月以前,我就是要复制ChatGPT,但现在我觉得不想清楚商业模式到最后会很痛苦。”
那在这场AI“军备赛”中,各路玩家的机会在哪里?
马力遥告诉《每日经济新闻》记者,大模型产业主要分为三大块:最底层是芯片,中间是大模型,最上面是大模型的开发应用。
图片来源:每经记者 兰素英制图(资料整理自采访内容)
英国工程技术协会会员、Frelan GPT的开发者张冶对《每日经济新闻》记者表示, “在日新月异的AI行业,每个层级的厂商都有着自己的任务和使命。头部的厂商有着大量的财力人力,应该专注在核心技术的研发以及算法的迭代,把大部分的精力用于应对国际上激烈的竞争。中小型企业应着重技术应用,并且灵活的方式应对活跃的市场,并反哺头部大厂。”
当大厂跑出自己的路子,小企业就有机会站在巨人的肩膀上。前述硅谷工程师以MidJourney为例解释说,“MidJourney实际上是一个非常小的公司。新时代的公司不会说‘卖汉堡是从养牛做起’,我们都是基于一个平台,上面接亚马逊云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,获得高关注度和高收益。”
4月20日,出门问问发布了自家的百亿参数级的多模态大模型“序列猴子”。李志飞表示,未来公司将聚焦在算法层面的研发和迭代,不做硬件,在商业化上侧重于面向B端的企业定制类服务,“这会比一个通用大模型可能更加有用。”
目前,在大模型上走在前列的大厂,也在积极推动把自己的算力和模型开放给第三方企业使用,从而降低中小企业开发模型的成本,一个分工有序的大模型生态正在形成之中。阿里云和商汤科技就对《每日经济新闻》记者表示,他们可为企业提供大模型服务或算力服务,腾讯和字节跳动近期也推出了面向大模型开发的算力服务。
钱禹认为,像王小川和王惠文这样的创业团队,可以把精力放在算法和模型上,服务器硬件和训练数据可以找合作伙伴,“比如说我给阿里提需求,我需要这样的服务器和这样的算力,你来给我配置。”
另一方面,中小企业也可以利用大厂的模型做二次开发。“比如说文言文的研究我是比较专业的,那我可能把百度的模型拿来借鉴一下,在此基础上做一个深度开发,然后实现文言文的聊天,这是完全可以的。”钱禹表示。
专注垂直行业的马力遥对此也深以为然。
他告诉《每日经济新闻》记者,初创企业可根据其核心能力和市场地位选择创业方向,只要掌握私有数据和充沛的业务知识,仍可打造其行业壁垒。他强调,要在应用层实现突破,一定要把握垂直行业企业客户的痛点,有的放矢,一定要具备私有的高质量数据、对大模型能力的充分利用能力和对行业的深刻理解,有效结合这三者才能产生实实在在的商业价值。
“一个再聪明的孩子,如果没有高质量的数据教导,也是不可能成材的。例如Stack Overflow,OpenAI就是用这个平台上的高质量数据来训练代码的生成。”前述硅谷工程师也对记者如是说道。
更重要的是,利用垂直领域数据对大模型微调的成本已经达到中小企业可以接受的范围。马力遥以开源聊天机器人 Vicuna-13B为例对记者解释道,这款通过 LLaMA 模型微调和 ShareGPT 用户共享对话训练而成的机器人的训练成本仅为 300 美元(约合人民币 2060 元),而质量可达 OpenAI ChatGPT 和 Google Bard 的 90% 以上。
标签:
-
大模型横行:不到2月10余个问世,烧30亿就能炼造?激战背后机会在哪儿?
◎当大厂跑出自己的路子,小企业就有机会站在巨人的肩膀上。
-
聚焦智能物联、创新显示、新能源等,TCL即将亮相AWE 2023_视焦点讯
中国家电及消费电子博览会(AWE2023)将于4月27日至30日在上海新国际博览中心举办。中国科技制造企业TCL将聚
-
焦点热议:着华服、赏经典、玩蹴鞠,东洲学子邂逅中国华服日
小记者们积极参与体验活动。活动中,芳草东洲红领巾雷锋小记者通过积极参与书写唐诗宋词,吟诵经典书籍,体
-
环球今亮点!数万种药品说明书的数据库遭抓取使用,法院:被告赔偿31万元
被告运营的“医学界医生站”APP提供与原告药品说明书数据库类似的功能模块。被告软件中的药品说明书不仅在
-
广东银保监局:截至3月末房地产贷款总量5.4万亿元 同比增长3.6%
观点网讯:4月24日,在2023年一季度广东银行业新闻通气会上,广东银保监局党委委员、副局长陈晓勇表示,继
-
佳发教育(300559)4月24日主力资金净买入2061.03万元|世界聚看点
截至2023年4月24日收盘,佳发教育(300559)报收于16 56元,上涨9 45%,换手率12 33%,成交量37 17万手,成交额6 18亿元。
-
红海市场与蓝海市场的区别是什么?红海市场与蓝海市场哪个比较值得投资?
红海市场与蓝海市场的区别是什么?我们先了解一下红海市场与蓝海市场的定义。红海市场是指竞争激烈、血腥残
-
全球最新:凯莱英与苏州锐明达成战略合作,以推进药物研发
4月24日获悉,凯莱英医药集团与苏州锐明新药研发有限公司签署战略合作协议。双方将就眼科新药的研发 生产服
-
江苏移动携手华为率先完成4+8杆微站CBD场景商用部署,打造高层楼宇极致5G体验
随着5G网络的深度发展,江苏移动网络建设方向逐步由“广覆盖”转向“深度覆盖”,重点解决室内高倒流问题。
-
环球简讯:福莱新材(605488):MACD指标DIF线上穿0轴-技术指标上后市看多(04-24)
资金流向数据,主力资金净流入252 84万元,占总成交额12%,其中超大单净流入0 35万元,大单净流入252
-
迈创股份IPO:过度依赖身兼多职的小米,经营性现金流净额连续为负
迈创股份过度依赖身兼多职的小米。
-
环球微资讯!新股日报:巨能股份明日申购
明日新股提示及点评巨能股份明日申购招股书显示,巨能股份是一家以机器人及相关智能技术为核心的智能制造整
-
天天短讯!广西柳州制造业向智能化转型
广西柳州制造业向智能化转型(主题)经济日报南宁4月23日讯(记者童政)广西壮族自治区工业和信息化厅近期
-
国网舟山供电公司第七届职工运动会开幕
同心迎亚运,聚力展风采。4月22日,国网舟山供电公司第七届职工运动会暨2023职工体育年开幕式在舟山体育场
-
4月24日银行间外汇市场人民币汇率中间价一览 (1/2)
4月24日银行间外汇市场人民币汇率中间价一览(1 2);瑞士法郎兑人民币报7 7175,上调149 00点;美元兑人民
-
40余城首套房贷款利率下限 进入“3时代”|当前快看
尽管LPR已连续8个月保持不变,但在首套住房贷款利率政策动态调整机制下,越来越多城市调降了首套房贷款利率
-
苏能股份:子公司拟投15亿元建徐州泉山经开区全域光伏项目 观天下
苏能股份:子公司拟投15亿元建徐州泉山经开区全域光伏项目4月23日,苏能股份发布公告称,公司全资子公司江
-
53岁中国人寿副总裁、总精算师利明光升任国寿集团党委委员
53岁中国人寿副总裁、总精算师利明光升任国寿集团党委委员,利明光,苏恒轩,精算师,国寿集团,中国人寿保险
-
蜜蜂“萦绕”居民家,摘除蜂窝解民忧!
“蜜蜂挺多的,很吵!睡不好觉,出行都觉得有点害怕。”岳阳街道龙潭南苑居民老刘近日向居委会反映家中频繁
-
一周市场观察|“市值一哥”争夺拉锯不断 “中特估”概念或迎超额收益
封面新闻记者朱宁A股总市值榜首之争,向来是市场关注的焦点。目前,A股“股王”之争进入白热化阶段。中国移
-
北新建材:4月21日融券卖出2万股,融资融券余额4.26亿元
4月21日,北新建材(000786)融资买入366 15万元,融资偿还672 54万元,融资净卖出306 4万元,融资余额4 22
-
【全球新要闻】原生家庭是否和睦成择偶重要考量
2023壹点动心·三月三千佛山相亲大会大数据来了原生家庭是否和睦成择偶重要考量相亲会现场彩伞朵朵,大批有
-
朗诵背景音乐纯音乐爱国主义_朗诵伴奏背景音乐爱国 全球热闻
1、很多大型晚会中经常可以听到的就是maksim的YellowRiver黄河其它或者kisstherain红旗颂
-
2023创意趋势报告:新都市物语
2022年告诉我们,世界不会总是都往好的方向去发展。相反,动荡、冲突、衰退、气候变化和通货膨胀已成为我们
-
研学旅行:读万卷书 行万里路|通讯
随着旅游市场的复苏,不论是名胜古迹还是文博机构,每逢节假日总会迎来络绎不绝的研学旅行团,孩子们带着好
-
刺激,0-1西甲第3倒下,不敌领头羊,6连胜终结,皇马笑了
赛前排名第一的巴萨队迎来了西甲第30轮的较量,巴萨此役坐镇自己的主场PK赛前排名第3的马竞队。赛前巴萨已
-
河北:今年全省70处大中型灌区春灌面积将超600万亩-天天微速讯
春灌是夏粮丰收的重要保障。从河北省水利厅获悉,截至4月13日,河北已有55处大中型灌区开闸放水,累计供水
-
世界观速讯丨培养基层文艺人才 让文化“活”起来
“圆梦工程”文艺培训志愿服务行动培训班开班培养基层文艺人才让文化“活”起来三峡日报讯(通讯员王华)4
-
【快播报】境外大学可在海南自由贸易港办学 办学学科限于理工农医类
日前,教育部联合海南省人民政府研究制定了《境外高等教育机构在海南自由贸易港办学暂行规定》,明确境
-
世界要闻:木禾图腾是哪个国家的品牌_什么档次怎么样
木禾图腾品牌目前的办公地在山东潍坊,在互联网上开设了官方旗舰店木禾图腾旗舰店,让广大网民在网上也能买