作者:次元羊 时间:2024-09-27 09:14:09阅读:(9)
作者丨何思思编辑丨陈彩娴" 艰苦奋斗,独立自主 " ——这是昆仑万维董事长兼 CEO 方汉做大模型 3 年以来的真实感受早在今年 4 月,昆仑万维就发布首款千亿级参数大模型 " 天工 ",是国内最早一批拥有大模型的企业之一;今年 8 月,昆仑万维更是推出了国内首个融合了大模型能力的搜索引擎——天工 AI 搜索。
作为一家以游戏得名,后来发展成为国内互联网平台的出海企业,昆仑万维曾相继并购孵化了包括 Opera、StarMaker 等在内的多款现象级应用然而从游戏互联网公司到大模型,终究不是一步简单的跨越" 从游戏到出海再转做大模型,是一个如此大的跨界,底气在哪儿?能做成吗?还是在抢噱头?"。
方汉次元羊对 AI 科技评论表示,其实昆仑万维对大模型的研究远比想象中要早得多,时间回到 2020 年,这一年 ChatGPT 还没有火,但当时昆仑万维就押注了 AIGC 赛道谈及为何先于 ChatGPT 出圈前,就入局大模型赛道?。
方汉告诉 AI 科技评论:在外界看来跨度很大,但理由是很充分的首先和公司的业务相关,昆仑万维在海外主要主要做内容平台,包括音乐、社交、游戏、动漫等,这意味着我们对任何一项技术变革都是非常敏锐的另外还一个重要的原因是,较元宇宙、VR 来说,AIGC 和相关产品的结合,能更容易地覆盖更多的普通人群。
2022 年春节,昆仑万维内部提出 "All in AIGC" 的口号,同年年底次元羊发布了开源项目时间来到 2023 年,此时大模型在国内蓬勃发展,昆仑万维也加快了大模型以及相关产品的研究进度大模型层面,4 月份发布了 " 天工 " 大模型,产品应用层面,初步形成包括 AI 大模型、AI 搜索、AI 游戏、AI 社交、AI 音乐、AI 动漫等六大方向在内的 AI 业务矩阵。
值得注意的是,从入局时间来看,昆仑万维要早于国内大部分企业,这也从侧面说明了昆仑万维在大模型这条新赛道上并非坦途" 我们沿着 GPT 的路线辛辛苦苦做了 3 年,但这些苦难也锻炼了我们独立解决问题和处理问题的能力,我们把这段经历总结为‘艰苦奋斗,独立自主’。
" 方汉笑着说道除了研发通用大模型,专有模型以及上次元羊层应用外,方汉更是将开源的基因融入其中,基于天工大模型,昆仑万维选择开源了「天工」Skywork-13B 系列大模型面对开源与闭源之争,方汉表示,两者并不矛盾,互为有机组成部分,开源的本质是为了构建良好的生态,让更多中小企业能够在大模型基础上开展一些工作。
" 昆仑万维的体量相对较小,所以我们对大模型的研究会朝着离应用更近的方向发展," 之于未来在大模型方面的规划,方汉如是说以下为 AI 科技评论和方汉的对话:跨界:不是为了股价,而是业务发展所需AI 科技评论:从游戏到出海,再到大模型,为什么要跨这么大的界?。
方汉:在外界看来跨度很大,但其实理由是很充分的首先和公司业务有关做游戏之前,我们是在海次元羊外做用户增长的,而且在这方面有丰富的经验上市时我们就有了一个判断,我们的增长能力大多在网游端,但当时我们也在想是不是可以把这种能力赋能到别的互联网品牌上,因为我们知道中国人在海外做一个新的厂牌其实有难度的,所以我们就买了 Grindr,把用户量做大了五倍;然后买了 StarMaker,用户量从 2000 人做到了大概近千万的日活。
我们收购 Opera 后孵化出了三个产品,一是 Opera News,目前是非洲最大的客户端;二是 OPay,非洲的支付平台;三是 Opera GX Browser,目前在欧美地区月活达到 3000 万。
所以我们在海外做平台增长的经验非常丰富另外,我们在海外做的是内容次元羊平台,包括音乐、社交、游戏、动漫等,这就意味我们对任何一项技术变革都是非常关注的还有一个原因,较元宇宙、VR 来说,AIGC 更容易覆盖更多普通人群。
为什么呢?当时虽然 ChatGPT 还没出来,但是抖音上的换脸玩法已经出来了,其实背后都是 AI 技术的支撑,只是没有现在这么明显而已当时我们还做了一个测试:一块手表的重量是 70 克,手机是 300 克到 400 克,但当时的 VR 设备大概在一斤半左右,所以以我们当时的看法,认为 VR 赛道很难做起来,因为实在太重了。
元宇宙则是另外一个逻辑,我们认为元宇宙在人和人沟通的效率方面实际上比不上线下见面,所以我们认为元宇宙也不会有很大的市场但 AI次元羊 就不一样了,目前 90% 的美国大学生都在使用 ChatGPT 做作业,国内很多电商基本上都在用 AIGC 生成商品图片。
这一波 AI 对普通人的渗透远比我们想象得要大的多所以我们认为 AIGC 和之前的互联网和移动互联网两波浪潮一样,会是一个大的技术变革,我们就决定投入了AI 科技评论:什么时候决定全方位投入的?方汉:2020 年 GPT3 出来时,我们就很快地意识到了 AIGC 会是一个非常大的里程碑。
2021 年开始铺算力,并训练出了一个 140 亿参数的大模型,同时组建了一个专门做音乐生成的团队;2022 年春节,内部开了战略会,提出了 All in AIGC 的口号;2022 年年次元羊底 12 月份,疫情刚放开时,我们就发布了开源项目,其实当时 ChatGPT 还没有火,对于像我们这样一个中等体量的互联网公司来说,我们做的事情要比业界同行稍微早一些。
AI 科技评论:最初瞄准的就是 AGI 吗?方汉:首先,我们跟进大模型这件事,完全不是为了股价因为 AGI 和 AIGC 是两码事,所以当时只想到了 AIGC 对我们公司业务的发展非常重要包括我们现在设立的音乐、漫画、社交、游戏等方向,都是我们的传统产品,只有 AI 搜索算是和大模型结合后的一个新发现。
当然,天工大模型是通用大模型,但是想要在每个行业落地,还要在对应的专有模型上做应用,所以在天工大模型这个底座之上,还训练出了 3次元羊D 生成模型,图像生成模型、视频生成模型,音乐生成模型等专有模型入局大模型:没有参考,只能独立自主。
AI 科技评论:最初选择的是 Bert 路线还是 GPT 路线?早期国内大部分企业可能都是基于 Bert 做研究的方汉:我们最初选择的就是 GPT 路线,当时没有任何开源框架可以参考,所以我们是沿着 GPT 的路线辛辛苦苦做了 3 年。
在国内厂商里是相对非常早期的(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)AI 科技评论:这个过程中有什么困难点吗?毕竟起步确实太早了方汉:2020 年刚开始做的时候,确实挺辛苦的。
因为没有任何可以参考的内容,而且当时国内次元羊大部分企业走的是 Bert 路线,GPT 路线的人不好找,所以只能根据一些公开文献从头研究但这样也锻炼了我们独立解决问题和处理问题的能力,我们把这段经历总结为 " 艰苦奋斗,独立自主。
" 以数据处理团队为例,从 2020 年搭建到现在,应该是国内最老牌、最成熟的团队了AI 科技评论:现在很多企业都在强调数据的量和质量,对于昆仑来说,数据是最难攻克的一关吗?方汉:数据处理肯定是一个难点。
对于大模型训练来说,数据质量的重要性往往高于数据的量,因为数据很容易收集,但高质量的数据很难比如,中国拥有全世界最大的中小学生题库,但这个题库你直接问题大模型质量是很差的,因为题库中的数据没有经过标准化和格式化的次元羊处理。
所有公式可能都是图片文件,这就要把这些公式全部转成文本可描述的文件这就要花很长时间才能完成像中国可能有两亿道中小学生题库,处理完了之后质量高的可能不到一千万道,这是一个很辛苦的数据处理过程当然这个过程也会涉及到数据清洗、加工、重新整理。
最麻烦的是针对质量不好的数据,要想办法写工具,把质量变好,甚至要雇一批数据标注人才把数据标好,这是相当麻烦且繁琐的工作另外,在数据层面,最重要的不是数据加工的能力而是数据生产的能力,目前很多数据是空白的,尤其是在一些很窄的领域,所以必须生产出来。
以音乐数据为例,全世界每年能够生产 3 亿首,其中中国每年就能生产 200 万首歌,但实际上可能只有 20 万首次元羊是标注好的,那怎么办?只能自己花钱加工数据所以现在质量高的数据是非常稀缺的AI 科技评论:其实数据层面,也会涉及到数据合规的问题?
方汉:首先要有一个正确的心态,我们一直认为数据合规和法律监管是行业健康发展的前提,所以我们一开始就会配合各部门完成数据保护等工作,这是最关键的我们认为有监管比没监管好,如果没有监管的话,各种不健康不合规的东西出来了,行业的发展会受限制,企业的损失也会很惨重。
在出海过程中,中国一些企业就是因为不重视合规,出现了各种各样的问题对于大模型训练来说也是一样的,最关键的是敏感数据不能出境我们在东南亚、欧洲等地区发展好的原因就在于我们坚决服从监管,而且最大限度地配合监管部门做事次元羊。
国内也一样,我们是全国第二家提交大模型审核的企业,北京市第二批通过的其实 AI 这波数据保护法规,各国还在规划中我们也在紧密关注,会全力配合中国是大模型落地比较早的国家,所以我们配合得非常好其他国家可能还没有完全落地,但我们在持续关注。
AI 科技评论:美国的持续封锁,会不会有算力方面的担忧?方汉:肯定会有影响现在业界出现了两个新的摩尔定律,一是,出自 OpenAI ——每 18 个月人类的知识会翻倍,我对此表示质疑;二是,大模型的训练和推理成本会以每年 10 倍的速度递减,也就是说每年的训练成本和推理成本会下降 10 倍左右,我表示赞同。
为什么?因为现在所有人都在拼命优化,也出现了很多新的理次元羊论,比如最早的文生图基本 15 分钟才能完成,现在 4、5 秒就能完成了,直接降了 60 倍另外,手机上现在已经能跑 7B、13B 的模型了,5 年之后手机上一定能跑 80B 的模型,所以最后离线推断一定会成为主流。
AI 科技评论:现在国内很多企业还是有算力方面的担忧的,国内有可替代的吗?方汉:华为 910B 几乎能达到 A100 85% 的性能,主要问题在于他的底层软件的稳定性和硬件的兼容性还在不断修补中,但是用作推理已经没有任何问题了,训练还差一点,还需要大家陪着它再改一段时间。
国内能够达到 910B 水平的一共只有两三家,但是国产芯片最大的问题是产能,只要产能上去了,肯定能替代国内芯片在次元羊设计上一点也不落后,和 A100 的差距已经不大了,H100 和 H200 还需要时间追赶。
(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)面对竞争:差异化是前提,其次是认知AI 科技评论:相对于其他五款产品来说,AI 搜索是新产品,为什么选择搜索这个方向?
方汉:很简单的逻辑AI 搜索不是凭空产生的,是旧的技术和大模型技术结合后推出的新产品其实我们做搜索已经有 6 年的时间了在这方面的技术储备远比想象的多,早期我们做 Opera News,它的背后其实是有一个搜索引擎支撑的,这个搜索引擎每天可能要收集几千万个英文的站点,把新闻抓取下来然后转成用户可以访问次元羊的,就像今日头条一样。
所以 AI 搜索反而是最早 ready 的AI 科技评论:除了 AI 搜索,还有游戏、社交、音乐等产品,这些产品的推出节奏是什么样的?方汉:基本会跟用户的节奏走,我们会在用户端不断地测试,一旦我们认为测试效果、数据和用户的反馈达标了,就会推出来。
目前除了 AI 搜索外,AI 音乐、AI 动漫、AI 社交和 AI 游戏等产品都在海外市场测试中AI 科技评论:可以理解为 AI 搜索主要面向国内,其他产品面向海外?方汉:其他五款产品在海外落地成功后,会考虑在国内进行推广。
首先全世界付费习惯最好的市场是欧美,其次是中国我们首选欧美市场,因为欧美用户的付费习惯比较好,目前 Open次元羊AI 付费最多的用户也集中在欧美市场所以会选择先做价值较大的市场AI 科技评论:其实现在各大厂都在做产品的重构,昆仑在这方面有什么不同?。
方汉:大家的思路不同,我们一直在做面向 C 端的端到端的内容生产方其实从去年我们就一直在思考大模型之后是什么,当时我们就预判了肯定是千模大战,但是在这场战役中,我们不一定能胜出所以我们就想清楚了,不做效率工具,只做平台。
这个事情其实比大家想的要早一点AI 科技评论:关于 C 端,大家都在讨论超级应用,您认为距离下一个超级应用,还有多长时间?方汉:肯定有超级应用,但不止一个超级应用,互联网时代诞生了谷歌、亚马逊、Meta(Facebook),移动互联网催生了 次元羊Snapchat、Twitter,包括国内的字节、美团、滴滴等都是超级 APP,但没有一个超级 app 能把所有超级 APP 集合起来。
所以我认为一个超级 APP 包打天下是不太可能的,未来可能会出现几个超级 APP聚焦到具体的领域,游戏和电影一样不太可能出现超级 APP,社交、音乐、动漫等都有可能AI 科技评论:关于 C 端,大家都在讨论超级应用,您有信心吗?。
方汉:信心肯定得有,我也相信我们一定能做出超级 APP因为我们做的比较早,希望也比较大,但谁也不敢保证 100% 一定能做成,毕竟机缘巧合的事情太多了只能说我们会尽力朝着超级 APP 的方向努力,所以我们一直做平台,不做工具。
因为做工次元羊具是做不成超级 APP 的大模型形态之争:开源是大趋势AI 科技评论:除天工外,昆仑还开源了 13B 模型,好像很多厂商都喜欢把 6B、7B 或者 13B 作为一个节点?方汉:其实逻辑很简单,和显存相关。
4090 消费级显卡的内存是 24G,6B 需要 12G,13B 需要 26G 左右所以 6B 和 13B 都是消费级显卡,大家可以直接拿回去玩,或者供小企业使用,因为消费级显卡特别便宜为什么 A100、H100 性能高,因为一个是 40G 内存,一个是 120G,单卡多少 G 的内存是非常关键的。
这就是为什么苹果新一代笔记本特别强的原因,因为它能跑到 196G所以最新版本的苹果电脑理论上可以次元羊跑一个 300B 的模型,只是慢一点而已AI 科技评论:那为什么参数大的模型会选择闭源?是商业化方面的考虑?。
方汉:因为大部分人都跑不起来,你说是为了商业化考虑吗?任何一家大模型企业都要考虑商业化,这是一件非常正常的事情实际上最重要的还是底座大模型,一个千亿级别的大模型对我们而言,最关键的是技术机密在这之上训练出很多小模型开源给大家使用,完全是没问题的。
AI 科技评论:昆仑为什么要选择开源?怎么看待开源和闭源的关系?方汉:我认为开源的话,做生态比较容易,对中小企业的机会也会更大开源和闭源并不矛盾,二者互为有机组成部分这和做开源公司的 leader 的商业模式有关。
就像 Meta(Faceboo次元羊k)属于后来的搅局者,对他来说,他不依靠大模型,对他的业务也没有致命性的影响,所以他就直接开源了,所以现在开源模型最好的是 Meta 的 LLaMA 2目前国内大模型还处在谁先发完全开源的大模型,大家一拥而上的状态。
我们去年 12 月份发布大模型之后,利用我们的大模型做研发的企业特别多我觉得这是很正常的事但我认为开源的本质是为了构建一个良好的生态,让更多的中小企业能够在我们的大模型上开展一些工作AI 科技评论:现在老生常谈的一个话题是,开源怎么挣钱?。
方汉:做开源的话,一开始大家确实不知道怎么挣钱其实开源怎么变现已经有一套很成熟的逻辑了最近 MongoDB 提出了一个新的逻辑 SSPL,他说我次元羊开源出来,你可以随便用,不用给我交钱但是云厂商不能用这个给别人提供服务。
包括百度、阿里、亚马逊等云厂商,如果要给别人提供服务的话,必须付费但是因为云计算是一个大的趋势,大家都希望云厂商来提供服务MongoDB 的说法是云厂商不许用,只能我来提供云服务,相当于把云服务的版权卡死了。
只有他们能够提供这项服务,这样就会很挣钱,像 MongoDB 每年都有几十亿的营收(更多关于大模型行业的故事,欢迎添加微信 ericahss1224,互相交流,互通有无)AI 科技评论:内部产品是在天工闭源大模型上做的,还是在开源模型上做的?
方汉:是在天工底座大模型之上,裁剪出的各种专有小模型上研发的大模型落地:早期蓬次元羊勃发展,且杂乱AI 科技评论:您认为大模型想要落地难吗?方汉:大模型在 B 端的落地速度会非常快因为有些 B 端企业,尤其是国企、世界 500 强企业的付费习惯极好。
很多人说大模型能不能在 B 端挣钱,就看微软的股价什么时候涨因为现在全世界做 B 端生意的,微软是走的最好的国内的话,要看怎么激发用户的痛点,比如我们做商品图片生成,目前很多小企业、淘宝商家的付费意愿都很强,因为他们找淘宝模特拍一张商品图片的成本可能是 200 块钱到 500 块钱,AIGC 2 块钱到 5 块钱就能解决,所以淘宝模特和摄影师未来肯定会失业。
AI 科技评论:所以不存在大模型商业化落地难的问题了?方汉:当然存在,因为次元羊现在大模型的能力远远不够,他能帮用户解决的问题也是有限的为什么淘宝的商品图片生成会率先被打破,比如一个身穿大衣的模特,多了根手头,少了根手指头,用户是能容忍的,只要简单地修一下就可以了。
但如果是法律问题,你告诉我这个人应该从判 3 年改到判 10 年,这就是一个大问题了所以想要在金融、法律、医疗等比较严肃的行业落地还是有难度的内容赛道就比较容易了,比如漫画画错了就画错了,大家在这方面的容忍度还是很高的。
现在大模型商业化还处在早期蓬勃发展且比较混乱的阶段,但这是任何一项新技术发展的必经之路,如果一开始不杂乱的话,怎么能优胜劣汰出现一批真正优秀的公司呢所以说这是一个很正常的现象AI 科技评论:您认次元羊为哪些行业比较容易落地,哪些困难?。
方汉:容错率低的行业最难进,容错率高的行业很容易进AI 科技评论:三年以来,对大模型有没有一个改观?方汉:大模型的智能能力越来越强,这是我们一开始想不到的,但我认为还有很多所谓的局限性比如智能程度没有那么高,最难的像 3D 模型的生产、以及视频生成技术还没有完全解决。
我们坚信未来一定会解决,但对于中小企业来说,不能等这些问题都解决了再研发产品,而是要提前做好准备AI 科技评论:怎么平衡天工大模型和上层 AI 产品的关系,未来会有所侧重吗?方汉:首先一个是基础架构,一个是上层应用,没有所谓的偏重。
目前大部分应用厂商没有自己的大模型,只能调用别人的 API,这就次元羊会出现很多风险比如出现问题时只能先向上反应,等别人来改再比如 LLaMA 是一个英文模型,它的中文语料不够,所以想要做中文的很难好处在于,从大往小做容易。
我们能基于底座大模型定制各类行业模型,加上对大模型有着深刻的认知和理解,也能加快做行业模型的进度,无论这个模型的质量是不是行业内最好的AI 科技评论:未来竞争会愈演愈烈,怎么保持竞争优势?方汉:我们公司相对比较小,部门间的沟通会比较多。
所以我们对于大模型的研究会朝着离应用更近的方向运行大模型的未来:端侧推理将成为下一个爆发点AI 科技评论:目前国内大模型的发展归于平淡了,您怎么看?方汉:很大程度上是因为算力吃紧训练 GPT-3.5 只需 10次元羊00 张卡,GPT-4 需要 5000 张卡起步。
GPT-5 估计要 3 万张卡左右算力不够很难训出下一代模型这是很实际的问题所以以前是千模大战,现在已经变成百模大战了,未来可能会变成十模大战,我对我们的大模型还是很有信心AI 科技评论:您认为在这波大模型和 AIGC 浪潮中,最受益的是谁?。
方汉:第一波受益的肯定是卖锄头的企业,比如做显卡或者硬件的厂商,下游做光模块、高速网卡的厂商都会从中受益AI 科技评论:通用大模型、行业模型以及应用层的难度一样吗?分别体现在哪些方面?方汉:我觉得不一样,通用大模型的难点在于训练成本和技术积累。
行业模型的难点在于能否拿到某个垂直行业的专属数据比如法律文本,次元羊有一部分原来公开过,但并不是所有人能拿到所有的判定文本,这就是专有数据上层应用考验的则是对行业以及产品形态的理解现在业内有一个普遍的现象,所有的产品经理都是蒙的,不知道用 AI 做什么产品。
而所有做技术的人都在讲 AI 有多先进,你们可以发现做演讲的都是技术人才,很少有产品经理出来讲我用 AI 做了一种新的商业模式,但实际上真正有威力的是谁能够基于 AI 创造出新的颠覆式的商业模式每个层面的难点不一样,最简单的反而是底层大模型,因为只要你有算力,有积累,就一定能做好。
AI 科技评论:昆仑万维最近收购了一个芯片厂商,是为了自己做训练用?还是有其他考量?方汉:模型训练可能还早一点但有一个问题,现在次元羊端侧算力不够,就是手机上不够vivo 前段时间发布了一个模型,高通发布了一个能在手机上跑的芯片。
所以我们认为端侧推理会成为一个大趋势尤其是手机现在手机卖不动了,为什么?因为摄像头和显示屏已经卷完了,4G、5G 也卷完了,之后大家不知道卷什么了,下一波换机潮一定是 AI 换机潮,就是端侧推理,因为端侧推理是不需要付钱的,这些钱已经包含在了你买手机的钱里,比如买手机能一口气买断了多少年的推断成本。
AI 科技评论:也就是说端侧推理,会成为下一波大潮?方汉:对,下一个爆发点一定是端侧推理就像短视频为什么能起来?是因为 4G 加摄像头都卷到了一个临界点,短视频起来和 4G、摄像头的卷有密不可分的关系AI次元羊 卷到最后一定是端侧推理出来后会出现各种惊艳的功能。
而且最后所有手机厂商都会拼命营销,今天你的手机能跑 30B,明天我的手机能跑 50B,是不是跟卷摄像头一模一样?这是我们的一个认知其实这对行业是一种好事,会倒逼厂商训练 7B、13B 等小模型(雷峰网雷峰网雷峰网)
查看原文