王小川：大模型创业挺快乐，最好的大模型未必来自大厂

清华大学东门外不远的搜狐网络大厦，曾是搜狗的办公室，在今年大模型创业热潮中，王慧文成立的光年之外就在这里办公；而原搜狗CEO王小川，则将百川智能的创业地选在了与其一路之隔的赛尔大厦。站在这里，甚至可以看清对楼窗边的办公环境。

不到一年时间，大模型创业者已经几近红海。隔着马路的另一面，光年之外创始人王慧文因健康问题离岗退出，将创立不到半年的公司卖给美团，引起了外界对于创业者心理健康的关注。

(资料图片)

8月8日下午，在赛尔大厦17层的一间会议室里，当王小川被问及此事以及“大模型创业压力大不大”时，他对第一财经等媒体说：“我听说慧文是特别负责任的。他是国内几个主流做大模型里唯一一个没有强势的技术背景的，对他的挑战比其他家要大。工作中要做大量的技术决策、招什么人、走什么技术路线图、需要多少计算资源……一定会面临非常多的决策压力。”

王小川说，“不是做大模型压力大，是没有技术背景做决策压力会大很多，但是技术足够的话，其实挺愉悦的，我们的进度是在一个快乐的状态。”

“也就是说不会抑郁？”记者追问。

“如果慧文做成了（大模型），我会抑郁的。”王小川开玩笑式地回答。

搜索虽晚，但赶上AI好时候

从今年4月下场杀入大模型到现在，王小川说，比当年搜索引擎时候的成就感更大。

过去，搜狗想从搜索转问答，搜索输入法想做续写，尽管当时搜狗已经做了百亿的参数模型，把全身武艺都用上了，但始终不能有效地把搜索变成问答，实现不了今天大模型才能达到的效果。他说，今天有了大模型的加持，在搜索增强方面将大有可为。

而对于加入如火如荼的“百模大战”，他回应：确实每个有技术理想的企业都想下场去试一下。

ChatGPT火了，有朋友对王小川说，“你特别适合做大模型”，因为这正好需要用到过去搜索、输入法等相关的AI能力。他说当时回想了一下，自己干了20年搜索，从来没人说：“小川，你适合做搜索。”

当年王小川创立搜狗做搜索，比百度晚了四年，因此在行业里一直处于跟随的位置，做创新突破特别难，现在赶上了信息时代走向智能时代，大家站在同一个起跑线上，新的机会来了。

王小川说，其实自己也有压力，尤其在一开始，要抵制动作走形的地方。比如有投资人说，搜索公司不适合做大模型，因为谷歌也没干成，做搜索的人可能已经“脑子锈了”、思维固化了，再去做大模型可能是个减分项。还有人认为在新公司里有“老搜狗人”的加入，不够开放，建议他要多招90、95后海归回来的“小鲜肉”。这些压力其实不是来自内生，而是市场审美理念的不同。

他说，搜索这个模式存在太久了，以至于大家慢慢忘了搜索本身也是AI，且搜索和输入法本身就是把语言AI用到极致。百川智能技术联合创始人陈炜鹏对记者举例，做大模型的第一个环节是数据从哪来，中文互联网网页中的数据高达万亿、百亿量级，搜狗此前的数据积累，能让他们知道哪里有好的数据，并且将这些数据进行收集、处理、识别，在这一领域，百川智能目前的团队有较强的技术积累和方法论。此外从人才来看，搜狗原有团队有着较强的战斗力，搜狗原COO茹立云、原CMO洪涛相继加入进来，以及有更多年轻人才的加入，形成了目前百川智能的人才梯队。

从4月宣布下场做大模型后，百川智能动作迅速。6月发布70亿参数开源大模型Baichuan-7B，7月发布130亿参数开源大模型Baichuan-13B。

这两款的大模型引擎，并没有立刻商业化，王小川说首先是填补空白，展现自家的技术实力，相信伴随着开源后不断的技术迭代，商业模式水到渠成。他透露，目前有150余家企业申请使用百川智能大模型。

“谁是最好的大模型”还没结论

在发布两款开源大模型后，今日王小川发布了百川智能新模型Baichuan-53B，不同的是，这一次是参数规模更大（530亿）的闭源大模型。

在王小川的电脑页面上，向百川大模型提问的对话一幕幕闪过，比如“以古龙的风格写个朋友圈”、“罗刹海市的歌词是什么”、“300P算力相当于多少张A100”、“讲讲卡夫卡的名作《城堡》”等等。他说，这次大模型的文科能力更好，比如在理解古诗、生成有个性化风格的文章等方面。

目前的大模型有以OpenAI GPT-4为代表的闭源大模型和以Meta Llma2为代表的开源大模型两股力量。后者正在快速地拉拢“朋友圈”，对前者形成有力冲击。

谈到最近热议的开源与闭源之争时，王小川说，开源确实容易“建立人品”，“朋友多多的”，让大家迅速了解和评测；同时开源也是为商业化做准备，如果大家用起来觉得不错，当需要更好的服务和更大的参数时，可以探索进一步的商业化路径。

但是他认为，开源和闭源并不像手机中iOS或者安卓操作系统只能二选一，从tob角度，开源闭源其实都需要。他预计未来80%的企业会用到开源的大模型，因为闭源没有办法对产品做更好的适配，或者成本特别高，闭源可以给剩下的 20%提供服务。二者不是竞争关系，而是在不同产品中互补的关系。

王小川还提到，在6月发布第二款大模型后第二天就飞去硅谷。第一个收获是对齐认知，交流技术思路，到底走开源还是闭源……第二个收获是美国做技术很牛，但是应用能力可能有短板。

他说，在硅谷和 OpenAI 交流时，他们讲理想时满眼放光，走得非常远，比如他们现在做 GPT-4 需要 2 万多张卡做计算，国内都没见过这么大的规模。对方还很自豪地说正在设计把 1000 万颗 GPU 连在一块做计算模型。“要知道英伟达一年才生产100万颗。”而在怎么去做应用、做产品上，这可能是OpenAI的短板。

这让王小川意识到，光跟着OpenAI走是不够的，理想上确实拼不过，但是在落地上，更有底气了。他说在去硅谷之前自己认为，是“在理想上比OpenAI慢半步，在落地上比OpenAI快半步”。从硅谷回来之后改成了：“在理想上比OpenAI一半步，在落地上快三步。”

而在对比中美大模型时，王小川还提到，美国闭源大模型的头部格局几乎已经定，比如OpenAI、Anthropic的Claude，Google也拿到门票，已经没有太多悬念，投资人也不会再投。

但中国的情况不一样，面对轰轰烈烈的“百模大战”，王小川认为，钱是重要的是，最终决定的力量还是人和团队、组织能力。大厂钱多、人多、算力多，但组织效率通常不一定够好，创业公司的组织效率可能好、也可能不好。“中国谁做了最好的大模型，还没有结论，大家都在争取机会，而且不一定落在大厂里。”

王小川：大模型创业挺快乐，最好的大模型未必来自大厂

相关推荐