热风口下的冷思考:ChatGPT还能飞多远?

人民网记者申佳平

不仅“上知天文、下知地理”,似乎还能对答如流、出口成诗,甚至还能写剧本、编音乐、写代码——最近,一款名叫ChatGPT的人工智能聊天机器人火爆全球。由此,一系列关于新一代技术变革、人工智能替代人力、巨头企业扎堆入局AI的讨论在互联网上甚嚣尘上,并引发资本市场跟进炒作。

然而,随着越来越多的用户实测结果不及预期,许多人也在重新审视ChatGPT是否真如想象中那么完美。热闹过后,也许是时候开始冷静思考,ChatGPT的发展模式面临哪些不可规避的问题和风险?这对我国人工智能发展有何重要启示?


(资料图片仅供参考)

ChatGPT页面截图。

ChatGPT 的“无所不能”和“无能为力”

问:“ChatGPT和其他聊天机器人有什么不同?”

答:“ChatGPT是一种先进的语言模型,具有更强的语言能力和知识范围,能够与用户进行更自然有效的对话。”

以上是人民网财经和ChatGPT的一组对话截图。

正如ChatGPT在回答人民网财经提问时所言,相较于此前科技企业推出的聊天机器人,ChatGPT在智能化程度上大幅提升,给对话者的感觉也“更聪明”。

2022年11月底,ChatGPT由美国一家名为OpenAI的人工智能研究公司推出,可以实现与用户之间的智能聊天对话,属于偏任务型的多轮对话和问答系统。

“ChatGPT的出现,是人工智能技术发展的一次飞跃。”传播内容认知全国重点实验室首席科学家张勇东表示,其在交互和创作方面展现的出色能力,标志人工智能由决策式向生成式转变。

中国信通院云计算与大数据研究所内容科技部副主任石霖介绍,ChatGPT的技术基于OpenAI开发的GPT3.5系列模型。该模型参数规模据推测达十亿级别,加之在训练过程中引入人类反馈机制技术,使得ChatGPT在回答准确率、道德表现上进一步得到提升。

近期,有研究发现,ChatGPT的“聪明”程度足以通过美国行医执照、研究生入学等考试。清华大学计算机科学与技术系教授黄民烈表示,目前ChatGPT的对话能力已超出人类平均水准,未来其能达到的类人对话水平值得期待。

不过,看似“无所不能”的ChatGPT,也会存在“无能为力”的尴尬。

如,目前ChatGPT难以进行高级逻辑处理。在完成“多准快全”的基本资料梳理和内容整合后,ChatGPT尚不能提供综合判断、修改调整、逻辑完善等“画龙点睛”之笔,而这恰恰是人类高级智慧的体现。

此外,用于ChatGPT语言模型训练的数据为2021年底前的数据,因此在一些最新的数据和事件方面它可能会存在滞后。这在一定程度上造成了ChatGPT在内容准确性和知识性上的短板。不少用户反映它经常“一本正经地胡说八道”。

ChatGPT在常识问题和算术题上出现错误,被网友戏称“一本正经地胡说八道”。

预训练“机器人”潜藏侵权风险和监管隐忧

以ChatGPT为代表的预训练模型“机器人”,在预训练过程中需要“投喂”海量数据,才能使得模型能够成功理解人类语言并模拟出愈加真实的类人表达方式。

据OpenAI的相关论文透露,ChatGPT的训练集使用了总计约320TB的文字信息,涵盖超4000亿词和约31亿个网页,其中包括来自新闻、博客、社交媒体的内容。

但这种未经授权获取文本数据的预训练方式已引发争议和不满。推特(Twitter)现任首席执行官埃隆·马斯克就于近日宣布,叫停ChatGPT访问Twitter数据库来获取培训数据,声称“需要更多了解OpenAI的治理结构和未来收入计划”。

无独有偶,近日,拥有国际性体育资源的盖蒂图片社对同为人工智能企业的Stability AI提起诉讼,指责其未经许可从其数据库中复制了1200多万张图片,用于建立竞争性业务,并侵犯了该公司的版权和商标保护权。

左图为盖蒂图片社原图,右图为人工智能生成的图像,其包含了盖蒂图片社的版权水印,侧面印证了人工智能在学习过程中误将水印理解成了图片的一部分。图片来源于网络

张勇东表示,类似ChatGPT这样的预训练模型,其训练数据往往来源于书籍、网站等,而其用于训练的语料未经授权,存在版权风险。且这种训练过程往往不对外公开,训练数据也不对外公布,因此版权拥有者并不知情。待模型完成后,生成的内容往往是原始训练数据的某种组合,对外服务过程中就会存在侵犯原始版权的问题。

“这点与搜索引擎的服务机制不同。搜索引擎只是提供原始内容的链接,但ChatGPT则是以自身生成内容的形式提供服务,甚至连模型自己都无法确认是参考或综合了哪些原始素材。”他说。

正因如此,对于人工智能生成内容不能全盘接收,要注意甄别风险、加强监管,正成为业界共识。

近日,OpenAI首席技术官米拉·穆拉蒂在接受媒体采访时坦言,和其他聊天机器人一样,ChatGPT可能会编造事实,也可能会被坏人利用,需要政府部门尽早介入进行监管。

“从长远来看,社会各界应该积极推动制定人工智能生成内容(AIGC)的规范标准。世界各国应该共同努力,基于海量数据研发生产出更加符合全人类道德价值标准的内容。”张勇东说。

他建议,要强化数据源头把控,尤其是对涉及隐私、伦理、道德、政治偏见和种族主义等内容,要进行更严格的数据审查和清洗。

石霖建议,应加快布局人工智能安全标准、伦理规则的研究,针对人工智能新技术可能带来的版权风险、内容风险等推动形成行业自律。同时,还应做好AIGC技术应用的科普工作,提升民众的科学素养和风险认识。

炒作“哑火”后思考行业长远发展

ChatGPT的爆红,让OpenAI赚到了第一桶金,也让各路资本争相入局。

2023年1月,微软再次宣布向 OpenAI 投资数十亿美元。据了解,这是目前人工智能领域规模最大的一笔投资。投资机构红杉资本预测,未来AIGC有潜力产生数万亿美元的经济价值。

连日来,A股市场也经历了人工智能概念股大幅波动。但随着监管函的下达,炒作现象逐渐开始“哑火”,更多关于人工智能行业长远发展的思考和理性声音正在出现。

针对人工智能将取代部分人类职业的网络讨论,张勇东直言,人工智能技术距离真正达到类人的程度还有很长一段路要走。目前以ChatGPT为代表的AIGC在逻辑性、可解释性和可溯源性方面都有待完善。

“国际上先进的人工智能发展都不是一蹴而就的,而是有迹可循、不断突破的。”人工智能企业智谱AI首席执行官张鹏表示,“ChatGPT的出现是否意味着人工智能已经‘踩’到了通用人工智能这一终极目标的‘门槛’,还需冷静看待。”

多位行业专家表示,可以预见的是,在“人机共生”的未来时代,人工智能确将解放人类、提高效率,但其身份是“助手”而非“主人”。

而针对ChatGPT爆火引发的对国内人工智能产业的质疑,也需要用更加全面的眼光来看待。

多年来,我国人工智能产业在生态完善、技术研发、应用推广、人才建设等方面不断培育优势:过去十年间专利申请量位居世界第一,核心产业规模超过4000亿元。国际市场分析机构Gartner在研究报告中指出,阿里巴巴、百度、腾讯等科技企业在语言AI技术上的排名进入世界前十位……

“ChatGPT的成功再次给我们提了个醒,人工智能的发展需要在基础研究和技术研发方面不懈坚持。”张鹏表示,过去我国人工智能产业对基础设施和技术的重视和投入不足。未来,如何发挥长处、补齐短板,真正实现我国人工智能领域的关键跃升,值得期待。

展望未来,石霖认为,以ChatGPT为代表的AIGC技术应用,将形成“智能底座+服务”的商业模式。AIGC技术应用还将进一步发挥在数据、算力和算法上构筑的技术壁垒优势,对人工智能的应用推广带来深层次变革。

他指出,AIGC技术应用正在软件代码编写、工业设计、分子结构预测、基因编辑等科研生产领域探索应用场景,帮助缩短研发周期、降低试验成本,也将改变软件、工业、医疗、生物等行业运行模式。

张勇东表示,过去十年,人工智能领域主要围绕更好的感知和理解来发展,比如自动驾驶、数字医疗。未来十年,人工智能领域深层技术有望不断突破,将具备重塑数字化内容生产和消费模式的强大潜力。

深度学习技术及应用国家工程研究中心主任、百度首席技术官王海峰认为,融合大规模知识的深度学习是人工智能发展的重要方向。要联合产学研各方力量,探索协同育人创新模式,建立全方位多层次的人工智能人才培养体系。

关键词: