大模型涌现,数据流通和安全伦理怎么办?业界谈了这些要点
当前大模型和AIGC引领新一轮人工智能创新浪潮。那么,随之而来的数据流通和安全伦理问题,应该如何解决?
在2023世界人工智能大会(WAIC)上,政企学界围绕人工智能的数据流通和安全可靠进行了讨论。
(资料图片)
数据有效供给是关键
作为人工智能大模型中的关键性因素,数据决定了模型的训练质量、性能表现和应用领域的广度与深度。如何有效获取数据,成为生成式人工智能的第一道“关卡”。
在8日举行的WAIC“大模型时代下的数据要素流通”主题论坛上,上海数交所总经理汤奇峰说, 大模型时代下的语料库建设存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。 “语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”
中国电子副总经理陆志鹏也表示,大模型技术实现高质量发展,数据有效供给是关键,亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。
关于语料库建设的挑战,汤奇峰称,这主要集中在开放程度和数据质量两方面。比如,能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题。“核心问题之一在于产权和参与大模型后的收益分配。”
7月7日,上海数交所官网正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域,并牵头发起语料数据生态创新合作伙伴计划。
汤奇峰说,大模型建设中,语料库是非常重要的方向,语料库采购已经在不少大模型企业成本中占较大比重。上海数交所希望以市场配置的方式组织数据要素推动语料库建设。“比如,有的企业具有海量高质量数据资源,开放意愿度也很高,但需要组织大量社会第三方企业帮助组织相关的大模型训练,我们针对四类数据产品开发情况不同、实际需求不同的供方企业制定了差异化工作策略,着力打造语料数据生态。”
金叶子/摄
安全伦理如何解决
如何平衡大模型发展中的技术与伦理问题,也是今年WAIC论坛上业内人士关注的问题。
中国信通院副院长王志勤在“2023聚焦·大模型时代AIGC新浪潮论坛可信AI专场”上表示,伴随着大模型能力的涌现,人工智能固有技术风险也在持续加大。人工智能可信面临着全新的挑战,对人工智能安全可信的要求也提到前所未有的高度。各国政府、业界纷纷加入推动可信人工智能发展行列中。
在中科院自动化研究所研究员、人工智能伦理与治理中心主任曾毅看来,生成式人工智能目标是通用、多任务。但一个生成式人工智能,没有进行伦理和价值观校准前,问它伦理道德相关问题,它的回答具有非常明确的统计显著性,这个统计显著性反映的是人类的偏见。没有安全伦理框架的人工智能,实际上是没有底线的。“为什么我们进行可信人工智能、人工智能伦理研究?这正是它的必要性所在。我要明确表示一个观点,我们应该明确区分人工智能与人类的界限。”
曾毅认为,在用生成式人工智能进行创新的时候,不能仅仅讨论机遇,也不能只看法律限制。在某些问题上,即使没有触犯法律,但违反了社会伦理道德,也不应该去做。“即使通用人工智能真正 ‘上善若水’,人与人工智能是否能够和谐共生,最终取决于人如何行为,而不是人工智能。”
本届WAIC发布了《可信AI技术和应用进展白皮书(2023)》、《人工智能大模型伦理规范操作指引》、《AIGC风险评估框架(1.0)》等一批成果,规范生成式人工智能发展中伴随的风险和伦理问题。