AI技术场景化 WPS持续发力智能办公

“一个成熟的办公软件,应该学会自己做PPT。”

这是金山办公副总裁姚冬在2021年金山办公技术开放日上的发言。

从2017年姚冬牵头成立AI团队至今,金山办公已经完成了OCR、文档翻译、图文识别检测等多领域应用的落地,一些研究也已被AI顶会收录。


【资料图】

30多年的长期技术积累,金山办公在办公领域早已形成了自己的核心优势。智能化时代,金山办公是如何在WPS上开展技术创新与应用实践的?AI技术又该如何更好的落地?

用工程思维组建AI团队

IBM Watson首席技术官Rob High曾表示,AI的主旨是帮助激发人们的创造力而非自己创造。

不少业内专家也表示,受技术所限,今天的AI还无法完全替代那些创造力的部分。而在非创造力的部分,尤其是一些需要重复性工作的部分,如机器翻译、自动会议纪要、自动排版等,AI可以帮助人们大幅提高办公效率。

2017年,金山办公就已开始了对AI的布局。那时,市场上的AI创业团队多数是学术背景出身,姚冬则决定从工程思维出发组建团队。“我在起步阶段的想法是,如何将工程研发体系建立起来,怎么做出一些产品和功能,让AI能在工程上落地。”

直到今天,在AI团队内部,算法和工程的边界并不明显,姚冬更加注重培养工程师的全栈能力。

姚冬现场讲解金山办公的程序员文化

成立5年来,金山办公的AI团队在每一阶段侧重于不同的目标,分“三步走”战略。前两年,团队更强调积累AI研发能力,包括算法能力,工程能力,数据采集,数据分析能力等。后两年更注重将技术产品化,关注AI产品能力。

姚冬也表示,在未来很长一段时间内,AI团队会将重心放到第三步——产品业务化、技术场景化。只有将产品变成业务,融入到具体场景中,对用户及公司产生价值,创造营收和利润,才能实现长期可持续发展。

支持离线AI计算的深度学习框架KSAI-lite

2021年7月,金山办公在首届技术开放日的现场,宣布开源业界首个面向办公领域的深度学习框架KSAI-lite。这套框架具有免费、开源、跨端的特性,自适应国内外主流软硬件平台,包括国产信创环境,在OCR、机器翻译、智能校对等场景具有显著优势。

这套框架的一个特色功能在于能够离线做AI计算。姚冬介绍,面向办公领域的框架与其他通用的框架不同,并非所有的AI计算都在服务端进行,有些计算一定要在客户端完成。这主要出于几个原因,一是用户数据需要保密,不能上传,必须在用户的电脑上处理,甚至有的客户不联网或在内网,必须在客户端完成计算;还有的计算要求算法执行快且实时,如果上传到服务器再返回,时间就过长了。

因此,可以离线做AI计算的框架就格外重要,无需依赖服务器,在断网的情况下,单机、手机或PC上都能使用。并且,这段框架一定要跨平台,跨多个设备,不必为每一个移动设备或PC设备单独开发一套。

未来KSAI-lite还会在更丰富的平台适配能力、更个性的开发方式、更稳定的业务支持能力上持续发力,为金山办公产品线和整个业界提供更多AI能力的支持。

在开放框架的同时,金山办公AI团队还开放出了一些内部模型,如KSAIOCR开源模型。姚冬表示,团队后续还有计划开放更多模型,如校对、翻译模型,先在内部落地,在应用迭代成熟后再对外开放。

智能写作VS AI中台

如今,金山办公旗下WPS已经衍生出了智能辅助写作功能,只要根据提纲就能自动生成文字段落,帮用户打底稿。

而在智能写作能力背后,其实是由一个统一的AI中台对外输出。目前,金山办公AI中台面向计算机视觉、自然语言处理、语音处理等算法研究方向,围绕办公领域,开发出了近100项AI能力。

AI场景落地——文档翻译

姚冬在接受媒体采访时表示,最近几年,中台十分火热,但它并不是适合所有公司的灵丹妙药。他认为,像办公软件这样生命较长且规模较大的软件项目,非常适合构建一个中台部门进行长期持续的技术投入。

金山办公 AI中台的构建过程是一个自我迭代的过程。在起步阶段,AI中台仅有几个算法工程师负责搭建,随后几年间,随着新场景、新需求、业界新技术的探索,一点点自我成长。待自有算法平台成熟后,再向业务部门以及对外做输出和推广。

现在,金山办公的AI中台能力已逐步对外开放。

智能办公的未来在哪?

谈到AI在办公领域的应用趋势以及核心竞争力,姚冬认为,随着业界和学界不断地研发出一些新的算法,以及开源盛行,算力的提升和普及,未来AI技术的门槛将会降低。这也就意味着,各家在算法能力上的差别将不会很大。

那么,未来的差别来自哪里?姚冬认为,主要来自于对用户场景的挖掘。未来,谁有更多的用户场景,谁就拥有了“护城河”。

在CV领域,金山办公结合办公场景做了很多智能化的应用,最有代表性的是在版式转流式的应用场景上,以前在PC时代,拍照扫描功能算不上Office领域的功能,但在移动时代,已变成了常用功能,金山办公已在这方面做得比较成熟,且优势突出,例如在识别后的格式复原就是一项已在业内做到领先的功能。

与单纯的功能开发不同,NLP技术需要结合办公及文档的场景深入使用,引导用户来帮助提升算法,以提升AI的准确度。在NLP方面,WPS自身积累了很多对办公用户有用的数据,这是其他厂商所不可比拟的。

“WPS为文字处理而生,而文字是办公活动的核心。我们在未来会继续以文字处理为核心研发新技术,满足全行业数字化转型的巨大需求。”姚冬表示。

关键词: