近两年,互联网巨头BAT的人工智能战略格外受人关注,百度全面押注AI以来,在2017年的下半年,百度股价三个月上涨了40%。除了BAT这三家之外,搜狗、网易等二梯队互联网大公司的AI战略也已经逐步清晰。
9月6日下午,网易有道在北京举办“2018网易有道AI开放日暨智能翻译硬件二代发布会”,向媒开发者、合作伙伴、媒体记者介绍了网易有道AI战略和AI核心能力、有道智云在教育/办公/智能硬件三大行业解决方案,同时还发布AI硬件新产品:有道翻译王2.0 Pro。
2011年,网易开始布局AI,由浙江大学计算机博士李晓燕牵头,在内部储备相关技术和团队,为游戏、邮箱、音乐、云服务和电商等业务提供AI支持。不过,当时的AI还没有因深度学习而突飞猛进,AI还无法上升到集团战略层面。
节点性的事件发生在2017年。网易AI团队升级为人工智能事业部,开始真正为集团其他业务赋能。网易也划分出AI战略的三条线:AI平台、基于计算机视觉的网易AR、语音识别和NLP方向上的语音交互业务。
网易AR在网易AI战略中占据很重要的地位,与网易游戏、电商的发展紧密联系;以翻译为核心的网易有道在语音识别、NLP方向则有天然的基因。
网易有道近年来在教育领域发展很好,AI技术的加持也进一步加快其步伐。网易有道是目前国内用户量最大的互联网教育品牌之一,服务中国互联网8亿用户, 有道词典用户在2018年初刚刚突破7亿大关。旗下拥有包括网易有道词典、有道精品课、有道翻译官、有道云笔记等大众教育的工具类和在线日,网易有道宣布完成首次战略融资,此轮融资由慕华投资领投,君联资本参投,投后估值达11亿美元,跻身中国互联网独角兽俱乐部。至此,网易已经拥有三家独立融资的品牌:网易云音乐、网易味央、网易有道。网易有道CEO周枫告诉雷锋网,由于网易占据网易有道超过50%的股票,网易有道依然是网易旗下子公司。
网易有道作为独立子公司,网易的AI布局与有道还是有很大区别。有道的核心AI能力有:神经网络翻译、OCR识别、语音识别和语音合成,都是由有道团队独立研发。
有道的规模不是最大的,因此在业务上得有明确定位,结合自己的能力、资产和行业趋势,AI和教育是最适合有道的,且这两个方面也有所交叉,AI对教育能有极大提升。
C端就是网易有道的词典、翻译、课程等产品,B端则是通过有道智云输出;第二个特点就是,同样重视云端和终端AI能力的发展,除了智云之外,有道也开发出了很多离线的终端AI能力,例如AR实景翻译完全依靠端侧;第三个特点,有道重视实际的场景和领域,例如现在大力发展的政企、教育、办公等三个场景。有道翻译王2.0 Pro
我们先来看看这次发布会上的全新硬件——有道翻译王 2.0 Pro,这款翻译机集成了有到啊的多项AI能力。
2007年12月网易上线有道词典PC版,将词典软件带入互联网时代;2008年8月推出自主研发的机器翻译引擎有道翻译,采用SMT统计翻译技术;2009年1月,网易上线月,有道词典用户突破3亿;2015年4月,有道词典用户量破了5亿,年底破7亿;2016年3月,推出有道词典海外版本U—Dictionary;2017年4月,有道神经网络翻译YNMT上线,使得过去一年网易在翻译技术上的进步,超过了过去十年的总和;2017年的10月,推出了有道的第一款智能硬件产品——有道翻译蛋,正式进入硬件领域。
据雷锋网了解,2017年底,智能翻译机成为继智能音箱之后的又一大AI硬件行业热点,科大讯飞、搜狗、网易都发布了自己的翻译机产品,有几点原因:首先,神经网络翻译技术使得机器翻译水平大幅度提升,能够更好地解决线下对话问题,而过去由于手机硬件限制,我们无法在移动设备上运行深度学习模型,翻译机成为外出刚需,此外,语音合成技术也促进了实时语音翻译,更加实用。
2017年10月,网易推出有道翻译蛋,带触屏、支持27种语言在线翻译,不支持离线元。今天,有道发布翻译智能硬件“有道翻译王 2.0 Pro”, 网易有道副总裁刘韧磊介绍到,翻译王可以支持中英日韩四国语言离线种语言在线种语言离线种语言在线拍照翻译;全文收录《牛津高阶英汉双节词典(第7版)》;搭载语音助手。
与上一代有道翻译蛋相比,重大更新亮点在于引入自研离线翻译技术、拍照翻译功能,也能支持更多的语言。
。由于翻译机使用频率最高的场景应该是出境游,而出境的网络流量费用高昂,很多地方网络信号差,离线翻译成为一大刚需。但是离线翻译技术对硬件和软件要求都很高,目前,众多翻译机中,只有科大讯飞的晓译翻译机、搜狗翻译宝以及网易网易王三款硬件能支持离线翻译。
,需要基于计算机视觉的OCR识别技术,还需要较大的屏幕来显示图像,目前科大讯飞、搜狗、网易三家也都在做。据媒体测评,讯飞翻译机2.0的屏幕小拍不全,容纳信息有限,需要进行多次翻页等繁琐的操作,搜狗翻译宝3.1寸高清屏幕体验更好,网易翻译宝此次也采用了3寸的高清屏。
,以“你好,有道”唤醒,支持语音指令(可进行音量、屏幕亮度调节),语音交互问答;可询问古诗(500首中小学生常用古诗词、2万首唐诗宋词古诗集)、百科(数百万百科词条)、翻译结果、天气(可查询当天和未来2天的天气)、汇率(可查询实时汇率,交易时以银行柜台成交价为准)、计算结果。据介绍,翻译王的语音助手的语音识别、语音合成、对话系统都是有道自研。在在智能音箱、智能家居大火的现在,把语音助手放进翻译机可以算是其最初的尝试,或许有道还会有更多的布局。
有道AI技术的围绕着语言这一条主线展开,解决各个场景下的语言处理问题。第一个技术,神经网络翻译。在机器翻译这个领域,有道已经耕耘十年,经历了从SMT统计翻译模型到神经网络翻译模型的迭代,目前有道的神经网络翻译模型支持7种语音的中文互译,还支持英文与印尼、阿拉伯语等语言的互译。据陈,有道词典海外版U-Dictionary已经超越其他竞争对手,在印度市场排行第一。
在英译中和中译英的对比评测中,有道神经网络翻译的BLEU值(国际通用的衡量翻译质量的指标)超过了其他两款国外翻译引擎。(在这里网易并没指明这两家翻译引擎据雷锋网了解,谷歌和微软都比网易更推出神经网络翻译技术)。
第二个技术,基于OCR的图像翻译方案。OCR技术是指在照片里面来找到文字区域,同时把文字识别出来,这个技术可以和翻译技术一起来用,也可以作为一个独立的技术用在其他场合,比如文档的电子化。
整个链条除了OCR还有别的技术,在文字识别后,还需要对图像中的文字进行组行、组段,乃至于组篇章,从语义、语言的角度组织起来,然后再传送到翻译引擎里进行翻译。最后,还会根据原图的排版,对翻译结果进行排版和渲染。
OCR识别技术的难点在于一些复杂的场景,例如图像角度倾斜、手写识别、混合多语种等,目前有道OCR技术能处理19种语言。
第三个技术是语音识别、语言合成和对话系统。翻译王就用到了这些语音技术,能够进行汉语、英语、日语、汉语、葡萄牙等五种语言的语音识别和合成。有道也做了一些特色的项目,例如用机器学习用户上传的录音,只需十分钟的录音文件,就能合成相似的音色;以及离线语音功能。
段亦涛告诉雷锋网,网易语音团队成立才一年多,去年推出有道智云时还没有语音能力。有道成立语音团队,自己做语音的原因是因为,,虽然现在市面上可以买到语音技术,但是却买不到离线语音技术,教育、翻译这样的终端产品需要离线技术,“没有离线技术是会被别人卡脖子的”,因此有道就投入了语音这块。
在2017年,科大讯飞已经靠着语音成为市值逼近千亿的巨头,BAT也都已经布局语音技术多年,有道这个时候进入显然有些晚。但是在周枫看来,有道做AI能够立刻找到大的场景作为验证过程,比纯做toB的公司迭代周期和最后出来的产品的第一版第二版产品的品质要好很多,总体上有道是比较垂直的业务形态。
目前,神经网络翻译、OCR、语音技术等都已经通过有道智云开放给合作伙伴,在有道智云上线一年后,机器翻译服务了超过700亿字符的请求,我们OCR服务的120亿的次数请求,开发者数量达到4万。
网易高级副总裁、网易有道CEO周枫在开场致辞中指出,新十年的红利将是人工智能技术,金融科技和物联网(IoT)。谈及有道的AI布局,周枫认为智能硬件是互联网面向消费新场景的设备延伸,有道智云则是面向合作伙伴的整合优化服务,强化这两部分能够使有道AI产品矩阵的布局和扩充更为稳健。
首先是机器翻译,有道智云提供拍照翻译、原图翻译、AR翻译三种功能。在智能交互方面,有道云提供语音助手和有道魔镜(智能识别物体)。
这些能力都以高级API的形式存在于有道智云上,开发者可以只花几分钟时间就将这些能力集成到自己的应用中。目前,已经有多家手机厂商与有道智云合作,使用了这些解决方案,包括OPPO,华为、小米、三星、360等。
首先是文档翻译,通过OCR技术,有道能识别文档结构、图片、表格、公式,10页4000词的英文论文PDF,1分钟内就能完成翻译。第二个是文档数字化,有道提供了一键导入图片、自动识别、文本审校、语义理解、文档终校等支持,实现中文标准印刷体99.9%识别率。黄瑾介绍到,很多政府、企业都有将文档转化为电子版的需求,但是挑战是必须百分之百地正确,能识别特殊符号、表格等,不能出错。这一点,有道做了很多细化的工作来满足需求。
在教育场景,有道提出了三套解决方案:面向数字化内容的解决方案、面向教育过程的网络化解决方案,以及教育方法的智能化解决方案。
在数字化内容方面,有道OCR技术可以帮助纸质教育材料实现数字化,比如将试题收入电子库;在教育过程方面,有道推出了智能答题板、作业批改系统、AR拍照自动判题;在教育方法智能化方。