当21世纪初人工智能在语音辨认和图画辨认范畴取得打破并敞开工业化脚步时,科大讯飞就承认了专心语音工业的开展方向,并现已成为亚太区域闻名的智能语音工业上市公司,屡次荣获“国家科技前进奖”以及我国信息工业自主立异最高荣誉“信息工业严重技能创造奖”,在《麻省理工科技谈论》“2017全球50大最具技能创造力企业”中,位列全球第六、我国榜首。
从智能语音技能起步,开发智能语音渠道,树立中文语音交互技能规范,科大讯飞在人工智能范畴逐步成为领军者。伴跟着消费端产品继续输出,讯飞输入法、讯飞翻译机等让越来越多人看到了我国科技企业在人工智能范畴的跃进。
一、产品形状及中心技能
在人工智能工业迸发的要害窗口期,科大讯飞加大人工智能技能和运用的投入力度,接连5年坚持研制投入超越销售收入的20%。近年来讯飞在语音辨认、语音组成、机器翻译、常识推理、常识发现、机器阅览了解、图画辨认、图文辨认、认知了解等范畴,屡次在竞赛和评测中拔得头筹。这些中心技能的研制渠道和作用,构成了讯飞生命树的“根系”,技能中心、硬件中心、功用支撑、营销支撑构成了讯飞生命树的骨干,而在“让机器能听会说,能了解会考虑,用人工智能建造美好世界”的方针驱动下,各个详细事务方向和产品类型成为讯飞生命树结出的果实。
回忆科大讯飞的智能语音技能研讨之路,深度学习一向贯穿其间。2010年,我国开端进行深度神经网络(DNN)语音辨认研讨,科大讯飞也参加其间,并随后推出了业界首个依据深度学习结构的商用中文语音辨认体系。尔后,为了处理语音辨认体系在实验室与实践场景运用精确率落差的问题,研制团队以1年半左右的周期继续推进技能结构迭代更新。因为循环神经网络(RNN)开端逐步代替传统的深度神经网络(DNN)成为干流的语音辨认建模计划,2015年,全新的循环神经网络(RNN)语音辨认体系全面晋级。2016年,在提出前馈型序列回忆网络(FSMN)新结构后,科大讯飞结合经历再次立异性研制出深度全序列卷积神经网络(DFCNN)。现在,讯飞语音辨认体系完结了高速迭代,一般场景下的辨认精确率可达98%。
从智能语音技能开端,再到人工智能技能,科大讯飞在技能范畴走上一条由“运算智能”到“感知智能”再到“认知智能”的沉积和演进途径。运算智能指的是机器“能存会算”,在这一阶段,机器现已远超人类了。感知智能便是让机器“能听会说”,机器听清人说的话,依托的是语音辨认技能,机器开口说话,需求的是语音组成技能,现在讯飞中文组成音在业界也是全世界仅有超越普通人说话水平的体系。认知智能便是让机器“能了解会考虑”,即能够了解言语、进行常识表达和逻辑推理,是人工智能开展的难点与要点。科大讯飞从2014年起就启动了“讯飞超脑”计划,专心认知智能范畴的研讨。2017年起科大讯飞正式承建我国首个认知智能国家要点实验室,这也是我国在认知智能范畴的榜首个国家级要点实验室。
科大讯飞将感知智能与认知智能紧密结合,在不同范畴中相得益彰。经过语音辨认和语义了解在底层的深化交融,在语音交互上,现在现已研制完结可量产的支撑远场辨认、全双工、多轮交互、方言辨认等特性的软硬件一体化的AIUI产品计划,明显提高了人机语音交互的成功率和人机交互开发的快捷性,并成功在智能音箱、智能电视、智能轿车、智能家居、智能机器人等范畴完结广泛的运用落地。
二、运用场景
科大讯飞凭仗“能听会说,能了解会考虑”的机器智能,不断扩展至多个运用场景,现已构成三个同心圆。榜首层是中心层,环绕“讯飞超脑”构成了教育、才智城市、顾客、政府、才智医疗、智能服务和智能轿车等事务范畴;第二层是探究层,鼓舞内部施行创业机制和战略协作机制,经过本钱枢纽的办法推进人工智能工业化;第三层是开发层,环绕人工智能中心开发渠道,为立异创业者供给技能和数据支撑,助其在各运用范畴进行事务立异,推进整个工业生态构建。
在新闻传达范畴,科大讯飞现已构建了一套A.I.才智媒体处理计划、一套老练的生态构架。依据“A.I.才智媒体云渠道”的中心才能,包含智能语音和机器视觉技能(语音辨认、语音组成、人脸辨认、智能拆条、天然言语、OCR辨认、语音交互、语音转写、机器翻译、智能引荐、声纹辨认、NLP、涉黄涉恐监控、场景/事情辨认、服务监控、用户办理等),打造出高效化、精品化的内容出产渠道,全面化、精准化的内容运营渠道,个性化、前沿化的内容传达体系。
在内容出产层面,科大讯飞经过“A.I.才智媒体云渠道”为媒体作业者供给“采编播审存”一整套流程的产品,包含修正制造环节的“智能文稿唱词体系”,播出环节的“智能直播字幕体系”与“智能虚拟播报体系”,监控与审阅环节的“智能内容监审渠道”,存储环节的“智能内容办理渠道”。
“A.I.才智媒体云渠道”具有多形状服务办法,具有软硬件两种产品形状,匹配客户需求进行安全可控的私有云布置。经过集成规范的SDK/API,为用户供给语音辨认、语音组成、天然言语了解等功用和服务。具有易调用的一致接口(一键输入方针内容即可获取回来内容,无须二次集成开发组合调用,接口易用)、一致办理的操控后台(才能介绍试用、API接口试用阐明、服务监控,让人工智能的运用更简略,7×24监控让服务更安全),具有依据事务定制、运用功率高、服务安稳性实时性高、可扩展性强、安全保密等优势。
1.采访录音收拾
采访录音收拾耗时耗力,存在拾音作用差、音质喧闹、拾音间隔较远、音质不明晰、音频隐私无法保证、文件易走漏等问题。讯飞听见的语音转写能够完结1小时音频5分钟出稿。
2.文稿字幕制造
传统节目字幕制造费时吃力,存在来历多、数量大、功率低、本钱高级问题。讯飞的智能文稿唱词体系能够完结智能语音转写、智能文稿断句、主动时码对齐、多语种翻译、文本音频联动修正、多种格式导出。
3.虚拟视频、语音播报
针对音视频播报海量化、主持人作业强度高的痛点,科大讯飞AI虚拟主播运用讯飞的语音组成、语音辨认、语义了解、图画处理、机器翻译等多项人工智能技能,完结了多言语的新闻主动播报,并支撑文本到视频的主动输出。能够完结虚拟形象、多言语播报、声响定制、实时组成、表情生成,支撑音频、视频实时快速导出,满意各种场景的内容主动化出产。
针对传统有声书(有声新闻)制造本钱高、功率低一级问题,讯飞人工智能技能能够完结有声书制造批量化。
在新媒体运营上,构思H5制造技能不只具有特征、明星、名人IP声响的授权运用,还能够进行声响个性化定制,如用户UGC可生成专属语音以及电音、Freestyle、方言Rap等多种搞怪音效。灵敏词检测可下降传达危险。与传统的H5比较,智能化的H5产品以其定制化、交互式增强个性化、参加感,带动传达共享。
4.媒资内容智能监审
跟着媒资的“海量化”,内容监审压力越来越大。机器辅佐能够完结多通道实时报警提示,要害词、人脸、声纹等多维度剖析研判,前史音视频发掘,要害问题提取及舆情研判内容主动化陈述提交等功用。
5.智能媒资办理
语音辨认能够完结对音频的快速检索和编目、音字同轨、多维度标签和智能编目。将音频数据分类会集管控,获取当期全量资源库并数据化;经过智能语音编撰技能转写成文本,构成音字对应的数据文件;结合媒资结构化标签,对转写后的海量视频资源进行管控;在信息检索、用户画像、资源分类、大数据剖析等方面发掘数据价值。
三、用户体会与商场反应
到2019年末,讯飞敞开渠道开发者总量超越110万,生态协作伙伴达160万。讯飞输入法累计用户超越7亿,月均活泼用户超越1.4亿,语音活泼用户占比61%,支撑23种方言;讯飞翻译机3.0支撑多言语互译,掩盖近200个国家与区域言语,其间中英在线语音翻译水平达CATTI英语二级规范,新增了多个翻译语种,支撑老挝、波斯、乌尔都语等“一带一路”沿线国家的言语翻译,以及普通话与粤语、维语、藏语的即时互译,此外还支撑粤语、四川话、东北话、河南话四大方言与英语的互译。
在近期宏观经济影响以及科大讯飞向人工智能2.0战略调整的布景下,科大讯飞2019年上半年完结营收42.28亿元,同比增加31.72%;毛利21.33亿元,同比增加33.11%;完结归属于上市公司股东的净赢利1.89亿元,比上年同期增加45.06%,扣非后净赢利增加达56.61%。其间,顾客事务智能硬件完结经营收入4.93亿元,同比增加47.80%;教育产品和服务完结经营收入9.79亿元,同比增加48.86%;政法事务完结经营收入4.59亿元,同比增加31.58%。从这些数据中能够看到,在To B+To C双轮驱动下,科大讯飞正在迎来新赢利拐点。
传媒范畴尽管占比不大,但科大讯飞对其的AI研制赋能不断走向体系化规划化。经过战略协作、联组建立实验室等办法,科大讯飞现已与国家新闻出版广电总局播送科学研讨院、安徽播送电视台、上海播送电视台等广电体系,以及人民日报、新华社、人民网、央视网等干流媒体深度协作,今天头条、新浪财经等移动客户端,喜马拉雅、得到等阅览(听书)类立异运用中也有科大讯飞的技能加持。
科大讯飞与新华社的协作比较典型。科大讯飞承当新华社全媒体采编发项目语音智能剖析服务子项目,供给语音辨认、语音组成的才能以及录腔调听东西和语音大屏操控模块。语音转录功用供给了中文普通话、英语录音转文字的功用,中文、英文转化精确率较高,运用快捷,便于记者更迅速地收拾资料构成内容,并支撑记者采访时实时转录,功用有用。
消费端的讯飞语音转写东西听见“M1”采访辅佐东西,成为2019年两会报导的一个亮点,其快速与精确备受瞩目。一同,科大讯飞与央视协作打造的人工智能记者助理“小白”复刻了闻名主持人白岩松的声响,并学习了很多两会常识,作为记者助理向参会媒体及时供给两会信息。讯飞听见、讯飞智能工作本、讯飞智能录音笔等产品都是记者的好帮手。
智能文稿唱词体系将人工智能技能与电视节目制造流程相结合,规划出人机耦合字幕出产流程。智能文稿唱词体系一方面进入传统广电,如在2019年春晚及《今天说法》《我爱创造》《海峡两岸》等500多期惯例节目字幕制造过程中广泛运用,一方面经过讯飞听见网站在线字幕制造运用为新媒体供给Vlog后期字幕制造等服务。智能文稿唱词体系将传统电视字幕流程由听写、核对修正、拍唱词、修正时刻点、审阅5个过程,简化成语音转写、核对修正、字幕生成审阅3个过程,新流程的出产功率比传统流程的出产功率均匀前进3倍,并扔掉了几十年来“拍”字幕的前史,缩短了电视字幕制造占用优质后期机房的时刻,提高了后期机房节目产出率。
AI虚拟主播产品改造节目播报办法,更快速、更高效、更安稳、更丰厚。科大讯飞对虚拟主播产品的研制始于2018年3月份。运用自主研制的最新语音组成、图画处理、人脸检测、口唇驱动等多项人工智能技能,面向电视媒体和新媒体等节目播出场景,以前进新闻内容出产功率、下降新闻视频制造本钱、缩短新闻节目制造时刻为规划起点,打造了全球首款多语种AI虚拟主播产品,支撑文本到视频的主动输出。产品推出后不到半年,前后协作各类媒体、报业集团客户就超越了十几家,AI虚拟主播小晴的身影广泛传达,如AI主播问政、紫金山新闻AI播报等等。一同科大讯飞为一些头部媒体定制、辅佐打造了AI虚拟主播办法新节目,如人民智播报等。这个功用还被运用在学习强国客户端中,直接将新闻读出来,语音、语调都基本是播音员的等级,断句天然。
讯飞人工智能技能深度嵌入融媒体产品制造中。新华社语音类H5产品——《承认过目光,这是我的老课文——新华社邀您和大咖一同吟诵经典》,选取历年人教社版语文教材中的经典课文,约请莫言、鞠萍等文学文艺界名人带领受众吟诵,运用科大讯飞语音辨认、语音测评等技能为互动朗读者测评打分,融怀旧、兴趣为一体,推出后仅半小时就完结10万+浏览量,阅览总量250万+。
四、危险应战及应对
用户隐私与数据安满是首要问题。讯飞输入法、讯飞听见等产品,依托的都是海量的用户数据,包含B端和C端。在此过程中,用户隐私关于技能来说是通明的;数据权益与安全在技能的合法化办法下,并不能根绝数据乱用和走漏的或许。万物互联、人人互联的趋势下,这种道德问题将益发凸显。
数据财物和版权问题是科大讯飞与传媒业一起面临的问题。在人工智能范畴,没有场景的大数据是没有价值的。现在,传媒业供给数据和场景,科大讯飞以之练习其人工智能产品,由此构成的优化和提高关于甲乙两边来说是双赢,可是存在一个收益权重与言语权重的问题。这需求两边在长时间协作中探究明晰合理的规矩。
关于科大讯飞来说,还有一个同业竞赛的应战。深度学习下降了智能语音技能的壁垒,让后来者与先发者站在了同一同跑线上。技能层首要依托根底层的运算渠道和数据资源进行海量辨认练习和机器学习建模,以及开发面向不同范畴的运用技能,首要有语音辨认、天然言语处理、计算机视觉、深度学习技能等,这是科大讯飞的主战场,也是科技巨子和很多创业公司争相进入的范畴。一同,在将来的人工智能和物联网年代,参加者只会越来越多,房地产商可做才智家居,家电厂商可做才智家电等等,简直每一个细分笔直的范畴都会有竞赛者参加,全体竞赛格式出现多元化和去寡头化。科大讯飞在体量和获益才能上仍是难以与互联网巨子公司比较。在与商场巨子和业界新锐的竞赛中,科大讯飞要在笔直范畴跑得更快、更准、更深。
五、远景与趋势
人工智能到了什么阶段,首要看三个方面:一看有没有看得见摸得着的事例,二看是否有规划化推行的产品和体系,三看是否能够用计算数据来阐明运用的成效。以此观之,2019年能够被视为人工智能运用盈利的兑现年,人工智能现已进入了规划化运用的落地期。
未来,5G助推下万物互联将成为IT工业的第六次浪潮,语音将成为最重要的人机交互办法。比较于触觉交互,语音交互愈加契合人类向外界输出信息的天然办法,且能够有用满意“人机别离”场景下的远场交互需求。跟着移动互联网、大数据、云计算技能的前进,语音交互技能有望成为物联网年代的进口级技能,然后具有杰出的增加远景;语音交互技能(语音组成、语音辨认、天然言语处理)与人工智能技能深度结合的范畴,亦有着宽广的商场空间。
人工智能无论是技能老练度、社会效益仍是经济效益,都具有厚积薄发的特色,需求到达必定运营规划后才会完结边沿收益的腾跃。现在,科大讯飞现已在教育、政法、运营商、顾客事务等多方面落地了真实能够商用的产品和服务,并取得现金流和正向赢利。关于近年来发力的传媒范畴,科大讯飞对传媒业的赋能与传达业的反哺,也将跟着媒体交融从顶层规划到底层探究的深化而有新的幻想空间。当然,这个更依赖于三个方向的聚集打破:一是算法打破,面临小样本、无监督、个性化问题的根底理论将继续打破;二是脑智同飞,脑科学研讨和数学计算建模办法深度结合;三是人机耦合,人工智能体系和人类行为协作的人机耦合办法继续探究。在这三个方向上的探究成效,直接决议了科大讯飞未来在人工智能竞技场中的方位。(本文节选自《智能年代:媒体重塑》)
《智能年代:媒体重塑》
ISBN:978-7-5166-5026-4
新华出版社 2020年5月
定价:48.00元
原文转自:新华出版社