本文版权归《中国广播》杂志所有

转载请获得授权,并注明出处

声明:我刊不收取任何版面费

技术驱动正在照亮内容生产者的前行之路,如何通过人工智能在策划、采访、生产、分发、反馈等全节目生产链上赋能广播媒体?去年年底至今,湖南广播电视台广播传媒中心先后联合企业、高校搭建人工智能、大数据实验室,以技术驱动,重构广播生态,重塑声音价值。

随着大数据和人工智能(AI)技术的兴起及广泛运用,传播技术更新迭代的速度明显加快,涌现了以算法和聚合技术为驱动的“今日头条”等网络平台。在2018年全国两会上,政府工作报告再次提及“加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。”这也就意味着人工智能已经成为国家战略的基础设施建设。

如何用实践去探索一条更适合广播媒体发展的“人工智能+”的媒体融合之路,湖南广播电视台广播传媒中心(以下简称“湖南电台”)一直在思考。我们期望用技术来破解媒体融合发展瓶颈,通过大数据及人工智能技术,为包括湖南电台在内的广播媒体提供内容采集、编辑、存储、分发、反馈等全生产链的专有智能技术,探索适应大数据、人工智能时代的媒介形态和传播方式。

根据湖南广播电视台党委关于建设新型主流媒体的要求,湖南电台正全速推进“AI+移动音频”新生态系统建设,整合运营以湖南广电IP为基础的优质音频资源,基于智能编辑系统、大数据、AI语音交互技术支持,建构起“马栏山声态圈”,与湖南卫视、芒果TV等完成芒果生态“一云多屏”全覆盖,提高党媒在音频领域的新闻舆论传播力、引导力、影响力、公信力。

01  “AI+广播新技术”联合实验室:用AI重构广播内容生产

目前音频的渗透率远远不及视频,其背后的原因有很多,优质的音频内容不能海量生产无疑是其中一个重要因素。这样的行业痛点如何解决呢?2017年12月18日,湖南电台与国内领先的语音智能公司科大讯飞股份有限公司签约,共建国内首家AI+广播新技术联合实验室——“听说”,研发面向音频新平台的科学算法、音频聚合、内容组发、语音集成等基础体系,合作探索运营新模式。目前“听说”实验室已经上线试用的两个产品,分别是中文语音文本智能编辑系统和虚拟主播系统。

中文语音文本智能编辑系统

传统广播电台、电视台的语言类音频内容编辑,主要是利用通用的音频编辑软件cooledit pro、audition等,此类软件本身没有同步文本编辑窗口,需要完全依靠人耳的听觉控制来进行人工剪切和修饰,效率及准确率不高。如需对应音频的文字内容,则需要人工监听音频内容、通过人脑记忆逐字逐句地进行听写和校对,使编辑工作繁琐而枯燥,同时消耗大量工作时间。

当下业内绝大多数新闻类和语言类广播节目,在内容生产流程中往往要耗费大量时间成本在监听音频效果、音频翻录文字、剪辑音频等环节,然而人类最熟悉、最简单的编辑对象,不是波形图,而是文字。考虑到广播电台、电视台、电影制作公司音频产品生产的高效率剪辑需求,“听说”实验室研发团队大胆设想,充分利用AI语音自动翻译以及语义识别功能技术成果,生产一套高效率的中文语音文本智能编辑系统,颠覆非线性编辑。在音频内容生产流程中实现文本编辑基础上的音频一键合成(如图1所示),无疑能够大大提高编辑记者的工作效率,解放生产力。

使用该系统,音频编辑不再需要逐字逐句地进行音频监听,而是通过音频一键转写文字,直接在文稿编辑窗里进行文字剪辑,再通过文稿时间戳子系统在文字窗口和对应的音频窗口位同时打上剪辑标记,交由人工智能对整篇文字进行语义识别,在剪辑点位以及语义的转换点自动进行降噪、延时和淡入淡出等语音信号处理技术处理(如图2所示)。这样处理后的初稿大量减轻了编辑人员在语音翻译和信号处理上的工作量,让编辑能够集中精力处理关键点位,提高音频作品的美感和可听性。

在传统的音频编辑系统中,当受访者说错了某个字或者某个词,采访音频中也没有相应的词语或者相同意思的句子替代时,很多时候只能选择放弃这部分同期声;如果同期声所要表达的内容确实不能舍弃,只能采用由记者转述的方式来代替,这使得作品的情景感大打折扣;或者由专业音频制作人员后期合成,不但成本高,而且操作有违新闻的真实性原则。

为了解决这一问题,经过该系统反复实践,探知采用人工智能的维特比优化算法,以及梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, 简称MFCC)技术提取原受访者人声特征,建立最新的中文音频文本同步编辑系统。利用声纹识别技术来合成语音,模拟原受访者的语气和语感,可以达到逼真的效果。

虚拟主播系统

传统广播节目大都需要通过播音员或主持人运用有声语言和副语言来传递信息。播音员或主持人作为媒介在传播过程中有着不可或缺的作用。当数字媒体时代的人工智能产品具备了识稿、备稿、有节奏的发声及拟人形象后,通过语音识别和模拟技术制作仿真的个性化虚拟主播,针对不同场景、不同内容的要求,提供不同的虚拟声音,可以实现媲美真人的语音合成效果,满足用户对主播的定制需求。

“听说”实验室研发的“AI新闻主播系统”,在2018年全国两会上推出《AI主播报两会》产品(如图3)。由人工智能虚拟主播播报的新闻在湖南电台《全省新闻联播》中首次发声,用更为生动的方式解读政府工作报告,这种创新两会报道的方式受到各界好评。该系统基于科大讯飞的智能语音技术,结合广播行业新闻播报的特色与标准,编辑只需在系统中输入新闻文本,便可一键生成音频。AI主播声音素材采自湖南电台首席播音员和资深主播,经过编辑处理的语音合成效果在真实感、表现力上均大幅提升。

此前湖南电台文艺频率摩登音乐广播成功打造的全国首个虚拟主持人——“嘻芮”,凭借在《“嘻芮”秀》《完美假期》《完美的“嘻芮”》等节目中的机智表现,以日均吸粉2万余人次的加速度,成为湖南上空的“吸粉女神”。

与网红虚拟主持人“嘻芮”不同的是,“AI新闻主播系统”完全采样于真人,系统通过大量学习、算法优化,并结合新闻播报专业规则后诞生的最拟人化产品,弥补了当前机器播报音色和音长过于机械化的缺陷,在停连、重音、语气、节奏的把控上越来越像专业主播一样自如控制。

目前“AI新闻主播系统”正在储备涵盖男女声、高中低音、不同声音特质的主播库,未来能够满足根据不同场景、不同题材提供不同音质的虚拟主播,并根据新闻情境调节语调和语速,在真实感、表现力上争取实现媲美真人主播的语音合成效果。

人工智能释放广播生产效能的应用策略

现阶段正处于人工智能技术的新兴阶段,技术将走向何方,将产生怎样的媒体形态还难以预测,但技术发展的趋势不会逆转,未来媒体的竞争优势不在于使用人工智能,而在于怎样用好人工智能。“听说”实验室成立以来,被赋予了改变广播传统生产模式的使命,针对广播内容生产者的实际场景,融合大数据、人工智能、云计算、物联网等多项技术,让广播内容生产更为智能化,在节目生产、节目审核、媒资存储、节目分发等环节都体现出了长尾效应。

在内容生产环节,“中文语音文本智能编辑系统”为记者、编辑的“耳朵”赋能,省去大量简单重复劳动,让记者、编辑投入更多精力专注于内容创作本身;“AI新闻主播系统”可将审定的文本一键合成音频节目,主播配音制作的过程也得以优化。在节目审核环节,通过“中文语音文本智能编辑系统”使后续的编辑、审核环节更为顺畅;在信息审核阶段,通过对文字的判断甄别同步对应到相应的音频时间戳,大大提高监听效能。在媒资存储环节,广播直播流通过“中文语音文本智能编辑系统”实现基于语义的自动拆条存储,并通过智能内容管理平台,实现精准分发,在充分考虑到用户爱好的基础上,推荐内容让用户产生依赖感和信任感。

02  广播融媒体大数据智能实验室:用人工智能重构广播资源

有学者就未来媒体内容生产的图景概括为“在未来媒体世界,全息交互延伸用户感知,现实世界和虚拟世界将实现无缝对接;全知数据解读用户的每一种需求,多终端实时提供个性化服务,所想即所得式的媒体服务渗透各个场景”。这也就意味着,传播的流程在技术驱动背景下,用户的实时数据分析将真正进入信息的集成及反馈体系中,生产流程将得到实质性优化。

大数据建模勾勒广播用户画像

湖南电台下辖8套广播频率,每年生产420万分钟的精品节目,服务湖南省7000余万听众。据赛立信第三方数据显示,2017年,湖南广播在长沙市场收听份额高达77.3%。如何将大量的听众数据在新媒体时代变成服务听众、提升产品价值的加速器?如何为广播用户打造个性化“档案”?

2018年3月28日,湖南电台与电子科技大学合作共建国内首家广播融媒体大数据智能实验室——“据说”实验室。实验室实行课题制,基于科学的数据分析和受众研究,并结合广播媒体特质,以垂直领域的优势内容属性建立数据模型。双方第一阶段的开发重点是广播听众及微信粉丝数据分析、目标市场受众数据分析、新平台用户分析等工作。

矩阵化运营搭建粉丝聚合平台

湖南电台新媒体系统今年5月上线运营,服务、管理、运营中心旗下所有频率和部门参与的自媒体分发,满足新媒体所需的数据挖掘及分析应用,满足广播升级的互动营销、整合营销需求。

建设微信、微博矩阵解决了湖南电台各频率运营微信的痛点,如互动功能开发不够、数据留存和分析能力较弱、新媒体营销手段不足等。主要实现了以下两方面的功能提升:

提升用户互动体验

在矩阵搭建之前,与受众的互动更多的是依靠热线电话以及微信公众号留言,湖南电台旗下部分频率采用了自建或者第三方提供的技术服务来实现喊红包、活动报名等互动功能。新媒体矩阵建立后,受众的互动方式更加多元、互动体验更加完善,包括但并不限于抽奖、调查问卷、问答、竞猜、投票、海选、活动等各种玩法,丰富了各微信公众号、官方微博的互动手段,吸引了更多的受众,并对用户互动留言进行留存与筛选等。

以湖南电台交通频率《718听购节》为例,设定专属时段喊出“买买买”的语音口令,秒杀的商品通常是在3~5秒内一扫而空。

通过新媒体矩阵,建立了多向的互动,让电台、节目、主持人、受众、商家有机地联系起来。互动与节目紧密整合,可以贯穿节目播前、播中、播后,由主持人随时把控,并能够即刻接收到反馈,受众通过极其简单的操作就可以参与,参与门槛更低。在活动、广告、微信商城、主播打赏等方面,支持受众经营与新媒体收入模式,达到广告客户、商家、电台、节目、受众的多赢。

实现粉丝数据聚合

对传统广播来说,受众研究一直是短板。在矩阵搭建之前,对受众的研究主要依赖第三方数据公司提供的收听率调查以及各个微信微博后台、移动音频平台提供的相关数据等。通过矩阵管理,能够打通各微信、微博及热线电话用户数据,做到用户数据的统一,实现同一个用户不同数据记录的合并管理,能够对受众进行统一身份识别,全面收集、筛选、描述、分析受众数据,形成受众画像,并为精准广告、活动推广等提供数据支撑。同时,在矩阵建设中,坚持以数据独立为基础,将受众数据牢牢掌握在自己手里,确保了数据安全和运营安全。

03  未来广播:打造基于人工智能技术的内容驱动型音频产品

对于传媒业而言,互联网技术的发展不仅仅在检验传媒业的数字化进程,而且在整个媒体生态中正逐步引领一场巨大的变革。2017年12月26日,新华社在成都发布中国第一个媒体人工智能平台——“媒体大脑”,生产了第一条机器生产内容(MGC)视频新闻——《新华社发布国内首条MGC视频新闻,媒体大脑来了!》;2018年南方财经全媒体集团联手科大讯飞,通过语音合成技术模仿真实主持人的声音,推出人工智能虚拟主持人,并将其应用于财经新闻播报。在媒体行业,包括文本、音频、图像、视频和交互等各个方面,“AI+”的模式也正在全面扩展。

总而言之,以人为本的传播才是传媒业的生存之道。广播是现存媒体中唯一一个解放人类双眼的媒体形式,在视觉消费超饱和的状态下,电视、报纸、杂志甚至是以互联网为依托的各类新媒体,都是以视觉为主的媒介形态,彼此正面交锋、拼杀激烈,只有广播“以声为媒”,专注于经营人们的耳朵,这是广播得天独厚的优势。在私家车保有量逐渐提高的今天,广播的最优排他选择就是应用好“声音”,并占领“声音”高地。

以湖南电台为例,就是要依托湖南广电IP内容资源优势,打造基于人工智能技术的内容驱动型音频产品,以智能语音交互为特色,依据用户画像,针对每一位用户精准提供场景化内容,使每个用户都能收听到由其选择的主播为其送达的符合个性需求的节目、路况、服务、广告。场景化内容还可适应多系统、多平台使用,可广泛适用于智能音箱、智能手机、可穿戴设备、智能家居等,使用户可在多个场景下消费所提供的内容和服务。我们期待广播行业,乃至更为广泛的音视频行业,利用人工智能趋势下的下一代广播电视新技术,引领音视频内容生产进入到一个真正人工智能的、海量内容生产的革命时代。

作者:牛嵩峰 邝瑶(湖南广播电视台广播传媒中心)

全文详见《中国广播》2018年第11期

微信编辑:李静

编审:饶雷