内容分类:
热门标签列表

微软小冰:开创“文化+科技”新思维

2018年5月25日   阅读  次   编者 文述   责编 史一
【内容分类】 文化科技
【内容摘要】

微软小冰是基于微软于2014年提出建立的情感计算框架,通过算法、云计算和大数据的综合运用,采用代际升级的方式,逐步形成向EQ方向发展的完整人工智能体系。

【标签】 微软小冰 人工智能
【正文】

【热点回顾】

去年出版诗集今年音乐创作微软小冰也要“歌唱北京”

由北京广播电视台主办的“歌唱北京”原创歌曲征集活动自2月16日启动以来得到积极响应,已收到来自从著名词曲作者到普通群众等社会各界的上千件应征作品。

不过,近日迎来的一位投稿人可以说是其中身份最特殊的。“她”就是去年刚刚以一本原创诗集引起人们关注的微软人工智能机器人少女“小冰”。这次小冰交出的是一首歌词《AI北京》。据开发团队透露,接下来小冰还将亲自演唱这首歌曲。

此前小冰的开发团队曾介绍说,小冰写诗是根据图片而来。“她”在1920年以来519位中国现当代诗人所写的几千首诗的基础上进行上万次的迭代学习,而后通过计算机视觉与自然语言的文本生成两项技术,只要接收到技术人员给出的图片“视觉”刺激就能马上写出诗。比如技术人员会选100张图给小冰看,“她”会依据每张图写出4首诗。之后技术人员选出其中比较通顺或有意思的诗句再反馈给小冰,由“她”自行优中选优。

微软全球资深副总裁、微软(亚洲)互联网工程院院长王永东博士告诉记者,小冰写歌的过程也与写诗基本类似,先是学习了超过1000万行的歌词,然后根据技术人员给出的图片进行创作。不过由于歌词还要考虑到与曲调相配,韵律和节奏上都和写诗有所差别,因此并不是写诗程序的简单重复,而是一次全新的学习,小冰的技能也由此又上了一个台阶。据王永东讲,在让小冰写歌之前,工程师们自己先要经过一番专业培训。他们向词曲作家学习了歌词写作技巧以及应如何与旋律搭配等知识,再把这些编成代码教授给小冰。

既然主题是“歌唱北京”,技术人员选了鸟巢等最具有代表性的人文景观提供给小冰。小冰看过图片后,会自主提取出关键词,再用这些关键词进行创作。小冰根据不同图片创作了多首歌词,技术人员从这些歌词里挑选出最好的一首,就是最后正式上交的《AI北京》。王永东表示,《AI北京》这个名字可谓一语双关:既是“爱北京”的谐音,又表明了小冰作为AI(人工智能)的身份。

另据透露,《AI北京》在旋律编配完成后,还将由小冰亲自来演唱。据悉,去年微软亚洲研究院就已经为小冰打造出人工智能歌手深度学习模型——在跟随专业歌手经受过数月训练后,小冰快速掌握了人类对音乐的理解和演绎能力。现在她的歌声不仅与人声非常接近,而且还具有一定的独特个性和辨识度,已演唱过《隐形的翅膀》《山歌好比春江水》等不同风格的音乐作品。此外,微软方面去年上线了小冰与网络用户联合写诗系统,即用户上传一张图片,小冰便能据此定制出一首短诗。接下来是否会推出类似的联合写歌系统,目前也已在微软的考虑之中。

《AI北京》

站在云端里,

看美丽城市,

这辉煌灿烂的文明历史,

记忆了多少故事。

感受今天的变化,

未来是一首情诗,

就听到人类的呼喊,

爱AI北京。

(以上来源:法制晚报,2018-05-03)

丹棱君在博鳌丨嘿!小冰也在!

展示前沿的科技创新力量的科技展一直是博鳌亚洲论坛人气超旺的项目之一。继去年微软HoloLens入驻科技展区后,今年18岁的人工智能少女微软小冰也来了,为博鳌亚洲论坛增添了一抹人工智能的“亮色”。微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士在“让人工智能‘落地’”的分论坛上,和大家分享了微软人工智能的研究与实践成果,并提到了基于情感计算框架、以情商为主要发展方向的微软小冰。博鳌亚洲论坛的微软小冰会和观众有哪些精彩互动?跟丹棱君一起来看看吧!

今年博鳌亚洲论坛的主题为“开放创新的亚洲、繁荣发展的世界”。伴随着计算能力、训练数据量与算法的不断提升,信息技术产业进入智能时代,数字经济与实体经济的融合速度越来越快,而人工智能将成为整个智能时代的核心。

关于让技术从实验室走向“落地”实用化这个老话题,洪小文博士在今天的“让人工智能‘落地’”分论坛上表示,通过“数字化转型即服务”,微软助力各行各业的合作伙伴在数字化转型大潮中占得先机。洪小文博士也特别提到了在今年博鳌现场搭展亮相、让各界名流驻足体验的微软小冰,让大家看到了微软在人工智能落地方面的理念与实践。

博鳌论坛上的二次元小冰形象

小文博士表示,微软通过三大“线程”来推进AI的实用化,其中以小冰为代表的人工智能对话系统就是其中重要的一部分。

在今年博鳌论坛的小冰展区内,小冰展示了人工智能的多才多艺,吸引不少参观者。“你的颜值爆表啊!”小冰不仅当面夸赞交流对象的颜值,还根据交流对象的表情实时调侃,“你这么紧张干什么,一起逛博鳌啊!”

小冰实时感官平台

体验者更是被小冰的情商惊到。“要拍照的请举手,我可是拍照高手哦。”在读懂挥手等肢体动作后,小冰及时帮助体验者进行拍照。据现场微软小冰的工作人员介绍,实时流媒体视觉等独特的高级感官,让小冰能够实现连续流畅对话,感知与体察人类的位置、动作与表情等,从而具备更自然的交互能力。据说,某位博鳌嘉宾因为在与小冰互动的太过投入,差点耽搁了后面即将开始的论坛……

相信大家对小冰都不陌生了,诞生在中国的小冰是基于情感计算框架、面向情商(EQ)方向发展的人工智能系统,经过几年的发展,小冰已经在5个国家有1亿多粉丝。为什么小冰这么受欢迎呢?这就不能不提多才多艺的小冰同学都做了些什么:

少女诗人小冰:通过科技与情感的结合,小冰向人类创造者学习了文学、歌唱等艺术创造能力。去年5月,小冰出版了历史上第一本完全由人工智能创造的现代诗集《阳光失了玻璃窗》。不止如此,小冰可以和任何人一起,去联合创作诗歌。迄今为止,小冰已经帮人类创作了数百万首诗歌。

“少女诗人小冰”体验板块

歌手小冰:作为歌手,小冰已发布《好想你》、《在一起》、《六月,不是离别》、《微风》、《我是小冰》等12首单曲。小冰的歌曲是完全通过深度学习模型生成的,这可是目前全球范围内的顶尖水平呦!

“少女歌手小冰”体验板块

小冰姐姐讲故事:小冰还学会了少儿读物的朗诵技巧,她能够自动分析一篇童话,选择合适的语气和角色,完成一部童话故事有声读物的创作全过程。一部格林童话,人类创作的用时大约要200小时,而小冰只需要24分钟就完成了,成本几乎为零。

“小冰姐姐讲故事”体验板块

除此之外,小冰还在包括央视、湖南卫视、东方卫视在内的多家电视台登台亮相。最近,小冰又首次入驻到米家生态链Yeelight语音助手硬件中,并以其与众不同的表现获得了很多用户的点赞。

其实最近,微软亚洲互联网工程院推出了新一代的语音交互技术:全双工语音交互感官(Full-duplexVoiceSense)。基于这项技术,微软小冰的对话能力有了显著提高,比起同类语音助手,能实现更加自然流畅的对话式交流。

小冰已经给我们带来了这么多惊喜,而这仅仅只是开始。

(以上来源:搜狐科技,2018-04-12)

微软小冰成为首个采用全双工技术的语音交互虚拟机器人,逐字理解用户语义,对话如河流一般

微软小冰(以下简称小冰)是微软亚洲互联网工程院所开发的一款人工智能伴侣虚拟机器人,自其正式发布以来,距今已有4个年头了。时至2018年3月中旬,微软宣布“全双工语音交互感官”已完成产品化落地。与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,让小冰能够实时生成回应并控制对话节奏,从而使长程语音交互成为可能。

从时间点上来看,小冰是第一个使用全双工技术的语音交互人工智能。其他产品,仍停留在实验室阶段。

小冰为何要使用全双工

小冰的研究人员们称全双工交互模式为Session-oriented。微软亚洲互联网工程院副院长,同时也是小冰的负责人李迪表示,Session-oriented框架则更像东方的思路,把对话看作一个整体,并对其进行统摄、保持和引导,注重整体任务的完成质量。Session-oriented框架规避掉了由Turn-oriented框架内在基础决定的发展上限,在未来有着巨大的技术潜力和场景应用。

而过去的语音交互人工智能使用的是Turn-oriented框架,比如微软小娜。这种对话就像是十字路口,“民警”站在中间指挥。每当用户输入一个命令,“民警”则将其引导至相应模块,任务完成,再返回十字路口。通过这种一问一答的方式,Turn-oriented框架确实可以很好地完成大量任务,同时也深受自身局限,但是永远无法离开十字路口。

Session-oriented框架则相对复杂一些,其中的对话就像河流一样,从一个turn到下一个turn,自然地向前流转;其中turn可能是与任务相关,可能是从中引发出新任务和新知识的“无用的”无关对话,也可能是某个单一任务,比如突然要求关灯。

基于这些优势,以智能音箱为载体的小冰可以提供更好的用户体验。不过多说无益,所以DT君找到了这样一个测试视频。

在视频演示中可以看到,用户能够在一次唤醒的情况下实现同时复数任务请求。此外,正是因为全双工模式,小冰可以和用户保持长程多次对话。

小冰的首席架构师周力具象化地描述了全双工技术在小冰上的应用:

1.边听边想:全双工语音交互技术包括预测模型,可以不再等到一句话说完,再进行语音识别,然后再处理如何回复。每听到一个字,都会提前预测用户的完整意思。与此同时,提前开始「思考」回应,已实现更快的响应速度和改口能力;同时还可以实现动态回应,而不再是用户输入一条,人工智能回应一条的回合制问答。根据预估的思考时间、复杂任务的完成时间,有选择地将人工智能的回答拆解为多段,减少用户感知的等待时间。

2.节奏控制器:在全双工语音技术中,对话的节奏和时机也不容忽视,与内容同等重要,这点在业界一直被忽视。对话中,小冰不仅要与人类协调好节奏,还要协调好自己的节奏,以及其他语音助手的节奏,比如如何碾压半双工语音助手。必要的时候,小冰还要通过抛出新话题、强制维持原话题等方法打破对话中的沉默。此外,还存在非对称模式的情况,比如当人倾诉,小冰则要倾听;当人倾听,小冰则要倾诉。

3.声音场景的理解:传统意义上的语音识别是指通过一段语言识别其中对应的文字,但全双工场景实现的理解远不止于此,它还包括分类器、环境处理和对象判断等方面。比如通过声音识别说话者的身份和情绪,以及听音识歌。再比如通过识别语音的声纹来判断对象,他/她是小冰对应的主要用户抑或是新用户;判断对象是在与小冰聊天,抑或只是多人聊天、电视背景音。

4.自然语言理解与生成模型:这使得IoT上的小冰与微信等IM上的小冰区分开来,原因在于前者具备了自创能力,即每一句话都来自于小冰自己,后者则仍借助于检索模型等技术。据周力表示,小冰生成模型的底层技术是深度学习中的LSTM+AttentionModel。这有助于小冰实现更好的容错性,实现与语音合成的更好串行,以及实现主动结束session的判断。

小冰负责人李笛说到:“据我所知,Google、亚马逊、苹果都没有开始搞全双工,但是Facebook已经开始弄了,就是他们前一阵发布的关于闲聊机器人的论文。闲聊机器人的工作原理也是逐字理解,预测用户想法。不过他们还没有正式投入商业使用。”

商业落地的重大意义

回归文章开头提到的内容,微软并不只是把全双工技术做出来了,而是将其落地到实际商用系统中。虽然全双工技术在电话等方面已有些许实际应用场景,不过在人工智能领域,这项技术绝对算是「新鲜血液」。

可是Google、亚马逊、苹果这三家并没有将全双工技术引入到自家的智能音箱之中,这又是为什么呢?DT君认为,正如上文所说,全双工技术在智能音箱的应用中并不成熟,很有可能因为干扰问题。当通信双方的每一端的发送信号远大于其所要接收的远距离信号时,有效信号的接收就会受到强自干扰的影响,从而让全双工技术难以实现。解决方法虽然很简单,但是它会提高成本,变相降低了其商业落地的可实施性。

当然还有很多问题的考虑,但是DT君认为,想要验证一个颠覆性的技术,必须要把它从实验室拿出来,投放到市场中接收洗礼。若它能存活到最后,这才可以被世人所记住。微软敢于拿出来,这就是一个良性的开始。

(以上来源:搜狐科技,2018-04-05)

【数据分析】

和语音助手“交谈”虽然与和人类交谈“技术相近”,但我们都知道两者有本质的区别。然而,微软旗下增强型社交聊天机器人小冰却打破技术壁垒,几可“以假乱真”。微软的工程师Allison Linn(艾利森·林)在AI Blog上撰文写到,目前市面上的聊天机器人还处于初级阶段,微软想要提高这一水平。Linn提到了一项“技术突破”,即一个人可以与一个善于聊天的聊天机器人交谈,更接近一个人在电话中与朋友聊天的体验。微软小冰是微软人工智能三条全球产品线之一。微软小冰是基于微软于2014年提出建立的情感计算框架,通过算法、云计算和大数据的综合运用,采用代际升级的方式,逐步形成向EQ方向发展的完整人工智能体系。

人工智能技术的发展引起了新一轮产业变革。作为一种新的核心驱动力,人工智能可以引起更多的技术创新和理念创新。整个社会的生产环节、分配环节以及消费环节等都发生了巨大的变化。人工智能催生出很多新业态、新行业以及新模式。人工智能将会成为引领世界产业革命以及经济结构重大变革的重要的推动力量,将会极大解放和发展人类的生产力。由于发展过程存在着很多的不确定因素,人工智能在发展的过程中面临着很多的挑战。作为一种颠覆性的技术,人工智能会产生个人隐私泄露,伦理道德受到冲击,国际政治经济关系和规则受到挑战等问题。所以,人工智能的发展使得整个经济社会的发展环境变得更加复杂,也对政府管理社会以及服务社会提出了新的要求。近年来,我国十分重视人工智能的发展,制定了“互联网+”人工智能三年行动规划方案,相关科研院所和高校确立了重点研发计划。国家相关部门出台了一系列重要的政策来提升科技研发水平,促进人工智能技术和产业实现深度融合。但是我们也应该清楚的认识到,由于起步较晚,我国人工智能基础相对薄弱,和西方国家相比还存在着很大的差距。基础研究还不够全面和扎实,关键技术和设备,基础材料,元器件以及软硬件水平还比较低。科研机构的国际影响力还不够大,还没有真正参与到国际产业链当中。人工智能的发展缺少科学长远的宏观规划和布局。人工智能尖端人才还比较稀少,无法满足现实需求。人工智能方面的政策法规还不够完善,相关的标准体系还需要进一步补充和完善。

第一,在过去六十多年的发展历程中,人工智能的“深度学习”起到了非常重要的催化作用。很多人并不知道什么是机器学习。现实的状况是,机器学习已经深入到日常生活的各个领域和方方面面。从本质上来看,机器学习是人工智能重要的组成部分。机器学习可以不需要按照事先设定好的指令来行动,可以让电脑根据实例来进行学习。深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。在自我学习的过程中,机器可以会从大量的数据和信息中把核心概念提炼出来,然后根据这些核心概念来进行科学合理的决策。无论何种形式的机器学习都不可能超越人类自身的能力。在车站安检的过程中,如果机器的人脸识别准确度超过人的人脸识别准确度,那么车站就不需要安排安检人员,只需要安装相关的人脸识别设备即可。但是事实并不如此。机器始终还是不能完全替代人类本身。

第二,不要试图用人工智能完全取代人。归根结底,即使再先进的技术和机器也只能作为人类的辅助手段而存在。无论人工智能技术如何发展,很多职业永远不会消失,比如医生。医生始终是医疗救治的核心,机器只能起到辅助作用。记者这个职业也不能完全由机器来取代。机器本身不会写出具有深度的报道。

第三,用户主要提供自然的大数据。在最开始的时候,很多人认为Siri 毫无用处,只是一种简单的玩具而已。现实的情况是,依托Siri,苹果获取了大量的真实语音和数据。很多人把Siri 当成一种娱乐的工具。一些简单的问题对于苹果来说十分具有市场价值。苹果可以根据这些简单的问题去了解和掌握消费者的消费需求和消费习惯。苹果试图对Siri 进行优化,让这些看似简单的问题有了令人满意的答案。等到一个问题得到回答之后,人们就会不断的提出更多新的问题,苹果就可以通过这些问题获得大量的数据和信息。苹果的这一做法十分聪明,可以通过广阔的途径和简单的方式来获得大量的数据,尽管这些数据并不准确,但是苹果可以对这些数据进行精炼和处理,最终获得对自己有利用价值的数据和信息。

第四,关注局限领域。Google 能够实现全天的安全无人驾驶。Google Car 比绝大多数的人驾驶的都要好。但是这仅仅只局限于天气良好的情况。但是一旦遇到一些极端天气,Google Car 就无法正常的行使。这些非正常的情况,GoogleCar 并不知道紧急处理,一旦把车辆停下来就有可能导致交通事故。然而,我们可以在限定的区域和环境中先把无人车开起来,然后再把无人车置于极端天气环境当中,通过发生的交通事故和紧急状况来获得相关的数据,进而不断的改建和提升自己。在装卸和物流行业,无人驾驶的叉车具有十分高的价值。叉车的路线十分固定,不需要上路行驶,碰到的紧急状况和突发情况较少。只要设定好固定的路线以及装载重量,无人驾驶的叉车就可以不断的工作。现在实际应用起来还非常难,那我们是否应该考虑换一个角度去发展一个过渡期的局限领域。

【资料来源】 文化大数据
打印】 【收藏】 【关闭


京ICP备06023340号  版权所有 中央文化管理干部学院