揭秘微软“小冰”:大数据为人工智能而生
7月2日,微软(亚洲)互联网工程院宣布,第二代智能聊天机器人“微软小冰”正式上线,用户可以登录微软小冰官网进行“领养”操作。
那么,微软小冰是个什么样的产品呢?首先,微软小冰是一款智能聊天机器人。除了智能聊天之外,还兼具提醒、天气、星座、交通指南、餐饮点评等实用功能。其次,微软小冰集成了微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,具有非常强大的机器学习能力。所以,微软小冰还是人工智能机器人。
人工智能需要有大数据的支撑
人工智能主要有三个分支:第一,基于规则的人工智能;第二,无规则,计算机读取大量数据,通过数据统计、概率分析等方法进行智能处理的人工智能;第三,基于神经元网络的一种深度学习。
基于规则的人工智能,即在计算机内根据规定的语法结构录入规则,并用这些规则进行智能处理,缺乏灵活性,不实用。因此,人工智能实际上的主流分支是后两者。而后两者都是通过计算机读取大量数据,以提升人工智能本身的精准度。如今,大量数据产生之后,有低成本的存储器将其存储,有高速的CPU对其进行处理,所以才有了人工智能后两个分支的理论与实践。由此,人工智能就能做出接近人类的处理或者判断,提升精准度。同时,采用人工智能的服务作为高附加值服务,成为吸引更多用户的主要因素;而不断增加的用户将产生更多的数据,使得人工智能进一步优化。
大数据分为“结构化数据”与“非结构化数据”。“结构化数据”专指可作为数据库进行管理的数据,例如,企业的客户信息、经营数据、销售数据、库存数据等存储于普通的数据库之中。相反,“非结构化数据”是指未存储于数据库之中的数据,包括电子邮件、文本文件、图像、视频等数据。目前,非结构化数据激增,企业数据的80%左右都是非结构化数据。随着社交媒体的兴起,非结构化数据更是迎来了爆发式增长。复杂的、海量的数据通常被称为大数据。
但是,这些大数据的分析并不简单。文本挖掘需要“自然语言处理”技术,图像与视频解析需要“图像解析技术”。如今,“语音识别技术”也不可或缺。这些都是传统意义上人工智能领域所研究的技术。
微软小冰也完全是因为有大数据的支撑才实现了人工智能。据网上媒体报道,微软小冰集合了中国近7亿网民多年来积累的全部公开聊天记录,并从中精炼出1500万条语料库,基于数据挖掘与智能搜索,通过理解对话的语境和语义而实现人机问答的自然交互,甚至相当于16岁少女的智商。