不聪明的Siri,代表了人工智能的真实水平

不聪明的Siri,代表了人工智能的真实水平

2020年10月20日 10:43:45
来源:凤凰网读书

从手机里的Siri,到家用的“小爱同学”,再到众所周知打败了李世石的“阿尔法狗”,人工智能已经全方位介入了我们的生活。这导致很多人都相信它们足够聪明,能听懂提问,并在思考后给出答案,甚至在不久的将来,取代人类所有工作——事实上,这并不完全对。

日本理学博士、“机器人考东大”研究项目负责人新井纪子认为:计算机能做的基本只有四则运算,人工智能使用的则是加法和乘法;它们并不理解语言的含义,只不过是做出看似理解了的样子罢了。因此,从完全不考虑词义的机器翻译的现状来看,它恐怕永远也无法取代人工翻译,更不用说期待它们独立写出伟大的小说、谱出媲美巴赫作品的曲了……

01 人工智能只会加法、乘法,并不理解语言的含义

智能手机的普及把人工智能带到了我们每个人的日常生活当中。走在街上,到处都能看到人们在用智能手机查询哪有好吃的拉面店或者应该在哪里换车。

无论我身在何处,用智能手机查询当前位置到公司所在的神保町的路线,都能立即得到答案。朋友送来了高级松茸,我也可以马上用智能手机查到烹调方法。因此,很多人认为智能手机,也就是人工智能,能听懂我们提出的问题,并在思考之后告诉我们答案。

但其实人工智能并不理解语言的含义。 它只不过是根据我们输入的信息,通过计算输出答案而已。可能有很多人被人工智能的迅猛发展冲昏了头脑,忘了“computer”就是计算机,而计算机能做的基本上就只有四则运算。人工智能无法理解含义,只不过是做出看似理解了的样子罢了。而且它所使用的只有加法和乘法。

既然人工智能是计算机,这就意味着所有无法计算的问题,或者说无法转换成加法和乘法的问题,它基本上都不能处理。因此,人工智能研究者才会每天绞尽脑汁地思考如何用算式来表示图像处理的方法、回答提问的方法或者将英语翻译成日语的方法。

02 语音对话系统Siri,其实并没有多聪明

计算机无法理解语言的含义,这是实现真正意义上的人工智能的最大障碍。

当然,人们并不会就此罢休。人工智能研究人员一直在不懈努力,让人工智能即使不理解含义,也尽量表现得像理解了一样。Siri 等语音对话系统就是这些努力的成果之一。

不聪明的Siri,代表了人工智能的真实水平

那么,Siri 到底有多聪明呢?

例如,您可以尝试问它“这附近有好吃的意式餐厅吗?”Siri 会通过GPS识别出位置信息,然后为我们推荐附近的“好吃的”意式餐厅。但问题的关键不在这里。接下来,您再试着提问“这附近有难吃的意式餐厅吗?”它还是会推荐类似的餐厅,而不是按照差评由多到少的顺序来显示结果。Siri不知道“好吃”和“难吃”的区别。接下来,您再问它“附近有意大利菜以外的餐厅吗?”结果还是这些餐厅。也就是说,Siri 并不明白“以外”的含义。

为了避免误解,我要声明我并不是想破坏 Siri 的名誉。东大机器人也分不清冷和热的区别。正如各位读者发现的,在刚才的对话中,Siri 并没有错,错的是我们不应该问它“意大利菜以外”这种复杂的问题。聪明的用户只要说“日餐”或者“中餐”,而不是说“意大利菜以外”就可以了。只要方法 得当,Siri完全可以发挥出十二分的能力。至少我们不用像以前一样去买美食杂志或者当地信息,也不用站在书店翻看查找这些信息了。

日本共有172所国立和公立大学,以及584所私立大学,新井纪子团队研发的“东大机器人”,通过模拟考分数检测,显示它有80%的概率可以考上其中23所国立和公立大学30个院系的53个专业,以及其中512所私立大学1343个院系的2993个专业。

日本共有172所国立和公立大学,以及584所私立大学,新井纪子团队研发的“东大机器人”,通过模拟考分数检测,显示它有80%的概率可以考上其中23所国立和公立大学30个院系的53个专业,以及其中512所私立大学1343个院系的2993个专业。

不过另一方面,我也想告诉大家Siri的真实能力。这样大家就可以知道,为什么“将来人工智能会取代人类所有工作”或者“不远的将来奇点就会到来”等武断的预测和期待都是不切实际的了。

10-20年后将不复存在的职业前25名(数据来源:松尾丰《人工智能狂潮》)

10-20年后将不复存在的职业前25名(数据来源:松尾丰《人工智能狂潮》)

Siri是一种问答系统,使用了语音识别技术和信息检索技术。导致前面提到的问题的是信息检索技术。后文还会详细介绍,目前的信息检索和自然语言处理基本上都放弃了依靠逻辑进行处理的方法,转为尝试通过统计和概率的方法让人工智能来学习语言。也就是说,即使不明白某句话的含义,也可以根据这句话中出现的词语及其组合进行统计推测,得出看似正确的回答。而且,统计所依据的数据会在人们每天与Siri对话的过程中越积越多,运用这些数据反复自动进行机器学习,Siri便能不断提高精度。不过它的精度永远达不到100%,因为概率和统计原本就做不到这一点。

Siri之所以会对“好吃的意式餐厅”和“难吃的意式餐厅”做出同样的回答,是因为很少有人会查询“难吃的意式餐厅”,因此“难吃的”这个词的重要性便被低估了。而Siri不明白“以外”的含义,则是因为它在本质上无法应用逻辑。在依靠统计构建的系统中不伦不类地插入一知半解的逻辑,反而会导致精度下降。

不过在我这本书出版一段时间之后,您再问Siri“这附近有难吃的意式餐厅吗”,结果可能会有所不同。因为如果有很多读者都问Siri“难吃的意式餐厅”“难吃的拉面店”等,Siri可能就能区分出“好吃”和“难吃”了。或者说,还有一种更大的可能,就是“内部人士”读了这本书之后立刻废寝忘食地去拼命调整了参数。“内部人士”是指Siri开发团队的人。如果有人对Siri说“和我结婚吧”,它会极为巧妙地回答“我这种人可不会结婚的哦”或者“你是不是对其他产品也说了同样的话”。这些并不是机器学习的结果,而是“内部人士”手动设置的。

不聪明的Siri,代表了人工智能的真实水平

接下来,我要给各位读者出一道题,题目是还有哪些提问能证明已经变聪明了的Siri其实并不理解问话的含义呢?请大家一定动脑筋想一想。

我要再次重申,我并不是想贬低Siri。我只是想让大家明白人工智能和自然语言处理以及其背后的数学的局限。除了Siri,谷歌和沃森也是一样的。

2017年4月,我受邀参加TED演讲时,设计Siri的主要工程师汤姆·克鲁伯也在同一个区域。他本来要讲 Siri是如何理解语言的,可我在东大机器人的演讲中已经不经意地提前透露了人工智能解答世界历史试题的方法,所以汤姆肯定就不太好讲了。他小声地和我打了一声招呼,“纪子,你说的是对的,人工智能并不理解语言的含义。”

Siri采用的自然语言处理技术是通过统计和概率方法实现的,机器无法借此理解语言的含义。不过如果人们想找一家好评多的餐厅,查询明天的天气等需要尽快获得一些实用的信息,或者闲来无事想找一个轻松的伙伴随便聊聊天的话,今后一定还会出现更为优秀的人工智能。

不聪明的Siri,代表了人工智能的真实水平

03 人工智能自动写作、作曲,靠的是随机过程

除了Siri等语音问答系统之外,自动写作、画画或者作曲等领域的研发也在不断推进,它们应用的是随机过程理论。有些研究人员预测,如果自动写作或自动作曲技术进一步发展,终有一天人工智能写的小说也能获得直木奖,谱写的乐曲为现代音乐开拓出崭新天地,或者画出的画作能与毕加索媲美,但我却完全无法理解这种想法。人工智能连语言的含义都不懂,更不可能达到这些水准。在说明原因之前,我先简单地解释一下随机过程。

墨水或牛奶滴入水中之后慢慢扩散,吸烟的人吐出的烟圈在空气中飘浮……这些都是布朗运动。牛奶或烟雾颗粒受到处于热运动状态的介质分子的不规则撞击而随机地运动和扩散。进入21世纪之后,这种现象成为数学的重要研究对象之一,形成名为随机过程的研究领域。该领域的研究对象不像苹果从树上落下来时只有一个结果,而是受到偶然因素影响的运动。

布朗运动实验:把食用色素滴在水里,它就会逐渐散开,这是由于色素与水分子不断发生碰撞。由于分子碰撞是随机的,色素就会无规运动产生随机图案。

布朗运动实验:把食用色素滴在水里,它就会逐渐散开,这是由于色素与水分子不断发生碰撞。由于分子碰撞是随机的,色素就会无规运动产生随机图案。

下面来看人工智能是如何作曲或写作的。像“do”之后的下一个音符是“re”,“さ”之后的下一个假名是“て”a一样,能确定“下一个”要素是什么的话,就可以套用某个国家程序或函数,属于我们在高中学过的二次函数或三角函数的扩展。但如果无法确定“下一个”是什么,便无法依靠函数,即逻辑继续下去。

遇到这种情况,工学和经济学最常用的方法是从数学类书籍中寻找可用的工具,关键词是“下一个”。“下一个”与时间顺序密切相关,数学领域在处理“下一个”时,首先想到的是“随机过程”

我们可以想象飞行棋的玩法。玩飞行棋要先掷骰子,按照掷出的点数前进相应的步数。接下来再掷骰子,然后重复这个过程。乐曲的展开方式与此相似。首先决定第一个音符,接着决定下一个音符,之后反复重复。不过下一个音符并不像掷骰子一样完全是随机的,音符随机排列在一起也无法形成乐曲。为了谱成乐曲,下一个音符必须遵从某种概率分布,而不是完全随机的。

不聪明的Siri,代表了人工智能的真实水平

不过任何教科书里面都没有写着“do之后的下一个音符”是遵循何种概率分布的。那怎么办呢?只能观察。这是17世纪近代科学问世以来的传统,无论是帕斯卡还是牛顿,都是通过观察才有了伟大的发现。

人工智能自动作曲首先要听过去的音乐。不过巴赫和甲壳虫以及冲绳民谣之间的风格相差太大了,都混在一起的话,最后谱出的曲子可能就是四不像了。不同风格乐曲的概率分布可能不同,所以必须先收集同一类型的音乐。

因阿尔法狗一炮走红的英国DeepMind公司曾经让人工智能学习浪漫派钢琴曲,应用随机过程自动作曲。该公司也因为被谷歌公司以4亿美元高价收购而闻名。在他们的主页上,大家可以听到神经网络学习了浪漫派钢琴曲之后输出的五种“乐曲”,都是10秒钟左右。我第一次听到这些曲子,竟然惊讶地笑出了声:一听就是浪漫派的抒情旋律,犹豫不决的渐强和充满戏剧色彩的强标记……我虽然也只是外行看热闹,但毕竟硕士期间也曾经选修过钢琴课。

英国DeepMind公司的人工智能“阿尔法狗”曾与韩国棋手李世石对战

英国DeepMind公司的人工智能“阿尔法狗”曾与韩国棋手李世石对战

其实DeepMind公司没有让人工智能学习乐谱,而是直接输入音乐。也就是说,无论是霍洛维茨、波利尼,还是阿格里奇,都是作为波形输入计算机的,人工智能只是把所有这些都混在一起,提取出特征量,然后再按照随机过程编排出一个波形而已。这也就难怪我听到的都这么符合斯坦威钢琴的特点了。

过去也有过很多使用随机过程理论自动作曲或者自动写作的研究。尤其是用具有抑扬顿挫和自然停顿的声调来朗读文字的语音合成技术,人们投入了很多力气。我们现在在日常生活中能接触到很多,例如交通工具中的广播通知和在线学习软件中的读音等。过去我们听到这些声音时,一般都能意识到“哦,这是合成的声音”,因为音调或停顿等都会带有一些不太自然的地方。

DeepMind公司采用与创作浪漫派钢琴曲同样的方法,为语音合成界带来了一场革命。这家公司的官网上有一段演示视频,是自动合成的男声和女声朗读的英语短句。视频中的发音十分流畅,据说英语母语者仔细听的话能辨别出来,但像我这样的日本人则完全分辨不出朗读者是计算机还是真人。想必会有很多语音合成技术的研究人员在听到这个演示的瞬间,会痛若地发现自己苦心经营多年的研究课题已经无路可走了吧。

04 谷歌翻译的缺陷,说明机器翻译永远无法取代人工翻译

苹果的“Siri”、谷歌的“OKGoogle”和NTTdokomo的“shabetteconcier”在语音识别应答技术领域的竞争不相上下,此外在机器翻译领域,各人工智能相关公司也在激烈角逐。日本有很多人不会讲外语,这种梦寐以求的技术已经有很多人在用了。不过机器翻译虽然能在日常会话或临时翻译中派上用场,但在更为正式的电器产品使用说明、合同或学术论文等方面,还远远没有达到实用水平。

不聪明的Siri,代表了人工智能的真实水平

尽管如此,与20世纪几乎完全派不上用处的机器翻译相比,进入2000年以后,机器翻译的准确度已经有了显著改善。不过其实力应该还远远不够,我曾在2014年试过谷歌翻译的准确度。

不要在图书馆前面碰面吗?

谷歌翻译采用了基于大数据的统计机器翻译技术,它翻译的结果是:

Do not wait in front of the library。(不要在图书馆前面等。)

升学考试中这样翻译的话只能得零分。雅虎翻译在机器翻译领域也很有名,不过2014年前后各翻译软件的准确度都差不太多,估计没人有勇气把自己用日语写的工作邮件用机器翻译成斯瓦西里语发送出去的。还有一个不太能登大雅之堂的例子,我听说有个日本人用谷歌翻译把“明天哪个航班还有剩余座位”译成英语而出糗的。

在2016年11月上旬,我忽然发现谷歌翻译日译英和英译日的准确度已经有了突飞猛进的提高。当时我和朋友一起写一篇关于机器翻译中的错误的论文。我想在写之前再测试一下谷歌翻译的实力,结果大吃了一惊。因为这时的翻译质量与之前已经不可同日而语了。改善最为明显的不是译文的准确程度,而是它输出的英语更像英语了。

微信翻译“乌龙”

微信翻译“乌龙”

我认为谷歌团队一定是全面引进了深度学习技术。为了研究谷歌翻译到底怎样实现如此顺畅的日英翻译,我试着输了各种各样的日语句子,结果发现了他们的一个缺陷。

我输入的日语是:

“请按白、黑、白、黑、黑、黑、白、白、黑、白、白、白、黑的顺序按下按钮。”

在2017年10月30日时点,谷歌翻译的结果是:

Press the button in order of white,black,white,black,black,black,white,white,black,white,white,black.(请按白、黑、白、黑、黑、黑、白、白、黑、白、白、黑的顺序按下按钮。)

“白”的个数与原文对不上,我隔了一段时间之后又试了几次,每次都有些微妙的差别。有时翻译对了,但下一次就又不对了。我由此得出的结论是,谷歌翻译现在采用的方法应该是继承了2014年之前统计机器翻译的弱点。该方法可以用下面的图来表示。

<EOS>可以看作表示“这句话到此结束”的符号。

下面的内容可能略显专业,没有兴趣的读者可以跳过这一段。首先,依次输入“太郎”“は”“走ってる”,深度学习会根据前一步隐层和已输入单词计算下一层,在日语输入结束之后应用随机过程依次输出英语单词。输出部分的隐层是根据前一步隐层和已输出的前一个英语单词来计算的。

也就是说,它将“太郎は走ってる”整个作为“材料”,依据语言模型输出应该输出的单词,“材料”用完了,翻译便告结束。但“材料”其实只不过是排在隐层上的最多一千左右个数值序列而已,遇到比较长或者比较复杂的句子,就会变得有些含糊。我和朋友在论文中推测,正是这个原因导致机器翻译弄错了按键的个数。

谷歌翻译“乌龙”

谷歌翻译“乌龙”

谷歌翻译等统计机器翻译需要大量平行数据才能实现。因为统计机器翻译既不学习语法和词汇,也不具备常识,只是根据学习过的平行语料库和语言模型输出看上去最准确的词语序列,因此为了提高准确度,就只能依靠增加数据。

输入: 私は先週、山口と広島に行った(我上周去了山口和广岛)。

输出: I went to Yamaguchi and Hiroshima last week.

这个翻译是正确的。不过如果山口其实不是指山口县,而是一位姓山口的朋友呢?那么这样翻译就不对了。实际上,如果输入“私は先週、山際と広島に行った”(我上周和山际去了广岛),谷歌翻译也会输出“I went to Yamagiwa and Hiroshima last week”,这就是机械翻译不理解语言含义所带来的局限。

翻译对话的难度还要更高。因为普通语言与对话的性质完全不同。对话中包含很多疑问句和回答,日语又经常会省略主语。在2017年9月17日时点,谷歌翻译还是会把比较简单的句子翻译错。

输入: How many children do you have?

输出: あなたはどのように多くの子供がありますか?(你是怎样有多个孩子的?)

类似错误有望随着时间的推移得到改进,但最难翻译的可能只是最简单的一句“No”。在90%的情况下,“No”都应该翻译成“不对”,但在回答否定疑问句时,“No”必须翻译成“是的”。对现在的机器翻译来说,这恐怕很难。

不聪明的Siri,代表了人工智能的真实水平

对全球化社会来说,机器翻译是必不可少的工具。 例如假设我们在巴黎的酒店打开电视,发现好像发生了恐怖袭击,但是又听不懂英语和法语。如果这时能马上把播音员的话译成日语,无疑会给我们带来很大帮助。即使翻译得不够顺畅,或者语序不对,也都不是问题,即使碎片信息也是难能可贵的。

这一点对于生活在日本却不会读写日语的外国人来说也是一样的。各地方政府发行的各种书籍、学校的官方网站等不一定都有预算可以翻译成各国语言。日本电视上的双语节目十分有限,即使有一般也只有英语。这时如果能用上机器翻译该多好啊。

不过从完全不考虑词义的机器翻译的现状来看,我觉得它恐怕永远也无法取代人工翻译吧。

本文节选自

本文节选自

《当人工智能考上名校 》

《当人工智能考上名校 》

作者: 新井纪子

译者: 郎旭冉

出版社: 民主与建设出版社

出品方: 后浪

出版年: 2020-9