1.4.5 自然语言理解
计算机是人类伟大的发明之一,但是人们使用计算机时,往往需要通过高级语言(如C、C++、Java等)编写程序来告诉计算机“做什么”和“怎么做”。这种方式不仅不便捷,而且限制了计算机应用的广泛性和普及性。如果计算机能够“听懂”和“看懂”人类语言(如汉语、英语等),那么计算机就能拥有更多的用途,尤其是在机器人技术方面取得更大的进步。自然语言理解(Natural Language Understanding)就是研究如何让计算机理解人类自然语言的一个重要领域,它属于人工智能的范畴。它旨在实现人与计算机之间用自然语言进行通信的理论与方法。具体地说,它要达到以下三个目标:
1)计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息中的有关问题。
2)计算机能根据输入的自然语言信息生成相应的摘要,并能用不同词语复述输入信息的内容。
3)计算机能将用某一种自然语言表示的信息自动翻译为用另一种自然语言表示的相同信息。
自然语言理解的研究起源于20世纪50年代初期。那时,随着通用计算机的诞生,人们开始探索用计算机实现一种语言到另一种语言的翻译的可能性。在接下来的十多年里,机器翻译成为自然语言理解中最主要的研究课题。最初,人们主要采用“词对词”的翻译方法,认为只要通过“查词典”和简单的“语法分析”,就能完成翻译任务。也就是说,对于一篇需要翻译的文章,先通过查词典找出两种语言之间的对应词,然后经过简单的语法分析调整词序,就能得到翻译结果。基于这种认识,人们把主要精力投入在计算机内建立不同语言对应关系的词典上。但是这种方法并没有达到预期的效果,反而造成了一些令人啼笑皆非、颠倒黑白的笑话。
从20世纪70年代开始,自然语言理解领域出现了一些新的突破。这些系统采用了语法-语义分析技术,能够对语言进行更深入和更难度的分析。其中比较有名的系统有三个:SHRDLU、LUNAR和MARGIE。SHRDLU是一个模拟机器人手臂在“积木世界”中操作玩具积木的系统。用户可以用英语和它对话,让它做一些简单的动作,比如拿起或放下某个积木。LUNAR是一个帮助地质学家查询月球岩石和土壤样本数据的系统。它是第一个能够用普通英语和计算机交流的人机接口系统。MARGIE是一个基于概念依赖理论的心理学模型,旨在研究自然语言理解的过程。
20世纪80年代以后,人们开始更加重视知识在自然语言理解中的作用。1990年8月,在赫尔辛基举行的第13届国际计算机语言学大会上,首次提出了处理大规模真实文本的战略目标,并举办了一系列专题讲座。这些讲座涉及“大型语料库在建造自然语言系统中的作用”“词典知识的获取与表示”等方面,标志着语言信息处理进入了一个新时期。
语料库语言学是近10年来自然语言理解研究中的一个显著现象。它主张从大规模语料库中获取语言学知识,认为这是实现对语言真正理解的必要条件。目前,基于语料库的自然语言理解方法还在探索阶段,尚不成熟,但无疑它是一个目前值得关注的研究方向。