人工智能的研究热点:自然语言处理
副标题[/!--empirenews.page--]
人工智能(Artificial Intelligence,简称AI)作为新一轮科技革命和产业变革的重要驱动力量,正在深刻地影响世界、改变世界。而自然语言处理(Natural Language Processing,简称NLP)已成为AI领域的研究热点,它推动着语言智能的持续发展和突破,并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言:“自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。” NLP主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解(Natural Language Understanding,简称NLU),后者称为自然语言生成(Natural Language Generation,简称NLG)。因此,NLP大体包括了NLU和NLG两个部分。因为处理自然语言的关键是要让计算机”理解“自然语言,所以通常把NLU视为NLP,也称为计算语言学。 NLP融计算机科学、语言学、自动化、数学等为一体,是一门综合性的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。NLP并不是一般地研究自然语言,而是研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统;因而它是计算机科学的一部分。可以说,NLP是计算机科学、语言学、AI等关注计算机和自然语言之间的相互作用的领域。目前,人们对AI的需求也从计算智能、感知智能到了以NLP为代表的认知智能的层面。没有成功的NLP,就不会有真正的认知智能。因此,NLP被视为AI极具吸引力的研究领域以及AI必须优先解决的核心问题之一,也被喻为AI皇冠上的明珠。 由于AI包括感知智能(比如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),而语言在认知智能起到最核心的作用。如果能把语言问题解决了,AI最难的部分也就基本解决了。美国微软公司创始人比尔·盖茨先生曾经表示,”语言理解是人工智能领域皇冠上的明珠“。前微软公司全球执行副总裁沈向洋先生也在公开演讲时说:“懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面”。由于理解自然语言需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以NLP也被视为解决AI完备(AI-complete)的核心问题之一。可以说,NLP目前是AI领域的关键核心技术,对它的研究也是充满魅力和挑战的。 NLP涉及的领域较多,主要包括机器翻译、语义理解和对话系统等。它目前面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。例如在对话系统中,深度学习目前已成为对话系统的一项基本技术;神经网络被应用于传统任务导向型对话系统的不同组成部分。近年来,端到端的框架不仅在非面向任务的聊天对话系统中流行,在面向任务的对话系统中也逐步流行起来,但是仍远非完美。又如在语义识别方面,需要对句法进行剖析,因此剖析在对话系统、信息抽取、语法检查中都起着非常重要的作用。 最早的NLP研究工作是机器翻译。1949年,美国知名科学家沃伦·韦弗先生首先提出了机器翻译设计方案。1954年,基于韦弗“翻译即解码”的机译思想,乔治敦大学进行了著名的“乔治敦实验”——利用IBM-701型计算机首次完成了英俄文本的自动翻译;这一实验的成功标志着机器翻译正式登上历史舞台。20世纪60年代,许多科学家对机器翻译曾有大规模的研究工作,耗费了巨额费用;但他们显然是低估了自然语言的复杂性,语言处理的理论和技术均不成熟,所以进展不大。当时的主要做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思,需要上下文联系起来才能正确翻译——这就是机译技术难度高之所在。 大约20世纪90年代开始,NLP领域发生了巨大的变化。这种变化有两个明显的特征:(1)对系统的输入,要求研制的NLP系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。同时,由于强调了“大规模”和“真实文本”,所以下面两方面的基础性工作也得到了重视和加强:(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础;如果没有这样的语料库,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。因此规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对NLP的重要性是很明显的。 系统的输入与输出这两个特征在NLP的诸多领域都有所体现,其发展直接促进了计算机自动检索技术的出现和兴起。实际上,随着计算机技术的不断发展,以海量计算为基础的机器学习、数据挖掘、数据建模等技术的表现也愈发优异。NLP之所以能够度过“寒冬”,再次发展,也是因为计算机科学与统计科学的不断结合,才让人类甚至机器能够不断从大量数据中发现“特征”并加以学习。不过要实现对自然语言真正意义上的理解,仅仅从原始文本中进行学习是不够的,我们还需要新的方法和模型。 目前存在的问题主要有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语义学和语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。 (编辑:广州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |