人工智能时代前沿技术社区

首页 > 人工智能 > 热点

自然语言处理宏观介绍及应用

飞马网于2019年3月14日邀请到徐胜权为大家带来自然语言处理方面的相关内容。现整理如下:首先我来做一下自我介绍。可能在还海报上已经看到

作者: | 2019-03-16 22:28:24

飞马网于2019年3月14日邀请到徐胜权为大家带来自然语言处理方面的相关内容。

现整理如下:

首先我来做一下自我介绍。可能在还海报上已经看到了我叫徐胜权,是目前是在杭州一家上市公司,主要负责自然语言处理和知识图谱这一块的开发工作。首先这个是我们今天要讲的主题,主题是什么?是自然语言处理的介绍及应用,因为我们今天晚上没有不会涉及到太太细节的技术内容,主要是从宏观层面上来,了解一下自然语言处理这一门学科,然后从整体上来了解一下。

首先在讲开始之前安利一下nlp这一行业的薪资情况,目前我在这里是随机搜的,杭州地区的,大家可以稍微看一下。然后来看一下自然语言处理这一行业的要求,我们可以看到它主要是包括一哪一些内容?数学。数学相关,然后有编程,然后有深度学习这一些框架,这一些要求,然后包括像语言学相关的知识。然后看到这张PPT的话是我们今天晚上主要所要讲的三点内容,第一就是自然语言处理简介。第二就是它所涉及的一些方法,一些技术涉及哪些技术,然后分享一下在nlp方面的一些学习方法。然后第三点就是自然语言处理技术在我们身边有哪些应用?

1552747165428020.png

现在我们来讲第一点就是自然语言处理的简介。我们来看自然语言处理简介是我们在学习一门新的知识的话,我们首先一般的流程是什么?一般是知道他是什么,然后是为什么,然后再怎么做是吧?我们首先看一下它是什么?自然语言处理就是指计算机对自然语言的形音义等信息进行处理。对,我们的输入一般是字词句或者篇章。但是我们在实际企业向应用中,句子偏多,篇章级别的分析较少很少,一般都是短句左右。

所以从简单来讲,就是实现人机间的信息交流,包括像人机对话,这是个很典型的一个案例。是吧?我们来看一下冯志伟。冯志伟这个人大家可以去百度一下,人,这个人可以说是像中文自然语言处理的鼻祖,他可能是他研究最先开始研究这一块。它解释为自然语言处理,就是利用计算机工具,对人类特有的书面形式和口头形式。这里为什么把它分为书面形式和口头形式?因为我们在一般场景下我们处理的数据都是比较书面化的。然后口头形式是什么?我们在口头形式,就是我们在对话系统中有一个口语理解系统,就是口语理解系统,比如像我们在对话过程中有一些表达是非常口语化的,比如像什么吃饭先这一类情况。

所以我们要对这一个坐在对话的时候做一个特殊的处理。我们再来看一下自然语言处理的一些再细分的话,其实我一般情况下把自然语言处理分为三部分,第一部分是nlp。对一些类似文本数据的一个预祝里,包括像分词,词性标注,这一类这类情况做一个预处理,然后在下一个层面,自然语言理解NLU对数文本数据进行预处理之后,对我们的数据进行一个理解的过程。然后再是自然语言生成,自然语言生成的话,像我们有哪些很一些典型的场景?

1552747447979288.png

有比如像对话生成,像自动生成诗歌,或者像现在有一个比较火的应用,就是自动生成文章。自然语言生成就是指自然语言文本来表达给定的来表达给定的意图。自然语言的理解和分析,我们可以把它看作是一个层次化的过程,也就是说把它分成五个层次,也就是更好,这样能够更好的体现语言语言本身的构成。因为我们像中文和英语之类,其他的语言有可能会有一些不同。中文最大的差别就是中文和英语多一个分词的一个过程。但是我们分词有一个特点,就是它会影响我们,如果分子的准确率不高的话,它会影响到我们下一部分的下一部分的操作。

也这样的话,也就是说会存在一个plan模板。现在有像一些任务,包括像秘密几识别,关系抽取这一类任务的话,如果能够部分词的话就尽量不分子。所以我们当做一些自然语言处理任务的时候,想到的第一第一个想法并不是上来就进行分词,我们我们把它分成五个层次,包括语音这一块我们暂时不做研究。想可以大家可以自己想一下,包括像我们身边用的最多的就是像小艾同学天猫精灵这一类,它首先是把我们的语音变换成变化成文本语音识别变化成文本之后再做,对文本进行处理。

1552747447124574.png

这些处理包括哪些?像词法分析,然后进行句法分析,还有在语义层面上的进行一些分析,包括像语音层面,我们下面来做,对下面这几个做一个讲解。

1552747447423856.png

这个是一个流程图。语音分析,主要就是根据像因为规则从语音中区分出一个个独立的因素,再根据这些抽取出I对应的词数或者词。最简单的就是把语音转成文本,最直观的理解就是然后词法分析就是找出词汇的各个磁术,包括像语言学的,企业的信息,通俗的来讲的话就是我们说的分词,包括以后要做的一些词性标注,词性标注,它的作用就是为了以后做句法分析来用,包括像标注它的动词名词,包括形容词这一类。

我们的词法分析主要包括哪些内容呢?有磁性分词,词性标注,像还有新词发现,同义词处理,还有汉字拼音互换等等,这些汉字和拼音之间的互换在我们的输入法中是比较常见的111个场景。然后句法分析是一个目前是一个难点,它难在哪里呢?主要是我们的句子会有很多奇异信息,还有还有包括一些像多音字之类的。比如我举一个例子,像之前网上比较火的一句话就是小龙女跟杨过说,比如像其他的小龙女对周伯通说,我也想过过过的生活。这个句子乍一听,是不是很拗口?

但是我们人为的来理解的话是没有关系的。但是如果要让技术会有很大的难度。比。因为它这个词过而过的生活,想过儿过的生活,她很难处理。现在我们来看一下,什么是句法分析,句法分析,就是对句子和短语的结构进行分析,其主要的分析方式就是进行构建分析解析树,一个对句子进行一个树形解析,它的目的就是找出词和短语等相互关系,以及各自在剧中的作用,以及在I各个词汇之间的一个依存关系。句法分析,像我们在从概念上来说的话,我们可以把它分为一个叫句法,结构分析和依存关系分析这两种。

I从完整性来完整性上来区分的话,句法结构分析就是称为完全句法分析它是什么意思?就是对我们输入我们的一个跨越位。比如我们在前台输入一个块为一个输入,I输入一句话,我们对整句话来进行分析。比如我们在我们有一个对话系统的场景,用户输入一句话,我想打车去上海,当然这是一个比较简单的句子,我们就对在输入的一整个单词序列来判断其构成是否合乎给定的语法结构,因为我们再会给定一个规则和一个词典规则是什么?就是类似类似像名词,动词名词,它的一些成分,包括像明不定式,这是一个。

制定一个词典,然后再根据词典来判断是否合乎句子的句法结构。然后我们这个句法结构通常一般是用树状数据结构树状图,也就是说我刚才有所提到的叫做解析数据。法解析顺的话,我们目前存在解析数的生成其实是不难的。解析书的生成是不难,但是它有一个最大的难点是什么?有一个比较复杂一点的句子,也就是说其一起有歧义问题的句子。歧义我们以后等一下再稍微提一下。它会生成很多个解析树,我们要从这很多个解析书里面去找出一个最优的最优的树状结构出来,提示作为我们的结果。

目前是最难的是这一点,一个是歧义,歧义问题。另外我觉得还有另外一些问题,就是我们等会可能会提到知识图谱的时候,等一下再讲一下。然后我们再PPT里面没有讲的话,句法分析,我们来把它做一下分类,就是句法结构分析和依从关系分析。嗯句法结构分析就可以把它看成是一个句法的完整完整性分析,一层一层关系分析,可以把它当做是一个浅层的技法分析,浅层的技法分析,我们等会再提嗯句法结构分析,也就是这种完整的完整成分分析的话,它主要任务它是有三点。

当然第一点是叫做判断,我们输入的字符串,也就是我们输入的这个文本是何种语言。这个的话我们在一般情况下这种需要处理的,因为我们有的时候有一些在大部分场景,它默认情况下都是中文,但是我们在对话系统的场景中,对这一个的话可能是但是这个判断必不可少。因为我们有的时候像对话口语会出现中文和英文夹杂着的这种情况,比如像说OK之类,就还有一些表达的话,可能就是类似像中文和英文都有。你答我电话就OK了,这种情况,我们可能要做一些特殊的处理。

还有一种场景,比如像早上打招呼,嗯甲看到乙说你好,然后以回复说hello这种情况也是一种场景。然后第二种,二第二个任务就是消除输入句子中词法和结构等方面的歧义,简单来说就是叫排气工作。我们主要的奇异像有一些附着歧义,结构歧义等等。比如像我们有一些场景叫做什么呢?是O的man,and woman,是吧?这种这种理解的话,很容易可以看作是像比如老人,老年人和老年的女人。如果她这种额可以指O的man和woman,然后也可以只是说目前在我看来提议问题是是一个最大也是最难处理的一个问题。

如果把棋一牌其处理好了,自然语言处理这一块的研究会是有一个质的飞跃。然后第三个就是像分析,输入的句子的内部结构,比如像成分构成上下文关系,这个东西我应该等一下讲一个我们这一个架构图,等一下讲一下。就把分析。包括像我们句法分析的话,会有什么像形式化的语法,形式化语法之后,发展有概率上下文无关法,包括像乔姆斯基范式之类这一块,我忘了把我把下一张PPT发出来了,但是刚刚讲到句法分析,还有一个浅层缺乏分析没讲到,就是依存关系分析,依存关系分析为什么叫依存关系?因为它其实我们可以把它称为是叫做一个叫局部分析或者浅层分析。

它只浅层的句法分析,它是一个他主要的任务就是叫做识别,一个叫基本名词短语叫做被cm P它是指什么叫基本名词短语,就是指一个较简单的非嵌套的名词短语,它不含有其它子短语的一个短语叫基本名词短语。所以像我们有一个子任务,叫做产品,创新识别就是叫愉快识别,它可以把它归类为向浅层句法分析这一块,切我们的浅层句法,分析可以分为两块,一个就是愉快,就是我刚刚所提到的产品,创新识别,创新识别。我们有一个方法,就是基于序列标注,序列标注的思想,序列标注,比如像我们的内媒体识别,实体识别这一块。

实体识别是等一下,PPT里面有一个有一块内容叫知识抽取,知识抽取里面就有一块内容是实体抽取,实体抽取的思想可以跟归为一类,叫做序列标注,它是一个它的训练数据,是不用进行分词分词处理的,只是用RB和A来区分。比如像我们实体识别里面要抽取出人名字,可以把标项超抽取人机构名时间等等我们这个时候的话,我们就可以构建一个标签举证。像BB-poss,爱岗破损,BR-ORGA岗org。这个标签矩阵是什么意思呢?

D就是指开头,I就是指除了开头以外,它的中间部分,中间和结尾部分都是用爱来来区分,然后非不是这一块的话,我们就用O来区分,这样的话就可以把它全部区分开来,反而从而进行识别。然后我们不管是完全句法分析或者浅层句法分析,我们都是构造一个一个解析书的过程,构造解析书的方法其实是有三种,一种是自顶向下剖析法,还有一种叫自底向上的剖析法。然后另外一种方法就是比较复杂,可能是把前两者结合起来叫左脚分析法。它是把自顶向上和自底向上的两种方法进行结合,来生成一个句法分析树。

因为目前今天的话,我们不对这些技术细节来进行深入的讨论。因为可能构造句法非解析书的过程可能讲两个小时或者三个小时都可能都有可能。只是做一个大概的了解。不做爱细节方面的一些探讨。然后到语义分析,我们在语意方面什么叫语义分析?就是找出像词的一词一结构意义,以及结合意义,从而判断他语言所表达的真正含义或者概念。我们有一个语义解析。再比如像对话里面有一个场景,就是像我们可能在汉语方面,同同一个词在不同的场景,它表达的意思是不同的。

然而在同一个场景,它有多种的表达方式,对话里面一个如果一个用户输入,你今年几岁了?或者这个时候他的问题是你今年几岁,你可以回答我今年20岁。然后如果他换一种问法,你今年多大了?你的回答应该是一样的,照样是我今年20岁。所以这种的话,他从你要从他的不同的表达当中,导致他找出他真正所要表达的意义。然后还有一种可能相比较更困难一些的同样一个词,在不同场景,它所表达的意义,比如说像有的时候,他有的时候可能表示疑问了,类似这种的话,这种在最这种处理就相当困难。

我们等一下用语用的话就是是什么?就是它一个最深层次的影响。比如说我们有的时候可能会出现这样的情况,他会比如说我们犯了错误,领导他批评我,他但是他并不是直接的批评我,他只是他有可能会含沙射影的来讲一下。这个时候就是我们要领会他深层次的意思,这种可以把它较为与用分析,然后大家大家可以看到这个图,还看到我们在自然语言处理这一块的一个由浅入深的四个层面,这个形式是指什么?就是形式化语言。形式化语言就是我们在已经特定编辑好的一种意义就比如像最简单的或者是一种什么情况呢?化学方程式。

它是一种形式化语言,它的表达是意义很简单的。然后就到语义这一块,我们目前所研究到的,我们仅仅还停留在语义和推理这一块。推理我们等会再讲到。这次图谱内容的时候,有会稍微等一会稍微提一下,就是知识推理。这是推理是什么呢?很简单表示,比如我有一个推理是什么呢?比如叫一个推理的场景是什么?我想一下,比如我举个例子,像王健林的儿子是王思聪,然后王健林的老婆是谁?他老婆是谁,我并不知道,然后我们可以从这。但是我们可以从这一句里面分析到,王继林的儿子是王思聪,他的老婆是谁,但是我们并没有提到王思聪的母亲是谁。

这个时候我们就可以做一个推理性的工作。这是很简单的一个推理,就是我们可以推理出王思聪的母亲是谁?比如说我假设是A这个就是王思,王健林的老婆是A黄私,王健林的儿子是王肃。应该推理出王思聪的母亲是A这是一种场景,还有一种就是这种是可以把它规则归结为情感分类细力度的情感分类。以像我这里的这PPT里面这个例子叫什么?像五星级宾馆连游泳池都没有,这肯定是一个差评。一个负面情感。这个在情感分类里面叫什么?一个叫情感分类,有一个显示情感,还有一个是影视情感。

显示情感就是我们在R语言的表达当中,很直接很直观的表达出来的。这个东西很好。苹果很甜,我很喜欢苡。这个东西很脏,我很讨厌。这直接就显示一显示的指出了我对这一个的喜好。正面。我们如果像在做像一些舆情分析,或者像戏路的情感分析,它它的分类并不只分为正面和正类和负累,因为在情感分析这一块,归根到底可以把它归结为是一个文本分类的过程。

1552749654183909.png

文本分类的话,我看到之前有一位老师是已经有讲过,像情感分类,我们的意图识别等等,这一块归根到底都可以把它归结为一个分类的文本分类的工作。

影视情感分类就是我上面举的这个例子,他没有很直接的表示出来,我对这个东西的喜好,叫做影视分类,这是影视分类比较困难的一个一块。我还可以举个例子,比如我的心情就像天气一样淅淅沥沥下着小雨。按道理来讲,我能够表示的是我心情比较不好。我心情很沮丧很差,这就是一个影视分类的问题。像然后这里是一个悬于用,其实与用我刚刚在推理到从推理到语用这一块,其实可能是有一些可能差的不是特别多,可能有一些情况就在语音这一块。

像金融海啸来了,可能是可能会引发金融危机。这一类。在语用这一块,马上九点了,我们稍微讲快一点,现在我们来看一下它的一些技术,对一些技术性的总结和学习方法,自然语言处理这一块怎么学?等一下我们现在第二个主题进行进行一下探讨。大家可以看到这张图,这张图的话是从底从下往上看,从下往上看,这个叫资源第一层叫。这个应该是看做是一个叫金字塔型结构,第一层是叫做资源建设资源介绍叫什么?语言学知识库和语料库的构建。

语料库这个东西,我自己把它归结为类似可以把它归结为一个数据仓库,有可能你有的时候可能不仅仅是有语料库,像语言学知识库之类的,可能还有会还有来自像关系型数据库等等一些一些数据。这个东西我们在构建构建语料库的时候,可能有的时候还会存在一些把像一些基础研究,像词法,包括像词法句法语这些基础性研究的结果,把它回流到资源建设这一块,它的结果用来跑数据的结果用来构建语料库。很简单的,像像有的有一个案例就是什么呢?

我们有的时候会在构建知识图谱的知识图谱的时候,我们要构建一个自己的知识库。但是往往我们会通过像词法分析句法分析这一块的基础性研究,来进行一个像包括命名体识别,就是知识抽取的内容,这是抽取关系抽取,构建三元组来构建知识库。其实这两个是分不开的。从基础研究到构建知识库词法分析,词法分析句法语义。刚刚讲到了,其实在基础性研究上的话,这一块我觉得严格意义上还要再加两块,内容比较好。一块一块是语言模型,还有一块就是知识图谱。

现在有很多场景,也有很多公司的团队,它是怎么弄呢?会构建一个垂直领域,垂直领域就是特定领域,比如像司法领域,金融领域,医疗领域,教育行业等等,或者农业这类的。你根据特定行业来构建一个自己的知识图谱,这个知识图谱是什么呢?这只图我最大的一个特点,他就是可以找关系,是吧?构建出来一个知识图谱,在基于知识图谱做上层的一些研究,包括像精准营销推荐系统,然后还有像基于知识图谱和像自然语言生成构成的一个对话系统,闲聊系统,等等,就是这上面的机器人。

是吧?应用技术研究这块我们等一下会讲到。应用,包括像信息抽取信息抽取,可以归结为知识抽取。等一下会讲到。然后包括像机器翻译,问答系统等等。然后再上层的就是应用了。我们可能做一些实际的应用,包括像在教育行业,医疗行业司法行业金融行业机器人行业。举一些例子,像我们经常百度的杜小法。是吧?这些都是基于这项底层应用研究来做出来的一些成果。现在我们来看一下,这些主要我们就是一些应用技术,应用技术它到底在应用到哪一些方面?

1552749654347841.png

比如我们可以做一下分类,像机器翻译,这些翻译现在是一个非常热门的一个方向,包括现在的翻译,不知道大家有没有这种感觉,有的时候你可能会会用到谷歌翻译或者百度翻译的话,他比如说你有的时候,或者你写论文的时候,你有一句话,你想翻译成英语,你不会翻译,你用百度翻译,他翻译出来的英文,他现在翻译出来的结果比前几年要好很多。前几年就是很傻瓜式的按字面意义把它翻译出来。但是它有的时候效果好了很多,包括同时里头包括像中英汉翻译汉阴,可能有的时候你看,做阅读理解的时候不懂,你会把一下一个句子用百度翻译成中文,以前都是很傻瓜式的,就根据字面意义来翻译,现在他会结合了很多东西。

百度翻译团队是目前是第一个将神经网络应用到机器翻译这块。有一篇论文不知道大家有没有看过,但那个论文的名字我有点不太记得了,他是第一个将神经网络应用到机器翻译这一块的。然后第二点,自动文摘可以类似维基乐机器理解这一块,我们有一个比较长的文档,提炼出一个很简要的摘要,或者一个缩写。自动文摘。可以随便了解一下,我感觉自动文摘的应用应该不是特别的广泛。有的时候可能会有一些应用,但是并不是特别广泛。然后第三点,第三点信息检索。

大家不知道从在从事自然语言处理这一块的话,可能会对信息检索的理解要稍微深一些。但是其实信息检索无时无时不在的。很简单的,我们在如果我们有什么问题,百度一下,谷歌一下,这就是一个信息检索的过程。信息检索的概念就是从利用计算机从海量文本中找到符合用户需求的需要的相关文档。是吧?我们在百度一下,其实就是从百度互联网中找到我们想想要的想要的内容,他会做他对会对我们的一个搜索的结果进行一个排序,是吧?然后我们自己再要一个筛选的过程。

但是如果我们在自己项目中是一个特定领域的,包括像比如说类似司法行业,我要检索一条内容,它可能它它是基于我们的知识库来进行检索的,所以他就并不像我们的百度这种形式,五花八门,各种广告之类的东西都有,我们这种的检索就会变得比较比较直接,可能搜索的内容会比较少。可能也有可能就是他会很很快的减少出我们想要的东西。信息检索我们还有一点就是叫语义检索与建设,比如我有个场景就是我要查查询,姚明是身高有多高,是吧?

它会返回查询姚明的身高。这是一个比较简单的一个检索的场景。但是我们在实现的话,我们G技术实现是把它转换成一个逻辑形式的语言语音检索,逻辑形式几个方转换成一个逻辑形式语言来进行进行一个跨越,我们可以把它类似,把它比作就是你输入的一个问题,前台一个跨越伟传到后台后台进行解析,解析,包括有一些可能一些分词序列标注,命题识别等等一些一系列操作。然后再根据我们的知识库,或者是基于ES等等。boss。可以的。

各种情况都会有。然后在知识库中检索出我们想要的答案,答案,然后做一个排序,排序之后然后再返回给前台。展示。这就是一个减少的一个过程。然后我们还有一种稍微复杂一点的场景,就是较多跳查询。多条查询是。我之前查询的是姚明的身高是多少?然后现在我不想这么缠了。现在我想查姚明的老婆是干什么工作的。比如我叔叔姚明的老婆是干什么工作,这个时候我们要做,就相当于这一步,我们的解析它会做两种两步处理。第一步你要先找到姚明,然后第一步你要先找到姚明的老婆,姚明了,你要定位到姚明的老婆是谁?

然后你从定位好了之后,你再定位到他是做什么工作的?叫做多跳查询。剥掉查询相,我们在知识图谱里面会有一些像类似把它转换成一种逻辑形式语言的一种说课语言来进行查询,这是信息检索的一个内容。当然信息检索他是叫A这里。PPT有一个有错错误是AA不是A1修改一下。这里可能是写的时候写错了。信息检索。目前也比国内比较好的团队是清华那边刘志远那边。刘志远老师实验室里面做信息检索是做得很好的。然后下一步我们到文本分可能是大家接触的最多的,可能可能自从接触自然语言开处理开始,可能第一做的第一个实验就是进行文本分类工作,包括像新闻分类等等,是吧?

主题分类内容根据标签,根据高标签我们文本分类,这是一个非常好的练手项目,知乎曾经有一个知乎看山,他有一个比赛,叫做多标签文本分类,它那个数据数据很大,数据量很大。大家可以百度一下,叫知乎看三多标签,文本分类分可以第一名团队把它的代码和方案都已经公布了,大家如果有兴趣,练手研究一下,然后还有主题分类等等。文本分类它主要的方法像什么?像有text的cn阿特cn,还有把特色CNN结合起来,都这样的方法都会有,然后是有一个情感分类。

3D版的classic,他情感分类的。我刚刚也有讲到,把它归结为一个归根到底是一个文本分类的一个任务。因为我们我们情感分类可能就简单一点的话,可能分为正类或者负累,然后细粒度更细的话,可能会分为5到6类,沮丧开心等等。是吧?文本分类的一个一个任务。文本分类之后,有的时候可以更一层,更层次的有像什么?这是情感分类的,可以把它支撑为项舆情分析。是吧?舆情分析系统,下一步就是对话系统。对话系统呢怎么说呢?

1552749654430799.png

是可以说是目前研究比较火的一个方向,应用的最多的还是在特定领域的一些像客服工作咨询工作,类似一些问答。单轮对话的问答,多轮对话目前在企业中应用的并不是很多,问答,先看一下定义,就是想通过计算机用户,简单的就是人机交互对用户输入的文本进行理解,利用知识推理文本生成,之前有一些御厨里的工作项,然后进行知识推理文本生成,然后给出合理的回答。如果你有语音的话,会会把你的一个文本生成的文本再转换成语音,是吧?

构成一个对话系统。目前做一下分类,以单轮对话的还是为主的。因为你多轮对话可能主要存在一个,如果你用像基于神经网络的多轮对话生成,它存在一个问题,就是一个不可控性因素。比如说你给甲方做了一个系统,你文本生成了,它生成的,你可能并不知道它会生成什么,是吧?如果生成了一些不可控性的因素,这东西你们没办法的,如果对他造成损失的话,这个所以现在应用的最多的还是像基于知识库的货继续检索的。这类对话系统,是可能是90%都是这样,因为闲聊系统一来可能对一般性的工收益不大,因为很多公司它做这种系统,就是对他的业务进行一个需要的一个帮助,或者是能够商业性的。

因为你有的时候,如果你构成一个闲聊,因为目前的话闲聊系统可能也并不是特别的成熟。你包括像天猫精灵,像包括小艾同学,对。他刚刚叫了一声,他答应了。他。我好像还不太知道它构成的是什么呢?它也是一个单指令,仅仅有的时候我有实验的话,有它有可能仅仅在很简单的情景下会有多指令。绝大部分是单指令,就是单单轮对话,它并不具备多少什么呢?多轮对话的一些记忆性。I包括天猫精灵等等这些东西的话,你可以试验一下,也就是说你上面说了一句话,你下面再说,他就不记得你说的这句话是什么?

这就是简单的一个单轮对话。下面是一个对话系统的稍微一个很简单的一个展示,目前我自己有做一个一个对话系统,把把知识库换掉的话,在垂直领域是效果是还可以,但是在开放领域,闲聊领域其实效果并没有达到我预想的那么好。你看这些这些很多东西,你有的时候你会发现,他其实是基于基知识库的,它并不是一个文本生成的。是吧?下面我们来看一下,下面我们来看一下知识,抽取知识抽取可以怎么说?它是归结为知识图谱的那一块。说了很多知识图谱,然后我们现在来讲一下什么是知识图谱,这是图谱的,它的前身是雨衣网。

大家可以可能会如果有兴趣可以去百度一下。前身是语义网,经过一系列的发展,谷歌在2012年还是2013年把它应用到搜索引擎上,然后对搜索这一块有了极大的提升。后来在大概14年左右,国内公司很多公司就在开始构建自己的知识图,包括阿里京东百度都有自己比较稍微成熟一点的知识图谱了。他知识图谱它有个最主要的一个一个东西叫什么呢?它会它是一个类似一个关系,它把一些关系全部都理顺了,全部都他会有一个图数据库。他把把所有的关系全部都理通,全部以知识图谱的形式存储,然后知识图谱它包括有哪些?

像一个知识的一个获取。这是获取的话,有一个方式,什么是爬虫,然后I基于自己的业务数据,你要如果需要第三方数据的话,可能是要自己来写爬虫,爬数据,扒别人的数据,然后爬到数据之后,有这是表示。这表示向知识建模等等。这是建模之后有知识抽取。抽血,然后你可能爬虫的话排的是多个数据源,你要做一个知识融合。这融合的话,你还有一些像实体,这里这是融合,这是推理向知识中包。这是存储这些存储的话,图谱存储。数据一个绝大,90%数据存在图数据库里面。

图数据库目前开源的开源有瓜地B像附件的话是吧?我们自己的知识图谱的话是有做一个调研RNU for J的话,它有商业版和社区版两种。一般的话,我们目前用的是社区版,根据调研,如果你是有在10亿节点,你的图谱是在10亿节点以内,11个节点。因为图谱的话,如果你有一个关系,比如你有一个像三元组我们构成有一个三元组关系,类似比如我举个例子,奥巴马,三元组它是一个教主,卫兵一种形式存储的。因为为什么?你还可以最简单的一个理解为就是实体一关系实体二,实体二和这个关系是指实体一和412之间是怎么样的一个关系?

我简单一个知识图谱的一个简单的举例,就可以分为像奥巴马出生于华农读读。这是最简单的一个三元组。三元组,里面有两个节点,实体一和10.2,这可以看作是两个节点。也就是说图数据库恩又不接,在10亿节点以内。商业版社区版是够用的。这是讲到稍微提一下知识图谱的概念,因为这是图谱的概念。这是图谱,你不知道,可能大家以后如果有接触的话,你会发现它会把我们自然原处理,自然语言理解,自然语言生成等等方面,包括像前端后端,爬虫,数据库等等等等内容,他全部都融合在一起。

所以你想想要构建一个好的知识图谱是一个件比较困难的事情。它还有一点就是关系抽取,我们这里等会我们PPT里面有讲到知识抽血看一下,它的概念就是将非结构化数据转化为结构化的数据,因为我们的数据源一般的情况下,我们数据源是分三种,一个叫非结构化数据,还有一个叫半结构化数据。然后第三种就是结构化数据。结构化数据很好理解,就是我们存在卖骚客奥奥瑞克这类半结构化数据是什么呢?也就是我们经常遇到的像爱杰森,X ml等等,这类数据可能可以叫为叫做半结构化数据。

非结构化数据,就是我们这些处理的文本数据等等。因为我们的核心知识抽取的核心就是在非结构化数据这一块,转换为结构化抽取,一般它的任务子任务分为哪些呢?数据实体数据刚刚之前有提到。实体,你包括时间,地点,人民机构名金额等等,所以我们在做实体抽取的话,像之前说到的用序列标注的方法,构建标签局,用的最多的方法,以前都是基本上是用BI LSTM加上条件随机场来做。但是自从去年我自己有做实验,去年自从谷歌出了很火的一个词,向量模型BRT号称有3亿参数,把它用到实体抽取这一块,效果确实是有明显的提升,提升比较大。

我之前用条件司机厂家双向神经神经网络来做的话是F1直将近是在89%,加入BABRT来优化之后,可以达到96%-97%,效果已经非常好。当然这只是因为我的训练数据的话是司法行业民事判判决书之类这一行业。但是如果你在对开放领域,所以你可能要在训练数据的话,要更多更多一些,可能效果会更好一点。然后第二个任务就是关系抽取,关系出去。是吧?刚刚之前有讲过两个实体之间的关系,比如像王思聪是王健林的儿子,我们抽取出来之后,会以一个三元组的形式来表示。

是吧?关系抽取比较困难的一点。我目前是最近是有在写一篇写一篇论文,就是关于关系索取的。我感觉关系出关系抽取目前最大的难度就是它不准确。是吧?关系。你可能一句话里面有多关系,而且你关系的类别很多,不仅仅是像父子同学这一类的关系,是吧?你有的时候发生像借款关系,A与某某时候发生与B发生借款等等。然后下一步就是事件抽取,事件抽取也是一个核心事件,抽取的主要任务是学车。事件的触发词,事件类型,论员以及论员角色,比如从一篇新闻报道中抽出某一某一恐怖事件的基本信息,像包括像时间,什么时候这个事件是什么时候发生的?

1552749170418042.png

发生在哪里?失事的事件制造者,失事者是谁?受试者是谁?袭击目标伤亡人数等等是。大家可以发现看到有一个什么?就是时间和事件。当然如果我们的一个抽取的一个文本里面,它有多个时间多个事件的话,还存在一个难点,就是一个叫时间序列化的问题,就是你必须要把这个时间跟这个事件一一对应起来,是吧?然后收取这个比较简单,我们标包在标签矩阵里面把他加上。就OK了。其实这一块用的不是很多,有的时候术语也有可能把它类似。

他把它看成像人民或机构名之类的,是一个数术语。然后像除了上面这些还有应用,还有一些像隐喻计算,自动校对作文评分作文评分等一下,在应用里面有讲到语音识别等等。然后就讲到学习方法。学习方法,其实其实不管我们学任何一门东西没有捷径了,大家可能有感觉像做算法,自然语言处理,等等语音图像等等,这一块,可能对数学的要求是相对较高一点。包括像数学分析高等数学,高等代数概率论。数理统计等等随机过程。像时间序列分析可能可能在做。MAP方面他对对随机过程和时间序列分析这一块的要求稍微高一些,因为我们把它当都是把文本当成一个序列来看的话,所以有时间的话可以多看看数学基础等等。

1552749170788418.png

然后英语基础为什么叫英语基础呢?可能涉及到在学习过程中看看文献,看国外的博客等等。因为可能在这方面的话,国内的研究和国外确实是有一些差距的。可能我们需要看多看一些顶会的论文,包括像ACL等等,这些点会的论文它全部都是英文的,所以我们对英文的基础也要也要提升上来。第三点就是读论文,读一些经典性的论文。读论文之后,把论文的模型理解之后,浮现出来,所以我们有的时候尽量选哪些那些可以能。之前就有存在很多问题是什么呢?

就是很多论文他不能复现,你有的时候不能复现的话,你可能在工程上没办法使用。所以尽量挑选一些提供了代码的,提供能够做实验且能够实验成功的,那我来来看。然后第四个就是知乎博客像get up等等,这方面也是很重要的一个学习资源。然后我们开始进入到我们的今天的第三部分,可能也是最后一部分,现在是9点半。PPT也只有几张了?稍微然后在自然语言处理在我们身边的一些应用。第一个向我们的有智慧医疗,可能智慧医疗这里可能就是有一个知识图谱的一个多模态。

1552749170397526.png

多模态的一个知识图谱。智慧医疗有的时候类似像问诊,是吧?看看后面类似这里就是一个对话系统,你看它后面是一个单轮对话,是吧?有的时候像一个问答,这一块想要把问诊做好还是非常难的,因为现在有的时候应用最多的可能在医疗上应用比较多的,可能是在图像方面,类似像影像分析等等。但是目前仅限于一些咨询咨询和问答工作,但是如果你要真正叫一个医生来根据你根据你人工智能提供的方案来来问诊确诊等等。我相信肯定没有哪个医生会会相信的。

是吧?因为医生他要对他的诊断负责,所以你有的时候你可能人工智能做的太再好,你说的再再准确,你可能分析觉得觉得你的分析在准,医生都不会相信你,他还是要自己根据自己的判断来来确诊。所以人工智能只能对象医疗行业做一个参考性的一个工作,辅助他服做一个辅助,并不能判断它替代它来做一个医疗诊断的一个决策。这一个智慧司法就是我现在正在做的一个工作,类似像法律咨询,法条查询,律师推荐案情分析等等,然后我现在在后面这边也是一个基本性的一个问答工作,我们目前是也有在自己构建一个金融司法,我们主要是金融行业金融司法的一个我们在知识图谱的层面上,其实还有更多更多一个内容就是就是找不良资产找老赖,是吧?

1552749170725309.png

可能我们从一些判决文书当中,可能早会找到像一些不良资产内容,类似像比如某某某在何时欠了某某某的钱,然后这个钱他不还。告上法庭,说走司法这一条路,然后查封某某的资产等等,我们是有一个这样的一个场景。比如说我欠了谁的钱,然后在我在另外一处也有又有房产,谁又有谁还有另外一些人来欠我的钱,所以我们要找到这些这些类似这些证据或者一些关系把它找出来,然后是吧?这里下一下一步就是一个智能教育,这里就是类似一个这个案例是一个评分,作文评分的一个工作。

1552749170278371.png

这里就是对一个篇章级的一个分析。智能教育我们目前我觉得可能只能起一个参考性的作用,我们最后讲一个案例,就是一个智能音箱,智能音箱,包括像天猫精灵等等是吧?然后有小艾同学,像小孩小爱我,因为我把天猫精灵和小艾同学我都有。我来把它关掉,你好像没有智能设备先去购买一个班。因为我因为我一说小孩同学他我这边他就答应了,所以我把它关掉。我对比了天猫精灵和小艾同学,我个人已觉得小孩同学是更有趣一些,包括像这里有一些案例,包括像雷军有多少钱等等。

1552749170806454.png

大家如果有的话可以自己来尝试一下。小艾同学我个人感觉是目前智能音箱里面做的比较好的一个一个产品,然后这是一个小艾同学。这里还有一个案例,我们没有讲到微软的微软小兵,大家有时间可以去体验一下,我觉得如果相比的话,我觉得微软小冰是做的是最成功的一个对话系统,大家可以自己去体验一下。然后然后今天的内容现在是9:36,今天的内容的话可能也分享就到此为止。到这里结束了。可能讲的也并不是很好,因为第一次用到语音直播,可能刚开始十几分钟没有完全习惯,到后来的话是可能现在已经用了好。