人工智能时代前沿技术社区

首页 > 人工智能 > 热点

自然语言和深度学习的应用实践

自然语言和深度学习的应用实践自然语言和深度学习在近年来的效果越来越好,也越来越受到市场的追捧。为了让大家进一步了解自然语言和深度学

作者:时风 | 2018-08-24 15:14:00

自然语言和深度学习的应用实践

自然语言和深度学习在近年来的效果越来越好,也越来越受到市场的追捧。为了让大家进一步了解自然语言和深度学习,飞马网823晚,邀请到达观数据副总裁王文广老师为大家分享该领域的内容

以下是这次线上直播的分享实录:

大家好,我是达观数据王文广,我们开始今天的分享——自然语言和深度学习的应用实践。

达观数据是一家专注于文本处理的公司,我们会应用前沿的技术来处理文本,今天的分享主要包括五个方面。

一、深度学习

首先是深度学习。深度学习是在机器学习基础上发展起来的,一般机器学习都包括监督学习和非监督学习以及强化学习三类型。

深度学习是在机器学习基础上把特征抽取放到里面一起完成的,直接实现端到端的学习。经常遇到的深度网络包括Stacked autoencoder、DBN、CNN、RNN。

深度学习中最常使用的是卷积神经网络。深度学习是在神经网络的基础上发展起来的,它早期的效果并不好,但从两千零几年开始,随着海量数据的积累以及逐层训练技术的出现,包括GPU的兴起,使得深度学习效果越来越好,在语音识别、计算机视觉、自然语言处理中运用起来。后面讲的自然语言处理就用了很多的深度学习算法。

二、自然语言处理

自然语言理解所处理的对象是文本,文本广泛存在于我们的日常生活和工作当中的,达观数据所擅长处理的是正式文本或者说长文本。

长文本像法律文书、人事档案、证券专业文书等,以及企业手册、新闻文本、问答资料、客户评论意见等都是我们常见的文本,几乎存在与所有的行业中,像金融、媒体、政府等无所不在。

如果能使用自然语言理解和机器学习的方法来大量需要人工处理的海量文档自动化,将大大提高企业和政府部门的工作效率,然而让计算机来理解文本是非常难的一件事情。

首先计算机缺少常识和专业的背景知识,而人类拥有这些。(比如future,普通人认为是未来,金融相关专业的人则认为是期货,而期货对于金融专业的人来说就是一个语境,计算机不存在的一个场景),其次人类说话本身就抽象和模糊,有很多的歧义和语境信息(如在见到朋友说“吃饭了吗”,对于机器来说就是吃饭了没有几个字,对于人类来说则含有更多的隐含意义)。

再从分词来说,词本身的力度问题,中华人民共和国和中国本身意义是一样的;指代归属问题,人与人之间交流的时候,你我他很自然的能被替代为相应的目标,计算机则很难;除此之外,一词多义、近义反义等也是问题。词语构造成句子的过程也有很多问题,对于人类来说句子部分结构发生颠倒不影响理解,但是对于计算机来说有点难度。语义层面的歧义则更多,语境、专家知识等计算机都存在问题。

为了解决这些问题,我们会使用各种机器学习和深度学习的方法来建立模型,然后通过海量的文本训练模型来预测未来。在建立模型的过程中,分为字词级分析、段落级分析以及篇章级分析。

三、文本语义分析以及应用实践

文本语义分析首先是表示学习,传统上对文本的表示是通过one hot编码来实现的,深度学习出来以后往往使用稠密的向量编码来实现对文本的表示。

持向量的稠密表示有很大的优势,一方面维度降低的非常多,一方面能表达语义层面的相似性。

除了词向量之外,深度学习的各种网络结构也被用来文本分析,比如对句子进行分类,可以使用卷积神经网络。层次注意力模型是最新的一个网络,最早用来给评论打分,有个非常大的优点,考虑文本的篇章或结构,另外一个优点是把参数可视化出来,除此之外,还有最新论文提出的金字塔卷积网络模型。

四、推荐系统应用实践

推荐系统非常火热,像今日头条和抖音。

以搜索引擎为基础,使用各种推荐算法,像基于内容的推荐算法以及深度学习发展以来的协同过滤的算法来进行文本推荐。不同的推荐算法在同一场景下推荐出不同内容,在这个基础上会有融合算法把这些推荐进行融合。

融合之后,还会根据APP要求的业务规则和过滤规则进行过滤,把最终结果发送给业务,这是整个推荐系统的基本过程。

这些算法可以非常有效的做好个性化推荐、相关推荐和热门等各种内容。可以广泛应用在资讯类似今日头条这种,也可以应用在简历上,对于其他场景也可以进行使用,如案件、商品推荐。

五、文档智能处理应用实践

文档的种类是非常丰富的,所以企业面临的文档也是非常多的,应用场景也是各种各样,比如财务报表,然后对于合同来说,包括两个,一个是写合同的时候是否符合合同法和企业内部规定;对于审合同的人来说就是如何防止阴阳合同情况出现。

另外,还可以借助深度学习和自然语言理解技术来帮助写文档的人更好更快的写作,比如写新闻。

人工智能和文本智能审阅的使用给企业带来非常大的收益,同时让人去做更有意义的工作。前面就是分享的各种内容。

以上就是本次线上直播的主要内容,相信你对自然语言和深度学习的应用实践有了一定的认识。想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。

微信图片_20180530151141.jpg