人工智能时代前沿技术社区

首页 > 人工智能 > 热点

人工智能中的文本分类技术(二)

本次直播主题紧接着10月16日人工智能中的文本分类技术,直播老师黄鸿波是珠海金山办公软件有限公司人工智能领域专家,拥有多年年软件开发经验,飞马直播于11月27日再一次邀请到黄老师继续为我们分享该领域的知识。

作者: | 2018-11-28 16:32:41

本次直播主题紧接着10月16日人工智能中的文本分类技术,直播老师黄鸿波是珠海金山办公软件有限公司人工智能领域专家,拥有多年年软件开发经验,飞马直播于1127日再一次邀请到黄老师继续为我们分享该领域的知识。

以下是本次直播分享的全部内容:

本次直播是给大家讲一下常用的文本分类技术,主要从三个方面来讲。

 

一、文本分类的流程

文档建模:

包括概率模型、布尔模型、VSM(向量空间模型)三种。

在这三种方式中,最常用的就是VSM,实际上是一种比较经典的机器学习模型,用来解决NLP遇到的问题。具体来做向量空间模型的时候,可以分为三个小步骤:1、建立;2、通过计算权重获得对应的值;3,进行分值操作。

文本语义:

包括分词、命名实体识别、词性标注三种,前提是要先做数据清洗。

分词:给一条文本,进行词与词的切分。

命名实体识别:在一段文字中,摘取人名、地名、时间、机构名等

词性标注:名词、动词、副词等。

文本特征处理:

包括特征降维、使用评估函数、特征向量权值计算三种。

分类器训练:

实际上就是分类模型的训练,常用的四种是朴素贝叶斯、逻辑回归、fasttestTextCNN 

模型评估:

准确率、召回率、预测效率

二、文本分类的模型选择

模型选择主要分为两类,一种是深度学习模型;一种是机器学习模型。

上面属于比较常用的机器学习模型;下面则是比较常用的深度学习模型。

在大概八万多条文本上进行文本训练,朴素贝叶斯训练之后的准确率在85%左右,效率大概是43毫秒左右;fasttest准确率在83%,效率在3545之间波动;胶囊网络准确率非常高,达到了93%左右,但是效率非常低,可能预测一个文章会降到60左右毫秒。

 

TextCNN如何实现文本分类

分四个部分。

四个层:输入层(每个句子中的词、词向量和组成的矩阵,也就是n x k,其中k是词向量的长度,n是句子的长度)、卷积层(在输入层的基础上进行卷积操作,得到卷积特征图,然后使用不同类型的卷积窗口进行卷积,k是词向量的长度,用CNN做文本分类,长度可以不用固定)、全连接层、输出层。

testCNNTensorFlow上的演示:

优点是在模型调整调优很方便。

三、文本分类的趋势

20142018 年文本分类趋势(针对法律方面),文本数量剧增,一开始不到一千五百万件,现在到四千五百万件,预计到2010年文本数量会越来越多。

文本数量越来越多实际会导致几个问题:数据量大;非结构化的保存;历史数据保存。

我个人觉得,文本分类就业量或者用人量会越来越多。


以上就是本次线上直播的主要内容,相信你对人工智能中的文本分类有了更多的认识。想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。

微信图片_20180530151141.jpg