人工智能时代前沿技术社区

首页 > 人工智能 > 热点

人工智能中的文本分类技术

文本分类技术是NLP领域中最常用的技术。为了让大家进一步了解文本分类技术,飞马网于10月16日晚,邀请到金山软件黄鸿波老师为大家分享该领域

作者:时风 | 2018-10-19 14:11:06


文本分类技术NLP领域中最常用的技术。为了让大家进一步了解文本分类技术,飞马网于1016日晚,邀请到金山软件黄鸿波老师为大家分享该领域的内容。

以下是这次线上直播的分享实录:

大家好,我是黄鸿波,来自金山软件。今天跟大家分享的是人工智能中的文本分类技术。我们在NLP领域中最常用的技术就是文本分类技术,文本分类技术我们之前是用传统的机器学习,后来我们用深度学习也可以做分类,本次的课程就是围绕机器学习和深度学习两个方面来探讨文本分类技术是怎么实现的?以及怎么操作,有什么技巧。

 

本次课程主要从个方面来讲。


一、文本分类的现状

目前,文本分类现状相对来讲是比较成熟的。

第一个是在垃圾邮件分类中,我们会做一下文本分类,在这个过程中,垃圾邮件、广告邮件、诈骗邮件都被自动过滤。第二个就是情感分析,文本分类中的情感分析你是分析情感,大多数只是一个证书类的分析可以用在正负能量的语句的切换判断等地方。第三个是个性化推荐,最常见的是推荐系统,比如天猫、京东购物就会有个性化推荐,在搜索引擎中也会有个性化推荐,比如在百度搜索学习NLP方面的内容,在搜这个的时候搜索引擎就会记录这个关键词 


 

二、文本分类实践中常见的误区

1、深度模型一定要优于传统的机器学习模型吗?

首先说文本分类,包括传统的机器学习方法和深度学习方法。传统机器学习一般用到四种:频次法(记录每一篇文章次数的分布,把分布作为机器学习的模型,再训练成为一个合适的分类模型)TF-IDF(基于频次法的改进)、互信息方法(基于文档中出现词的相关程度)N-gram(目前文本文类中最常用的方法)

基于深度学习的文本分类方法大概有两种包括三种:CNN、RNN以及RCNN。最常用的是CNN。RCNN。

2、在验证集上准确率高在线上准确率就高?

也不是。我们在验证集上做了一个训练,正确率85%以上,但是在线上的准确率可能不到60%。训练样本的多样性、是否过拟合、是否考虑了其他因素这些都是文本分类中比较容易遇到的问题。

3、准确率是文本分类中最重要的指标?

实际上不是的。在文本分类中最重要的指标有三种:准确率、精确率、召回率。大家比较容易误解的是准确率和精确率之间的区别。准确率是用来表示所有样本中最正确样本的比例,精确率是在一类样本中有多少是该类的样本。

4、越复杂的模型效果越好?

如图,看结果发现,第一个是欠拟合,第二个刚刚好,第三个过拟合。这个排序就是从简单到复杂,从这个图很明显可以看到不是越复杂越好。

三、文本分类策略

主要从两方面来讲。

1、选择训练集和测试集的一个策略

如何选择训练集和测试集?比较通用的原则是:训练样本的多样性(要训练的模型是二分类或多分类,一定不要用精度特别高的模型,容易过拟合;相反要具有多样性,这样可以避免过拟合);二八原则(做数据集时,一是单独收集;一种是训练集和验证集全都放在一起,打散,然后在随机取百分之二十去测试);比例问题(让测试集和训练集比例一样)。

2、文本分类特征处理的一个策略

可以分成三种:基于词袋模型抽取的特征(把文本分词,把词装袋,再提取特征);基于词向量表示的特征(分词后,在用词向量的方式表示,在深度学习过程中非常常用);基于NN mode抽取的特征(基于CNN和RNN,优点是自动提取,不需要人为干预)。

……

下一期的课程将在十一月末的时候继续上线,大家可以持续关注。

以上就是本次线上直播的主要内容,相信你对日志管理系统有了一定的认识。想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。  

微信图片_20180530151141.jpg