博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记|Open Set Text Classification using Convolutional Neural Networks
阅读量:4291 次
发布时间:2019-05-27

本文共 1172 字,大约阅读时间需要 3 分钟。

作者:徐甘霖

单位:燕山大学


  这篇文章中,作者基于CNN提出了开放领域文本分类的一套算法,比之前的开放分类算法有了一定的提升。首先作者提出了传统的softmax操作并不能完成开放分类任务,然后总结了之前的开放分类算法(CBS、NCC等),通过如下的CNN结果抽取句子特征。在文章中,CNN的最后一层输出的Activation Vector(AV)来抽取句子特征。

在这里插入图片描述  在训练时和一般的CNN没有太大区别。只不过在测试时,CNN的最后一层抽取输入类的句子特征,得到Activation Vector(AV),然后计算每个测试样例的Activation Vector到每个已知类距离最近的前k个距离值,并把这前k个样本的Activation Vector记为k-Class Activation Vectors (k-CAV)。最后计算机测试样例AV与k-CAV距离,这样测试时每个AV对应每个已知类会有k个距离。
  在计算距离时,分别使用Mahalanobis和Eucos作为度量,并且假设对于每个训练得到的距离度量服从韦布尔分布,这样可以根据下图将距离映射为概率值。
在这里插入图片描述

每个训练类的k个概率值之和记为total closed set probability,然后计算OSP = 1 − total closed set probability。用所有训练类最大的total closed set probability与OSP比较从而确定该测试类是未知类还是已知类的closed set probability最大的那一类。其实,可以看出当最大的所有类别中最大的total closed set probability低于0.5,那么,OSP一定大于total closed set probability,把这个类归为未知类中,否则,将这个类归为概率最高的那一类。所以来说,这还是一种人工设定阈值(默认0.5)的方法。值得注意的是,作者采用如下集成学习的方法。综合考虑两种距离度量对模型性能的影响。

在这里插入图片描述在这里主要起作用的是两种距离度量方式,孤立森林只是作为一个tie-breaker,不做详细描述。
  除了使用recall、precision、F1等传统分类常用的评测指标,文中还是用openness进行模型性能的评估。
在这里插入图片描述其中,CT :训练集中类的个数,CR:待识别的类的个数,CE:测试集中类的个数。值得注意的是,当CT = CR = CE时,openness为0.


论文地址:https://par.nsf.gov/servlets/purl/10059464

代码地址:https://github.com/LincLabUCCS/Open-set-text-classification-using-neural-networks

转载地址:http://hhmgi.baihongyu.com/

你可能感兴趣的文章
linux下python3 安装tkinter库
查看>>
Python sys.argv[]详解
查看>>
Python sys.path、sys.modules模块介绍
查看>>
python元组遍历
查看>>
python字典用法总结
查看>>
python异常处理
查看>>
python sys.exc_info()详解
查看>>
python中os模块作用
查看>>
ubuntu python subprocess模块执行python脚本
查看>>
python xticks()函数设置X轴方法--刻度、标签
查看>>
HTTP协议原理
查看>>
python正则表达式模块re
查看>>
python爬虫总结
查看>>
python网络编程基础--http
查看>>
python 构造http请求对象-Request对象
查看>>
解决Ubuntu16.04更新源时显示“暂时不能解析域名”问题
查看>>
Ubuntu16.04运行清空文件命令时提示权限不够解决方法
查看>>
shell脚本编写笔记
查看>>
Ubuntu16.04实现定时免密远程拷贝脚本
查看>>
Ubuntu 16.04安装Docker
查看>>