您的位置: 专家智库 > >

教育部科学技术研究重点项目(212167)

作品数:12 被引量:130H指数:4
相关作者:翟东海崔静静聂洪玉杜佳于磊更多>>
相关机构:西南交通大学西藏大学更多>>
发文基金:教育部科学技术研究重点项目中央高校基本科研业务费专项资金国家级大学生创新创业训练计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 12篇中文期刊文章

领域

  • 12篇自动化与计算...

主题

  • 2篇随机场
  • 2篇条件随机场
  • 2篇情感分析
  • 2篇自适
  • 2篇自适应
  • 2篇文本聚类
  • 2篇聚类
  • 1篇递归
  • 1篇语义相似
  • 1篇语义相似度
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇散度
  • 1篇数据挖掘
  • 1篇水印
  • 1篇水印容量
  • 1篇特征词
  • 1篇特征函数
  • 1篇情感
  • 1篇中文

机构

  • 11篇西南交通大学
  • 10篇西藏大学

作者

  • 11篇翟东海
  • 9篇聂洪玉
  • 9篇崔静静
  • 8篇杜佳
  • 3篇于磊
  • 2篇王佳君
  • 2篇鱼江
  • 1篇格桑曲珍
  • 1篇高飞
  • 1篇段维夏
  • 1篇申彦龙
  • 1篇侯佳林
  • 1篇丁锋
  • 1篇刘月

传媒

  • 2篇西南交通大学...
  • 2篇计算机应用研...
  • 1篇计算机工程
  • 1篇成都信息工程...
  • 1篇计算机与数字...
  • 1篇西藏大学学报...
  • 1篇西藏科技
  • 1篇山东大学学报...
  • 1篇西南科技大学...
  • 1篇重庆邮电大学...

年份

  • 1篇2019
  • 1篇2015
  • 5篇2014
  • 5篇2013
12 条 记 录,以下是 1-10
排序方式:
基于CRFs模型的敏感话题识别研究被引量:4
2014年
条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。
翟东海聂洪玉崔静静杜佳
关键词:条件随机场
基于改进的χ~2检验的热点词突发性度量研究被引量:1
2013年
采用原始χ2检验公式进行突发性度量时存在低频词偏袒问题,论文提出了结合TF的改进的χ2检验方法能有效克服该问题。该方法将词频累加和作为文档统计篇数的影响因子β引入原始χ2检验公式从而解决了低频词偏袒问题,提高了度量热点词突发性的精确度。动态突发性热点词库依据改进后的χ2检验公式得到的突发性度量值来建立,并将该词库运用在动态突发性向量空间模型中来发现与追踪网络突发性热点话题。实例验证表明,利用该文的方法进行话题发现与追踪,可以获得有更高的准确率、召回率以及F度量。
翟东海聂洪玉崔静静于磊杜佳王佳君
关键词:词频
基于语义相似度的话题关联检测方法被引量:6
2015年
为有效识别任意两篇报道的相似性,提出了一种基于语义相似度的话题关联检测算法.该算法首先通过计算特征词之间的相对熵作为两篇报道中特征词之间的语义相似度;其次,通过计算平均语义相似度获得特征词和报道之间的关联度;最后,结合特征词在语料库中的TF-IF(term frequency-inverse document frequency)权重计算两篇报道之间的关联度,实现报道之间的关联度检测.本文提出的方法与现有的向量空间模型方法和仅依赖于平均点互信息的方法进行了比较,并通过TDT4中文语料进行测评,结果表明,基于语义相似度的关联检测方法能够更好地利用文本的语境信息,提高了现有检测系统的性能,其最小DET(detection error tradeoff)代价降低了3%.
翟东海崔静静聂洪玉杜佳
关键词:语义相似度相对熵
基于自适应簇中心选择的文本聚类算法研究被引量:1
2013年
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。
翟东海聂洪玉崔静静杜佳
关键词:海量数据挖掘K-MEANS算法
基于U形有向无环支持向量机的多类文本分类研究
2013年
针对原始的有向无环支持向量机(Directed Acyclic Graph Support Vector Machine,DAGSVM)多类文本分类算法结构图中存在误差累积以及路径冗余的问题,提出一种改进的有向无环图支持向量机多类文本分类算法。将易于分离的那些类两两组成两类分类器放置在结构图的上层,有效克服了误差累积问题,通过将原始的分类结构图改造为U形图以及引入集合运算进行类别判定,有效剪除冗余路径并降低时间复杂度。实例表明,该算法能有效提高类别判定的准确率并降低时间复杂度。
翟东海杜佳聂洪玉崔静静
最大距离法选取初始簇中心的K-means文本聚类算法的研究被引量:105
2014年
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
翟东海鱼江高飞于磊丁锋
关键词:K-MEANS聚类算法文本聚类
基于条件随机场的敏感话题检测模型研究被引量:7
2014年
敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽取特征词项,并结合敏感词汇库,将待检测文档和敏感话题类别分别表示为条件随机场中的观察序列和状态序列,再利用敏感话题类别中的先验知识来构造特征函数,从而使观察序列和状态序列建立联系。将待测文档中的特征项根据概率标注为敏感话题类别中的词项,在此过程中采用Viterbi算法对观察序列的可信度进行估计,并依据估计所得的概率值对待测文档中的特征项进行敏感性标注。实例验证结果表明,该算法能够得到较好的准确率、召回率和F度量值。
翟东海崔静静聂洪玉于磊杜佳
关键词:条件随机场特征函数VITERBI算法
基于相关性反馈的自适应热点话题追踪模型被引量:1
2014年
针对在热点话题追踪过程中容易发生话题漂移的问题,提出了基于相关性反馈的自适应热点话题追踪模型。为准确把握话题的动态演变过程,首先,在词频-逆向文档频率(term frequency—inverse document frequency,TF-IDF)的基础上引入了相关度因子。其次,构造了报道与话题的相关度计算公式和新特征词能否反馈加入到话题词汇库的判别函数。同时,利用了话题词汇库本身的特性,构造了自适应更新阈值和自适应相关阈值的动态计算方法。最后,根据各个特征词对该话题贡献度的大小,对更新后的词汇库中的各特征词动态赋予新权重。实验结果显示,和其它3类追踪器相比,该追踪器模型的漏报率平均降低0.018、误报率平均降低0.063,这表明,该追踪模型更适合于解决话题漂移问题。
翟东海鱼江聂洪玉崔静静杜佳
关键词:自适应阈值
基于互信息的热点词发现和突发性话题检测研究被引量:2
2013年
针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式。在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪。实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量。
翟东海王佳君聂洪玉崔静静
关键词:互信息
基于双粒度模型的中文情感特征词提取研究
2014年
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。
翟东海杜佳崔静静聂洪玉
关键词:情感分析
共2页<12>
聚类工具0