国家级大学生创新创业训练计划(201210694017)
- 作品数:6 被引量:19H指数:3
- 相关作者:崔静静杜佳翟东海聂洪玉于磊更多>>
- 相关机构:西藏大学西南交通大学更多>>
- 发文基金:中央高校基本科研业务费专项资金国家级大学生创新创业训练计划教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语义相似度的话题关联检测方法被引量:6
- 2015年
- 为有效识别任意两篇报道的相似性,提出了一种基于语义相似度的话题关联检测算法.该算法首先通过计算特征词之间的相对熵作为两篇报道中特征词之间的语义相似度;其次,通过计算平均语义相似度获得特征词和报道之间的关联度;最后,结合特征词在语料库中的TF-IF(term frequency-inverse document frequency)权重计算两篇报道之间的关联度,实现报道之间的关联度检测.本文提出的方法与现有的向量空间模型方法和仅依赖于平均点互信息的方法进行了比较,并通过TDT4中文语料进行测评,结果表明,基于语义相似度的关联检测方法能够更好地利用文本的语境信息,提高了现有检测系统的性能,其最小DET(detection error tradeoff)代价降低了3%.
- 翟东海崔静静聂洪玉杜佳
- 关键词:语义相似度相对熵
- 基于自适应簇中心选择的文本聚类算法研究被引量:1
- 2013年
- 为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。
- 翟东海聂洪玉崔静静杜佳
- 关键词:海量数据挖掘K-MEANS算法
- 基于U形有向无环支持向量机的多类文本分类研究
- 2013年
- 针对原始的有向无环支持向量机(Directed Acyclic Graph Support Vector Machine,DAGSVM)多类文本分类算法结构图中存在误差累积以及路径冗余的问题,提出一种改进的有向无环图支持向量机多类文本分类算法。将易于分离的那些类两两组成两类分类器放置在结构图的上层,有效克服了误差累积问题,通过将原始的分类结构图改造为U形图以及引入集合运算进行类别判定,有效剪除冗余路径并降低时间复杂度。实例表明,该算法能有效提高类别判定的准确率并降低时间复杂度。
- 翟东海杜佳聂洪玉崔静静
- 基于CRFs模型的敏感话题识别研究被引量:4
- 2014年
- 条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。
- 翟东海聂洪玉崔静静杜佳
- 关键词:条件随机场
- 基于改进的χ~2检验的热点词突发性度量研究被引量:1
- 2013年
- 采用原始χ2检验公式进行突发性度量时存在低频词偏袒问题,论文提出了结合TF的改进的χ2检验方法能有效克服该问题。该方法将词频累加和作为文档统计篇数的影响因子β引入原始χ2检验公式从而解决了低频词偏袒问题,提高了度量热点词突发性的精确度。动态突发性热点词库依据改进后的χ2检验公式得到的突发性度量值来建立,并将该词库运用在动态突发性向量空间模型中来发现与追踪网络突发性热点话题。实例验证表明,利用该文的方法进行话题发现与追踪,可以获得有更高的准确率、召回率以及F度量。
- 翟东海聂洪玉崔静静于磊杜佳王佳君
- 关键词:词频
- 基于条件随机场的敏感话题检测模型研究被引量:7
- 2014年
- 敏感话题通常包含态度倾向性,且具有一定的先验知识,如何有效利用这些先验知识来判断网络文本的敏感性是敏感话题检测的研究难点和热点。在充分利用条件随机场强大知识拟合能力的基础上,提出一种基于条件随机场的敏感话题检测模型。抽取特征词项,并结合敏感词汇库,将待检测文档和敏感话题类别分别表示为条件随机场中的观察序列和状态序列,再利用敏感话题类别中的先验知识来构造特征函数,从而使观察序列和状态序列建立联系。将待测文档中的特征项根据概率标注为敏感话题类别中的词项,在此过程中采用Viterbi算法对观察序列的可信度进行估计,并依据估计所得的概率值对待测文档中的特征项进行敏感性标注。实例验证结果表明,该算法能够得到较好的准确率、召回率和F度量值。
- 翟东海崔静静聂洪玉于磊杜佳
- 关键词:条件随机场特征函数VITERBI算法