您的位置: 专家智库 > >

山东省自然科学基金(Y2008G19)

作品数:11 被引量:46H指数:4
相关作者:马军邵海敏杜言琦杨潇陈竹敏更多>>
相关机构:山东大学山东经济学院山东建筑大学更多>>
发文基金:山东省自然科学基金国家自然科学基金山东省科技攻关计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 11篇期刊文章
  • 4篇会议论文

领域

  • 15篇自动化与计算...

主题

  • 4篇文档
  • 4篇文摘
  • 4篇LDA
  • 3篇多文档
  • 3篇主题模型
  • 3篇WEB论坛
  • 2篇多文档自动文...
  • 2篇多文档自动摘...
  • 2篇语义
  • 2篇自动文摘
  • 2篇版块
  • 2篇BLOG
  • 2篇HITS
  • 2篇HITS算法
  • 1篇地理信息
  • 1篇信息抽取
  • 1篇信息处理
  • 1篇依存句法分析
  • 1篇引擎
  • 1篇语义特征

机构

  • 15篇山东大学
  • 3篇山东经济学院
  • 1篇清华大学
  • 1篇山东建筑大学

作者

  • 15篇马军
  • 4篇杜言琦
  • 3篇杨潇
  • 3篇邵海敏
  • 3篇陈竹敏
  • 2篇杨同峰
  • 2篇张冬梅
  • 2篇韩晓晖
  • 2篇薛冉
  • 2篇苗家
  • 1篇祝翠玲
  • 1篇马少平
  • 1篇牛小飞
  • 1篇刘峥
  • 1篇王晖
  • 1篇万建成
  • 1篇关冕
  • 1篇康琪

传媒

  • 4篇中文信息学报
  • 3篇模式识别与人...
  • 2篇计算机研究与...
  • 2篇第五届全国信...
  • 1篇山东大学学报...
  • 1篇智能系统学报

年份

  • 3篇2012
  • 4篇2011
  • 4篇2010
  • 4篇2009
11 条 记 录,以下是 1-10
排序方式:
一种基于HITS算法的Blog文摘方法被引量:9
2011年
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。
苗家马军陈竹敏
关键词:BLOGHITS
面向层次分类的文本特征选择方法被引量:2
2011年
提出一种针对层次分类的文本特征选择方法.先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性.最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合.实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法.
祝翠玲马军张冬梅
关键词:文本特征选择
一种基于LDA的Web论坛低质量回帖检测方法被引量:4
2012年
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.
韩晓晖马军邵海敏薛冉
关键词:WEB论坛主题模型主题分布语义特征
一种基于HITS算法的blog文摘方法
blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特...
苗家马军陈竹敏
关键词:BLOGHITS
文献传递
面向Web论坛的多文档摘要方法
Web论坛文章具有数据量大、信息重复度高的特点,如何快速准确地获取文章主要内容是许多基于论坛应用面临的难题。以往的多文档摘要方法由于没有考虑论坛文章的特殊性,不能有效的处理论坛文章。本文根据Web论坛文章在结构和语法上的...
王晖马军
关键词:多文档自动摘要
文献传递
基于版块的论坛增量搜集策略被引量:2
2010年
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。
杜言琦马军
关键词:计算机应用中文信息处理
有向标记根树之间的语义编辑距离
2011年
有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上.文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式.组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上.实验表明该距离模型在结构化聚类的准确率和召回率上明显优于单纯利用TED算法的聚类结果.该算法在时间复杂性上也等同于利用动态规划计算TED的最好算法.
康琪马军
关键词:文档聚类结构相似度语义相似性
主题模型LDA的多文档自动文摘被引量:23
2010年
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
杨潇马军杨同峰杜言琦邵海敏
关键词:多文档自动文摘主题模型LDA
基于主题模型LDA的多文档自动摘要
随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(Latent Dirichlet Allocation)是主题模型中具有代表性的概率生成性...
杨潇马军杨同峰杜言琦邵海敏
关键词:多文档自动文摘主题模型LDA
文献传递
基于版块的论坛增量搜集策略
本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的重抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛...
杜言琦马军
文献传递
共2页<12>
聚类工具0