公共文化服务平台

2024年7月7日星期日

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

山东省自然科学基金(Y2008G19): 作品数：11 被引量：46H指数：4; 相关作者：马军邵海敏杜言琦杨潇陈竹敏更多>>; 相关机构：山东大学山东经济学院山东建筑大学更多>>; 发文基金：山东省自然科学基金国家自然科学基金山东省科技攻关计划更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

11篇期刊文章
4篇会议论文

领域

15篇自动化与计算...

主题

4篇文档
4篇文摘
4篇LDA
3篇多文档
3篇主题模型
3篇WEB论坛
2篇多文档自动文...
2篇多文档自动摘...
2篇语义
2篇自动文摘
2篇版块
2篇BLOG
2篇HITS
2篇HITS算法
1篇地理信息
1篇信息抽取
1篇信息处理
1篇依存句法分析
1篇引擎
1篇语义特征

机构

15篇山东大学
3篇山东经济学院
1篇清华大学
1篇山东建筑大学

作者

15篇马军
4篇杜言琦
3篇杨潇
3篇邵海敏
3篇陈竹敏
2篇杨同峰
2篇张冬梅
2篇韩晓晖
2篇薛冉
2篇苗家
1篇祝翠玲
1篇马少平
1篇牛小飞
1篇刘峥
1篇王晖
1篇万建成
1篇关冕
1篇康琪

传媒

4篇中文信息学报
3篇模式识别与人...
2篇计算机研究与...
2篇第五届全国信...
1篇山东大学学报...
1篇智能系统学报

年份

3篇2012
4篇2011
4篇2010
4篇2009

共 11 条记录，以下是 1-10

全选清除导出

排序方式：

一种基于HITS算法的Blog文摘方法被引量：9: 2011年; Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。; 苗家马军陈竹敏; 关键词：BLOG HITS

面向层次分类的文本特征选择方法被引量：2: 2011年; 提出一种针对层次分类的文本特征选择方法.先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性.最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合.实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法.; 祝翠玲马军张冬梅; 关键词：文本特征选择

一种基于LDA的Web论坛低质量回帖检测方法被引量：4: 2012年; 为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.; 韩晓晖马军邵海敏薛冉; 关键词：WEB论坛主题模型主题分布语义特征

一种基于HITS算法的blog文摘方法: blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特...; 苗家马军陈竹敏; 关键词：BLOG HITS; 文献传递

面向Web论坛的多文档摘要方法: Web论坛文章具有数据量大、信息重复度高的特点,如何快速准确地获取文章主要内容是许多基于论坛应用面临的难题。以往的多文档摘要方法由于没有考虑论坛文章的特殊性,不能有效的处理论坛文章。本文根据Web论坛文章在结构和语法上的...; 王晖马军; 关键词：多文档自动摘要; 文献传递

基于版块的论坛增量搜集策略被引量：2: 2010年; 该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。; 杜言琦马军; 关键词：计算机应用中文信息处理

有向标记根树之间的语义编辑距离: 2011年; 有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上.文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式.组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上.实验表明该距离模型在结构化聚类的准确率和召回率上明显优于单纯利用TED算法的聚类结果.该算法在时间复杂性上也等同于利用动态规划计算TED的最好算法.; 康琪马军; 关键词：文档聚类结构相似度语义相似性

主题模型LDA的多文档自动文摘被引量：23: 2010年; 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.; 杨潇马军杨同峰杜言琦邵海敏; 关键词：多文档自动文摘主题模型 LDA

基于主题模型LDA的多文档自动摘要: 随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(Latent Dirichlet Allocation)是主题模型中具有代表性的概率生成性...; 杨潇马军杨同峰杜言琦邵海敏; 关键词：多文档自动文摘主题模型 LDA; 文献传递

基于版块的论坛增量搜集策略: 本文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的重抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。本文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛...; 杜言琦马军; 文献传递

全选清除导出

共2页<1 2>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张