吴树芳
- 作品数:59 被引量:152H指数:7
- 供职机构:河北大学管理学院更多>>
- 发文基金:河北省自然科学基金国家社会科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术文化科学政治法律经济管理更多>>
- 贝叶斯网络被引量:10
- 2009年
- 贝叶斯网络是现阶段处理不确定信息的主流,在很多领域已得到广泛应用,它是基于概率推理的图形化网络,具有一定的概率基础,其拓扑结构包括一个有向无环图和条件概率表,此外,论文详细介绍了贝叶斯网络的推理手段。
- 韩磊吴树芳王子贤
- 关键词:贝叶斯网络
- 多源信息融合的微博查询似然模型被引量:3
- 2020年
- [目的/意义]查询似然模型存在零概率问题,融合多源信息对模型进行扩展,不仅可以解决零概率问题,还可以实现对全局信息的差异化处理,降低噪声。[方法/过程]通过LDA主题挖掘和历史微博兴趣挖掘,分别获取初始微博的主题相关信息和兴趣相关信息,并将二者与全局信息融合,用于改进初始微博的语言模型估计,从而得到扩展的微博查询似然模型。运用网络爬虫工具从新浪微博爬取数据,并通过实证研究验证扩展模型的有效性。[结果/结论]实验结果表明:与已有的查询似然模型扩展方法相比,新模型具有较好的检索性能。
- 吴树芳张雄涛朱杰
- 关键词:多源信息主题信息
- 动态话题追踪中的时序权重被引量:3
- 2015年
- 在贝叶斯信念网络的基础上,给出了一个新的动态话题追踪模型作为文章的表示模型。依据时间距离量化动态话题追踪中的时序信息,并将其应用于特征权重的动态调整。考虑到较长时间没有再现的特征权重应该衰减,给出了权重衰减函数,若衰减后的特征权重低于一定的阈值,则将其视为冗余信息。实验采用TDT4测试集合和DET曲线进行评测,通过反复实验获得基于TDT语料的最优时间距离阈值α和决定是否为冗余特征的阈值β。实验证明,使用时序权重后可有效提高动态话题追踪模型的追踪性能。
- 吴树芳徐建民
- 关键词:贝叶斯信念网络
- 基于文档关系改进的向量空间模型被引量:5
- 2020年
- 由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.
- 何丹丹吴树芳徐建民
- 关键词:向量空间模型文档相似度信息检索
- 利用术语本体关系扩展SBN检索模型被引量:1
- 2013年
- 合理利用术语关系可以提高信息检索系统的性能.针对简单贝叶斯网络模型未有效利用术语间关系的不足,利用本体概念得到的索引术语之间的本体关联关系,实现对简单贝叶斯网络模型的扩展.词语间的本体关联关系可以用它们之间的本体关联度来度量,本体关联度可以通过词语间的语义相似度和语义相关度来计算.扩展模型中用两层术语节点和节点之间的弧表示术语之间关系,并用本体关联度对这种关系实现量化.节点的概率利用估算方法得到,文档与用户查询之间的相关度通过推理获得.实验结果表明扩展模型的性能有一定的提高.
- 陈振亚徐建民吴树芳
- 关键词:本体贝叶斯网络信息检索语义
- 基于术语相似度的贝叶斯网络检索模型扩展被引量:6
- 2007年
- 利用术语相似度将同义词间的相似程度数量化,以此量化关系对用于信息检索的简单贝叶斯网络进行改进,并进行有效的概率推理。实验结果表明新模型不仅具有良好的检索效果,而且相关文档的排序更加合理。
- 徐建民白彦霞吴树芳
- 关键词:贝叶斯网络同义词信息检索
- 基于改进D-S证据理论的微博不可信用户识别研究被引量:1
- 2022年
- 【目的】利用改进的D-S证据理论实现含主观不确定性的微博不可信用户识别。【方法】基于证据距离改进D-S证据理论,依据该理论将微博用户历史博文的可信度转化为证据,融合证据生成用户的信任区间。在此基础上,利用决策树算法实现对不可信用户的识别。【结果】与当前认可度较高的不可信用户识别方法相比,本文提出的方法时间消耗最多减少287.4秒,F1值最多提高31.9个百分点,一致性检验的卡方值最优。【局限】仅考虑时间衰减、证据冲突带来的主观不确定性,未考虑认知差异对主观性的影响。【结论】基于改进的D-S证据理论进行微博不可信用户识别,能够提升识别效果。
- 徐建民王恺霖吴树芳
- 关键词:D-S证据理论
- 基于WB-MMSB模型的微博网络社区发现被引量:1
- 2015年
- 提出了一个用于微博网络社区发现的模型WB-MMSB,该模型考虑了微博网络中节点存在的单向关系,节点的社区隶属度从链入主题隶属度和链出主题隶属度两个方面表示。用指数族分布和平均场变分推理方法推导了模型中各变量的表示,并用SVI算法计算模型涉及的参数。实验在新浪微博数据集上进行,采用归一化互信息和困惑度进行评估,结果表明,WB-MMSB模型的社区发现能力优于aMMSB模型,并且其收敛速度快于aMMSB模型。
- 徐建民武晓波吴树芳粟武林
- 信息检索概述被引量:3
- 2009年
- 信息检索的研究重点是如何有效地获取某些信息,现阶段采用的信息检索技术主要基于布尔表达式、向量空间模型及概率模型。论文在介绍信息检索定义及基本原理的基础上,描述了这三种经典信息检索模型,并对这三种模型进行了简单比较。
- 朱杰吴树芳郝国森刘永利
- 关键词:信息检索
- 基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究被引量:2
- 2023年
- [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。
- 吴树芳杨强侯晓舟尹萌