张奕韬 作品数:7 被引量:26 H指数:3 供职机构: 华东交通大学软件学院 更多>> 发文基金: 江西省自然科学基金 国家自然科学基金 引进国际先进农业科技计划 更多>> 相关领域: 自动化与计算机技术 水利工程 天文地球 更多>>
基于统计分析的水文时间序列关联规则优化算法 基于方差分析、列联表检验以及兴趣度的定义,提出一种挖掘水文时间序列关联规则优化算法.算法把水文时间序列数据属性分成条件属性和决策属性,通过方差分析和列联表检验在关联规则生成之前剔除的属性和属性值;同时根据新的兴趣度定义,... 万定生 张奕韬 余宇峰关键词:水文时间序列 关联规则 离散化 统计分析 优化算法 文献传递 水文时间序列关联规则挖掘模型研究 被引量:4 2008年 基于聚类、最小方差、统计分析、列联表检验以及兴趣度的定义,提出一种水文时间序列关联规则挖掘模型。该模型中使用了基于聚类和最小方差的离散化方法、基于统计分析的规则优化,实验结果证明通过水文时间序列关联规则挖掘模型不仅可以快速的实现水文数据的处理,而且生成的关联规则比传统的关联规则的解释能力强,规则精度高,而且可以得到数据变化规律,对水文分析和研究有指导意义,可用于预测和决策分析,提高水文数据的利用率。 张奕韬 万定生关键词:时间序列 关联规则 离散化 兴趣度 主题方面共享的领域主题层次模型 2024年 层次主题模型是构建主题层次的重要工具.现有的层次主题模型大多通过在主题模型中引入nCRP构造方法,为文档主题提供树形结构的先验分布,但无法生成具有明确领域涵义的主题层次结构,即领域主题层次.同时,领域主题不仅存在层次关系,而且不同父主题下的子主题之间还存在子领域方面共享的关联关系,在现有主题关系研究中没有合适的模型来生成这种领域主题层次.为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系,在4个方面进行创新研究.首先,通过主题共享机制改进nCRP构造方法,提出nCRP+层次构造方法,为主题模型中的主题提供具有分层主题方面共享的树形先验分布;其次,结合nCRP+和HDP模型构建重分层的Dirichlet过程,提出rHDP(reallocated hierarchical Dirichlet processes)层次主题模型;第三,结合领域分类信息、词语语义和主题词的领域代表性,定义领域知识,包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度;最后,通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程,提出结合领域知识的层次主题模型rHDP_DK(rHDP with domain knowledge),并改进采样过程.实验结果表明,基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA,nHDP)和神经主题模型(TSNTM);通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点.此外,该模型将为领域主题层次提供一个通用的自动挖掘框架. 万常选 张奕韬 张奕韬 刘德喜 刘喜平 廖国琼关键词:词语语义 基于统计分析的水文时间序列关联规则优化算法 被引量:2 2007年 基于方差分析、列联表检验以及兴趣度的定义,提出一种挖掘水文时间序列关联规则优化算法。算法把水文时间序列数据属性分成条件属性和决策属性,通过方差分析和列联表检验在关联规则生成之前剔除的属性和属性值;同时根据新的兴趣度定义,发现"有趣"规则。实验结果证明算法在水文时间序列分析的可行性。 万定生 张奕韬 余宇峰关键词:时间序列 关联规则 离散化 统计分析 兴趣度 水文时间序列中关联规则的挖掘研究与应用 水文时间序列关联规则的挖掘是水文时间序列数据挖掘的一个分支,也是水文领域研究的难点。此问题的解决对区域水文的周期性分析、水文预报等有着重要的意义。由于水文数据量大、水文要素繁多,通过在水文领域中引入数据挖掘的理论与技术,... 张奕韬关键词:水文时间序列 关联规则 数据挖掘 水文预报 水文分析 文献传递 基于ARIMA模型的外汇汇率时间序列预测研究 被引量:15 2009年 利用数据挖掘技术分析外汇汇率时间序列,从时间序列中获得正确的、隐含的、潜在的信息对于金融领域研究具有重要的现实意义。通过数据挖掘中的ARIMA模型,以某银行的外汇汇率时间序列为研究对象,采用差分方法和建模规则,对外汇的卖出价进行了建模与预测。通过与逐步自回归预测模型相比较,ARIMA模型对外汇汇率时间序列数据具有很强的预测能力。 张奕韬关键词:外汇汇率 时间序列 ARIMA模型 基于PSP_HDP主题模型的非结构化经济指标挖掘 被引量:4 2020年 随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经济领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度,用于分别描述CRF(Chinese restaurant franchise)中餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了PSP_HDP(combining documents’domain properties,word semantics and words’presences in topics with HDP)主题模型.由于PSP_HDP主题模型改进了文档-主题与主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效地挖掘与经济有关的经济主题和经济要素词.实验结果表明:提出的PSP_HDP主题模型不仅在主题多样性、内容困惑度和模型复杂度等评价指标方面的整体性能优于HDP主题模型,而且在非结构化经济指标挖掘和经济要素词抽取方面能够得到区分度更好、辨识度更高的结果. 张奕韬 张奕韬 万常选 刘喜平 江腾蛟 刘德喜关键词:语义关系