公共文化服务平台

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

基于概念和语义网络的近似网页检测算法被引量：15: 2011年; 在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了"表达差异"问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果.; 曹玉娟牛振东赵堃彭学平; 关键词：网页去重算法小世界网络近似网页均方差

基于ARMA-TS-GARCH有限混合模型的交通数据分析被引量：4: 2010年; 基于对时间序列数据进行研究时不仅需要对它们的自回归性和周期性进行分析,而且需要对序列的方差与长期性无规则波动进行分析等问题,提出基于ARMA模型和APARCH模型的ARMA-TS-GARCH模型,并且对该模型的构造进行分析,针对洛杉矶长滩地区交通量数据进行模型参数估计和诊断检验,将此模型与GARCH和ARMA-GARCH模型进行比较。研究结果表明:ARMA-TS-GARCH模型对数据的拟合要优于ARMA模型和APARCH模型;用ARMA-TS-GARCH模型对数据集进行预测,所得结果较理想。; 王维强牛振东曹玉娟赵育民赵堃; 关键词：时间序列

一种基于小世界特性的中文近似网页去重方法: 本发明为解决内容近似中文网页的自动检测问题，公开了一种基于小世界特性的中文近似网页去重方法。该方法兼顾考虑网页的语法和语义信息，首先根据提取出的网页有效信息构建文本词汇共现图。然后，基于文本的小世界特性提取出文档特征向量...; 曹玉娟牛振东赵堃赵育民江鹏; 文献传递

基于节点簇的P2P随机漫步搜索被引量：2: 2010年; 以Gnutella为代表的P2P系统通常会呈现复杂的网络结构,为此,文中提出了一种基于节点簇的随机漫步搜索算法.该算法利用节点簇来存储系统中文件的索引,通过将搜索过程限制于节点簇内部来提高搜索性能.基于数学模型的理论分析,文中给出了搜索性能上下界的数学描述.实验结果表明:搜索性能与簇的阈值c密切相关;c的建议值为系统中节点最大度值的一半,与普通随机漫步相比,此时稀有文件的搜索效率至少可以提高250%,文件索引的传输和存储代价可以减少一个数量级;该算法具有索引存储代价非常低、搜索效率高、易于实现和部署的优点.; 赵堃牛振东; 关键词：非结构化P2P网络复杂网络随机漫步

全选清除导出

共1页<1>

赵堃