马健
- 作品数:8 被引量:21H指数:2
- 供职机构:新疆农业大学计算机与信息工程学院更多>>
- 发文基金:新疆维吾尔自治区科技攻关项目更多>>
- 相关领域:自动化与计算机技术农业科学更多>>
- 一种农业设备嵌入式数据库预编译器设计与实现
- 2012年
- 预编译器是各类数据库系统的关键模块之一。针对农业设备嵌入式数据库的特定应用领域,设计了一种预编译器并对其中的词法分析、语法分析以及语义检查模块的关键问题进行了探讨,介绍了一种可以对Flex文件、Bison文件、C文件和C++文件进行自动编译的通用makefile文件。
- 陈燕红张太红马健
- 关键词:农业设备嵌入式数据库预编译器
- 农业搜索引擎倒排索引缓冲机制研究被引量:2
- 2011年
- 为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这7种替代策略的缓冲命中率及查询访问时间对比测试表明,当所有词条以相同的概率进行检索时,Clock算法为较好的缓冲替代策略,当词条以特定差别概率进行检索时,本研究提出的FPA算法为较好的缓冲替代策略。
- 薛煜阳张太红张晓明冯向萍陈燕红白涛马健
- 关键词:倒排索引
- 基于双重语义空间的农业信息检索模型研究被引量:2
- 2012年
- 为了提高针对大规模农业信息的语义检索性能,提出一种基于改进的随机索引语义空间和潜在语义空间的农业信息检索模型(IRI&LSA)。利用120万张中文网页和2 000张分为4类的小规模中文农业网页,对IRI&LSA和两种分别基于单向量兰克泽斯算法(LAS2)和半离散矩阵分解算法(SDD)的常用潜在语义检索模型(LSA-LAS2和LSA-SDD)进行了对比实验。结果表明,IRI&LSA检索结果的平均F1值可达83%,明显高于LSA-LAS2(71%)和LSA-SDD(64%);IRI&LSA的检索速度分别是LSA-LAS2和LSA-SDD的3.6倍和4.9倍。研究结果表明,IRI&LSA适合应用于较大规模农业信息检索。
- 陈燕红张太红冯向萍白涛马健
- 关键词:农业信息检索潜在语义分析
- 中文农业网站多元线性回归识别研究被引量:6
- 2011年
- 在对中文网页分类中几种典型特征词选取方法研究基础上,提出了互联网农业网站识别中特征词提取方法,设计了农业网站最小二乘多元线性回归识别模型。为检测不同分词器对模型性能的影响,分别使用JE分词器、IK分词器、庖丁解牛分词器、中科院分词器等中文分词工具进行了对比实验。结果表明,当特征词在160~200时,使用IK分词器、庖丁解牛分词器、中科院分词器,模型识别精确度可达96%以上,当特征词个数达到200个以后,农业网站识别精确度基本趋于稳定。
- 李永可张太红冯向萍陈艳红马健
- 关键词:中文文本分类特征提取
- 农业网站导航页面识别模型研究被引量:1
- 2011年
- 针对农业网站中大量存在的不含实际信息的导航页面,提出了将网页文本特征与非文本特征综合考虑来构建农业网站导航页面识别模型的方法。对农业网站导航网页两类特征:文本特征与非文本特征,利用HTML-Parser网页解析器、庖丁解牛分词器、卡方检验算法,结合最小二乘多元线性回归方法,进行了实验分析对比。经过对5 000张训练样本与1 400张测试样本的网页实测表明,将农业导航页面文本特征与非文本特征集结合构建的分类器,对农业导航网页有很好的识别效果.当特征词数目达到200以上,准确率可达94%左右且趋于稳定。
- 王霜霜张太红冯向萍陈燕红马健
- 关键词:网页识别多元线性回归
- 中文搜索引擎分块倒排索引存储模式被引量:10
- 2013年
- 针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。
- 马健张太红陈燕红
- 关键词:倒排索引搜索引擎
- 农业设备嵌入式数据库缓存管理器的设计与实现
- 2012年
- 综述了嵌入式数据库缓存技术的发展现状,分析了目前较为常用的缓存替换算法,基于农业设备的嵌入式数据库这个特定应用领域,结合其特点提出了一种缓存块大小可变的缓冲管理结构和基于CLOCK替代策略的专用缓冲管理机制。详细阐述了该缓存管理器的设计思路和具体实现细节。
- 马健张太红陈燕红
- 关键词:嵌入式数据库缓存替换算法
- 中英文跨语种嵌入式数据库查询处理研究
- 2014年
- 当前,各种移动、智能设备得到大规模普及应用,相应的嵌入式数据库的需求也日益倍增。然而,常规嵌入式数据库因其非自然性和非中文性,使得中国的广大用户面临着重重困难。在此背景下,研究中英文跨语种嵌入式数据库查询处理技术,重点论述查询编译器核心模块的原理和实现细节,并将研究成果应用于课题组研发的嵌入式数据库中进行测试。从测试结果可以看出,系统支持常用的数据库语句,能够识别符合规则的中文命令,实现了中英文跨语种查询功能。
- 陈燕红张太红马健
- 关键词:嵌入式数据库查询处理