都云程
- 作品数:24 被引量:135H指数:5
- 供职机构:北京拓尔思信息技术股份有限公司更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论更多>>
- 中文搜索引擎现状与展望被引量:47
- 1999年
- 本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。
- 都云程卢献华
- 关键词:中文搜索引擎中文自动分词搜索引擎
- 基于分解转移矩阵的PageRank迭代计算方法
- 提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...
- 刘松彬都云程施水才
- 关键词:PAGERANK搜索引擎矩阵分解
- 文献传递
- 网页结构模板生成新方法研究被引量:4
- 2007年
- Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
- 冯少卿都云程
- 关键词:DOM样本集
- 一种将启发式规则和HMM相结合的web信息抽取方法
- 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...
- 伍丹都云程李渝勤王弘蔚
- 关键词:启发式规则WEB信息抽取文本抽取
- 文献传递
- 基于字同现频率的关键词自动抽取被引量:4
- 2011年
- 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。
- 都云程周伟韩艳铧吕学强
- 关键词:关键词自动抽取
- 基于模板匹配及曲线拟合的视频字幕细化研究
- 2014年
- 在视频字幕识别过程中,由于字幕像素比较低,使得二值化后,汉字边缘出现不规整的锯齿。针对该类汉字的细化,提出基于模板匹配及曲线拟合的方法。用角度为0°、45°、90°、135°的线段作为模板,分别匹配汉字中"横"、"撇"、"竖"、"捺"笔划,实现笔划提取;用二次Bezier曲线拟合"撇"、"捺"笔划,实现笔划重绘。对比实验表明,该方法对视频字幕的细化是有效的,且结果可以更好地被识别。
- 李钦瑞都云程刘坤吕学强
- 关键词:笔划
- 中国软件专利的现状和特点:基于软件发明的实证分析被引量:5
- 2009年
- 由于软件专利比计算机著作权有更广泛的保护范围,软件的专利权保护成为一种新的趋势。目前对软件专利的研究主要基于法律、经济和创新管理三个学科的视角,但是缺乏对中国软件专利现状和特点的实证研究。通过对专利摘要进行关键词检索,搜集了在国家知识产权局申请的所有软件专利,分析了软件专利在中国的增长、地域分布、代表机构分布和技术领域分布,并与相关研究进行了国际比较。研究发现,我国软件专利的年增长速度高于同期世界软件专利的增长速度;外国在华的软件专利份额与其在全球软件产业中的地位是一致的;我国软件专利的代表机构绝大部分为有着巨大专利存量的大型制造企业,软件厂商仅占据极少的份额,这与世界软件专利的代表机构分布是一致的;我国软件专利的技术领域分布与世界软件专利的技术领域分布类似但更加集中;我国软件专利的核心部门是计算机和通信部门,次要部门是电和电子部门。
- 向渊博刘小青都云程
- 关键词:关键词检索
- 基于多层条件随机场的中文命名实体识别被引量:27
- 2009年
- 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。
- 胡文博都云程吕学强施水才
- 关键词:条件随机场命名实体识别
- 基于模板的网页主题信息抽取
- 快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...
- 冯少卿都云程施水才
- 关键词:DOM网页样本集信息抽取
- 文献传递
- 采用URL特征的Hub网页识别方法研究被引量:2
- 2016年
- 【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。
- 张策都云程梁然
- 关键词:支持向量机