徐蔚然
- 作品数:70 被引量:195H指数:7
- 供职机构:北京邮电大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信理学文化科学更多>>
- 基于语义特征扩展的知识库增量引文推荐算法被引量:4
- 2016年
- 将知识库增量引文推荐(cumulative citation recommendation,CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。
- 徐也徐蔚然
- 关键词:知识库查询扩展特征提取
- 一种基于隐多粒度局部特征的中文分词方法
- 本发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括:先利用多卷积核的卷积神经网络处理待分词文本,得到待分词文本的隐多粒度局部特征;再经过一个k‑max池化层,仅保留其中比较重要的...
- 包祖贻李思徐蔚然
- 文献传递
- 一种短信的识别方法和设备
- 本发明提供一种短信的识别方法和设备。其中方法包括:接收服务器发送的短信和所述短信的概率特征向量;利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和...
- 徐蔚然王占一刘东鑫方琦
- 文献传递
- 中文文本分类中的特征选择算法研究被引量:65
- 2005年
- 比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。
- 胡佳妮徐蔚然郭军邓伟洪
- 关键词:文本分类评价函数
- 同话题定位跟踪式论坛爬虫系统
- 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,...
- 杨溥郭军徐蔚然
- 文献传递
- 基于知识的银行票据二值化方法被引量:5
- 2002年
- 本文结合银行票据OCR系统的开发 ,提出一种基于知识进行银行票据二值化的新思路 ,并针对各类识别域具体构造了一整套二值化方法。通过在银行票据OCR系统中的应用 。
- 徐蔚然张洪刚刘刚郭军
- 关键词:二值化方法文字识别金融票据OCR系统银行票据
- 竞争情报(信息搜索)软件调研报告
- 竞争情报软件是企业和政府部门用以进行情报收集、分析、整理、加工、整合的专用软件,最典型的竞争情报软件包括企业竞争情报系统、政府决策情报系统、互联网舆情监控系统等,信息搜集软件是竞争情报软件的重要分支,也是通用性最强、应用...
- 陈光徐蔚然郭军
- 关键词:竞争情报软件开发信息管理技术创新
- 基于贝叶斯评判子的字体判断被引量:7
- 2003年
- 支票中的待识别文字既可能是印刷体 ,也可能是手写体 .由于印刷体与手写体文字的预处理方法和识别算法不同 ,因此准确判断文字的字体 (手写体或印刷体 )是获得高精度识别结果的关键技术之一 .该文根据贝叶斯决策理论的最小错误率判决规则 ,提出了基于评判子的字体判断方法 .利用贝叶斯评判子 ,该文还提出了一种可分性判据 :评判子散度 ;同时还给出了一种估算评判子函数的方法 .在无拒识情况下 ,对 12 15 8张实际银行支票的测试中 ,该方法的正确率为 99.4 % .
- 徐蔚然郭军潘兴德
- 关键词:文字识别
- 基于语法、语义信息的多滤波器集成边缘检测被引量:8
- 2001年
- 本文提出一种基于语法、语义信息的多滤波器集成边缘检测方法,该方法把图像灰度分布的形式所包含的边界信息看成是语义信息,而把不同滤波器所提取出的灰度分布形式的信息看成是语法信息,我们从语法信息出发,按一定的逻辑推出不同种类的边界,最后再用模糊逻辑得出符合实际需要的边缘检测结果,基于本文的思想,本文构造了几种具有选择性和抗噪性的滤波器,利用滤波器得到的语法信息得到语义边界,实验结果表明本文的方法具有较好的边缘检测效果和抗噪能力。
- 徐蔚然孔祥维
- 关键词:边缘检测语法信息语义信息滤波器信息集成
- 中文分词研究被引量:6
- 2012年
- 中文分词是中文文本处理和自然语言处理中最基本和最重要的研究,它效果的好坏直接影响到所在领域中进一步研究的效果。本文对于已有的基于词典,基于统计,基于理解的分词方法进行了详细的阐述和讨论,分析了它们的优点和不足,并且介绍了现在的难点,在此基础上,为中文分词的进一步发展提供了建议。
- 张黎徐蔚然
- 关键词:计算机应用自然语言处理中文分词