国家自然科学基金(60103014)
- 作品数:3 被引量:62H指数:3
- 相关作者:黄萱菁吴立德张奇陈宁昱周雅倩更多>>
- 相关机构:复旦大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于向量空间模型的Web中文信息过滤系统被引量:6
- 2003年
- 提出了一种基于VSM的自适应的Web信息过滤系统的设计及实现方法.与传统的信息过滤系统相比,Web上的信息过滤系统具有许多全新的特征.页面为半结构化的文档、页面上的噪声信息比较多,用户提交的正例比较少.这些特性成为影响过滤性能的主要因素.针对Web的上述特性设计的Fudanfilter2002过滤系统,具有使用方便、过滤时间短、精度高等特点.
- 胡恬
- 关键词:信息过滤向量空间模型自适应
- 基于最大熵模型的QA系统置信度评分算法
- 置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度。本文描述了一种基于最大熵模型的算法。首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度。在2002年度的文本检索会议(...
- 游斓周雅倩黄萱菁吴立德
- 关键词:最大熵模型信息检索
- 文献传递
- 基于Winnow算法的文本过滤
- 本文提出了一种在自适应文本过滤中将Winnow分类器和基于向量空间模型(VSM)的分类器相结合的算法。在处理文本流时,只有被两个分类器都过滤出的文本才被判定为相关文本。文中详细描述了在我们的过滤系统中所使用的Winnow...
- 赵林夏迎炬黄萱菁吴立德
- 关键词:WINNOW文本过滤向量空间模型
- 文献传递
- 利用未标注语料改进实体名识别性能被引量:7
- 2005年
- 本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征 ,我们采用最大熵分类器构建了一个基准系统。在此基础上 ,我们首先通过网络资源建立了实体名词典知识库 ;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料 ;最后再将这些语料加入训练。实验结果表明 ,辅助的训练语料能够在一定程度上提高系统的性能。
- 陈宁昱周雅倩黄萱菁吴立德
- 关键词:计算机应用中文信息处理实体名识别最大熵
- 一种新的句子相似度度量及其在文本自动摘要中的应用被引量:49
- 2005年
- 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。
- 张奇黄萱菁吴立德
- 关键词:计算机应用中文信息处理向量模型相似度计算