张奇
- 作品数:50 被引量:215H指数:6
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划上海市科委重大科技攻关项目更多>>
- 相关领域:自动化与计算机技术经济管理理学语言文字更多>>
- 英文口语中非流利区域的检测
- 本文介绍了我们在非流利部分检测以及对非流利句子进行句法分析上的工作。我们的主要贡献是扩大了非流利部分检测的特征集合,最佳特征选择,并且比较了三种不同的分类器(AdaBoost,Maximum Entropy,and Co...
- 张奇翁富良黄萱菁吴立德
- 关键词:条件随机场BOOSTING
- 文献传递
- 基于模态相似性路径的统一多模态实体对齐
- 2024年
- 实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点:(1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效;(2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了22.4%~28.9%,在MRR上提高了0.194~0.245,验证了PathFusion的优越性。
- 朱柏霖桂韬张奇
- 关键词:知识图谱
- 面向自由文本的中文地址规范化被引量:4
- 2015年
- 随着Web 2.0的发展,用户再也不仅仅是网站内容的浏览者,而且也成为网站内容的创造者。通过用户上传分享信息逐渐成为互联网内容的重要活力源泉,例如,维基百科的参与者来自世界各地,谷歌地图搜索提供的修改和商户中心功能,大众点评的商户信息收录服务等。在用户由网上冲浪变为波浪制造者的同时,应考虑到用户上传分享内容的规范性和正确性。特别地,提供生活消费平台的网站,用户上传的商户地址信息的规范化尤显重要。为此针对大众点评网中的自由文本商户地址语料,提出基于层叠条件随机场对中文地址进行规范化的方法。实验结果表明所提出的中文地址规范化方法是有效的,在真实语料的开放测试中F值达到81%。
- 徐娟曹晔张奇
- 关键词:WEB层叠条件随机场
- 一种知识感知的序列到树的数学应用题求解系统
- 本发明提供了一种知识感知的序列到树的数学应用题求解系统,用于对待分析应用题文本进行处理与推理得到对应的数学表达式,其特征在于,包括:问题编码模块利用预定的第一神经网络对待分析应用题文本进行编码得到编码后问题向量;实体图构...
- 吴沁倬张奇黄萱菁
- 文献传递
- 基于Low-IDF-SIG的句子重复检测
- 2011年
- 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
- 俞昊旻张玥张奇黄萱菁
- 关键词:特征抽取
- 医疗合同研究
- 医疗损害赔偿纠纷迅速增多已成为我国现今的一个社会问题,而医疗损害赔偿法律制度不健全的弊端也日益彰显。同样的问题在世界各主要工业国家也日趋严重。如何妥善解决处理医疗纠纷中所遇到的各种问题,各国的做法不一。但采用合同责任作为...
- 张奇
- 关键词:医疗合同医患关系
- 文献传递
- 区域农业产业集群发展中的政府作用研究——以浙江丽水食用菌产业集群发展为例
- 农业产业集群是大农业发展的一种趋势,是优势农业资源、区域经济实现飞跃发展的一条新捷径,这一新的农业产业化经营组织形式将在我国农业进入国际市场的大背景下,显示出强大的竞争优势。
首先,本文以农业发展和产业集群的相...
- 张奇
- 关键词:农业产业集群政府作用食用菌产业
- 文献传递
- 一种基于HTML流处理的数据采集方法和系统
- 本发明属于网页信息抽取技术领域,具体是一种基于HTML数据流处理的数据采集方法和系统。它由多线程收集器和下载控制模板以及数据存储系统构成。多线程收集器保证了工作速度,下载控制模板保证了工作的准确性。本系统可以在通过简单的...
- 施洋张奇黄萱菁
- 文献传递
- 机器学习的查询扩展在博客检索中的应用
- 本文介绍一种新的查询扩展方法。该方法将查询扩展工作纳入机器学习的框架下,首先伪反馈将生成原始查询项的候选扩展词集合,然后一个支持向量机将对这些候选词进行排序,形成一个优化的查询项,以此来提高最终检索结果的性能。由于此类方...
- 王秉卿张奇吴立德黄萱菁
- 关键词:文字处理信息检索数理语言学
- 文献传递
- 基于主题模型的微博转发行为预测被引量:7
- 2018年
- 在全部微博内容中,由用户转发而产生的信息占有非常大的比例。同时,内容的转发也是微博中信息传播的主要途径。因此,用户的转发行为有着重要的研究价值,可应用于社交营销、微博检索、热点事件预测等领域中。该文中,我们通过分析所收集的大量真实的新浪微博数据,发现影响用户转发行为的一些因素:微博作者、用户兴趣以及微博热度。基于这些发现,该文提出了一种新颖的基于LDA模型的方法,综合利用以上3个特征预测用户转发行为。为了对该方法进行评价,我们利用收集的大量的微博数据及对应的社交网络结构模拟真实用户环境。实验表明,该方法的性能优于目前最好的方法,F值比其他基线方法高出35%—45%。
- 郭亚宫叶云张奇黄萱菁
- 关键词:主题模型社交网络