王宇
- 作品数:10 被引量:18H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家重点基础研究发展计划北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 结合属性分布特征的模式匹配算法
- 本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相...
- 王宇方滨兴吴博宋林海郭岩
- 关键词:约束聚类
- 文献传递
- 结合属性分布特征的模式匹配算法
- 2010年
- 该文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相似性特征,该文通过机器学习方法结合属性对互斥特征与相似性特征进行属性匹配。并以潜在的匹配属性对为基础,引入有约束的属性聚类方法进行Web模式匹配,聚类方法的约束条件来自属性对共现特征。实验结果表明,相对于仅使用相似性特征的方法,在不同的实验设置下,结合属性分布特征的Web模式匹配算法将F值提高了0.13到0.55。
- 王宇方滨兴吴博宋林海郭岩
- 关键词:计算机应用中文信息处理约束聚类
- 一种网页信息抽取的系统及方法
- 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其...
- 吴博王宇张刚丁国栋程学旗
- 文献传递
- 一种从论坛帖子列表页面中抽取帖子元数据的方法
- 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的...
- 郭岩丁国栋曹冬林王宇张刚
- 文献传递
- 结合属性分布特征的模式匹配算法
- 本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相...
- 王宇方滨兴吴博宋林海郭岩
- 关键词:约束聚类
- 文献传递
- 织女星游戏网格设计与实现
- 随着网络游戏的飞速发展,网络游戏拥有越来越多的用户,同时在线的规模也越来越大,以棋牌类游戏为代表的在线游戏在高峰时期有几十万人的在线规模.现今的多人在线游戏(Multiplayer Online Games简称MOG)存...
- 王宇
- 关键词:消息通信点对点
- 文献传递
- 深度学习在药物活性预测研究中的应用被引量:5
- 2022年
- 药物从研发到临床应用需要耗费较长的时间,研发期间的投入成本可高达十几亿元。而随着医药研发与人工智能的结合以及生物信息学的飞速发展,药物活性相关数据急剧增加,传统的实验手段进行药物活性预测已经难以满足药物研发的需求。借助算法来辅助药物研发,解决药物研发中的各种问题能够大大推动药物研发进程。传统机器学习方法尤其是随机森林、支持向量机和人工神经网络在药物活性方面能够达到较高的预测精度。深度学习由于具有多层神经网络,模型可以接收高维的输入变量且不需要人工限定数据输入特征,可以拟合较为复杂的函数模型,应用于药物研发可以进一步提高各个环节的效率。在药物活性预测中应用较为广泛的深度学习模型主要是深度神经网络(deep neural networks,DNN)、循环神经网络(recurrent neural networks,RNN)和自编码器(auto encoder,AE),而生成对抗网络(generative adversarial networks,GAN)由于其生成数据的能力常常被用来和其他模型结合进行数据增强。近年来深度学习在药物分子活性预测方面的研究和应用综述表明,深度学习模型的准确度和效率均高于传统实验方法和传统机器学习方法。因此,深度学习模型有望成为药物研发领域未来十年最重要的辅助计算模型。
- 刘利梅陈晓晋孙世伟王宇王辉梅树立王耀君
- 基于扩展领域模型的有名属性抽取被引量:13
- 2010年
- 网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
- 王宇谭松波廖祥文曾依灵
- 关键词:信息抽取属性抽取
- 一种从论坛帖子列表页面中抽取帖子元数据的方法
- 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的...
- 郭岩丁国栋曹冬林王宇张刚
- 文献传递
- 一种网页信息抽取的系统及方法
- 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其...
- 吴博王宇张刚丁国栋程学旗
- 文献传递