严馨
- 作品数:94 被引量:211H指数:7
- 供职机构:昆明理工大学更多>>
- 发文基金:国家自然科学基金云南省教育厅科学研究基金云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理天文地球电子电信更多>>
- 融合主题和要素的汉柬可比语料获取方法被引量:3
- 2017年
- 为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.
- 郭月江严馨刘小惠余正涛线岩团莫源源
- 关键词:可比语料库层次聚类
- 基于最大熵模型的柬英平行网页获取被引量:2
- 2016年
- 由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上,提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征,并应用TF-IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明,所提方法可有效提高双语网站中平行网页的召回率和准确率,所获取平行网页的准确率和召回率分别为98%,94%。
- 莫源源潘丽同严馨余正涛刘小惠
- 关键词:最大熵模型平行语料库
- 一种基于自注意力双向GRU和SVM的微博观点句识别方法
- 本发明涉及一种基于自注意力双向GRU和SVM的微博观点句识别方法,属于自然语言处理技术领域。本发明首先通过Word2Vec模型训练预处理后的微博观点句语料,再通过将训练好的词向量输入到双向GRU模型中,之后通过权重矩阵与...
- 严馨谢庆周枫张磊邓忠莹
- 文献传递
- 基于组合方法的越南语兼类词消歧方法
- 本发明涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理技术领域。本发明首先从越南语文本中抽取越南语兼类词字段,构建兼类词字段库,其次对兼类词字段库分别进行最大熵、条件随机场、支持向量机词性歧义消解建模,再把待消歧...
- 余正涛刘艳超郭剑毅线岩团严馨文永华
- 文献传递
- 基于测试效率的神经网络可靠性模型被引量:1
- 2019年
- 软件可靠性是衡量软件性能的重要指标之一,准确预测软件可靠性是一项极具挑战的任务,至今人们已经提出了许多用于实例的软件可靠性增长模型。这些模型受限于环境和人为因素的影响,都提出了一些不切实际的假设。在本文中我们提出了一种基于测试效率的神经网络模型,最后通过数据分析证明了基于测试效率的神经网络模型能够更好地拟合故障数据。
- 惠子青刘晓燕严馨
- 关键词:神经网络
- 基于排错等待延迟的广义动态集成神经网络模型被引量:3
- 2020年
- 软件可靠性增长模型在可靠性评估与保障中具有重要作用,针对软件测试过程中的故障检测和排错等待延迟问题,提出了一种考虑故障排错等待延迟的广义动态集成神经网络模型(RWD-SRGM)。该模型考虑软件工程的多样性,利用神经网络方法构建广义动态集成模型,并考虑排错等待延迟现象完成故障检测和预测。通过2组真实失效数据集(DS1和DS2)的实验,将所提模型与现有的软件可靠性增长模型进行了比较,结果显示考虑故障排错等待延迟的神经网络模型拟合效果最优,表现出了更好的软件可靠性评估性能和模型通用性。
- 惠子青刘晓燕严馨
- 关键词:软件可靠性增长模型
- 一种基于条件随机场的柬‑汉人名翻译方法
- 本发明涉及一种基于条件随机场的柬‑汉人名翻译方法,属于自然语言处理技术领域。本发明首先对抽取的柬‑汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬‑汉双语人名音节作为训练语料,使用条件随机场构建柬‑汉双语人名翻译...
- 严馨郭月江雷青玲余正涛周兰江
- 文献传递
- 基于半监督主动学习的虚假评论检测被引量:2
- 2015年
- 基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.
- 宋海霞严馨余正涛余正涛郭剑毅
- 关键词:半监督学习TRI-TRAINING
- 一种基于微博的新词情感倾向判定方法
- 本发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。本发明通过中文分词工具对微博语料进行分词,以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,...
- 严馨周超余正涛洪旭东伏云发
- 文献传递
- 融合跨语言特征的柬埔寨语命名实体识别方法被引量:5
- 2018年
- 为了解决柬埔寨语词法标注语料稀缺、柬埔寨语命名实体缺乏明显标识特征的问题,提出一种引入英柬跨语言特征的柬埔寨语命名实体识别方法.首先,借助英语命名实体的成熟模型及英柬双语平行语料的词对齐关系,将源语言的实体类别映射到目标语言;然后根据柬埔寨语词向量构造最近邻图,采用标签传播算法,获得柬埔寨语单词的实体类别分布,完成跨语言知识转移;最后,将柬埔寨语单词的命名实体类别分布作为约束特征融入到条件随机场模型中.实验结果表明,融入跨语言特征的条件随机场模型能有效地提升柬埔寨语命名实体识别的效果.
- 徐广义严馨余正涛周丽华