柳厅文
- 作品数:74 被引量:114H指数:5
- 供职机构:中国科学院信息工程研究所更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种基于字模型的评论文本实体识别方法及装置
- 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LST...
- 李全刚柳厅文王玉斌李柢颖时金桥亚静郭莉
- 文献传递
- 动态查询窗口引导的回复关系发现方法
- 2024年
- 在多方会话中,判断消息之间的回复关系是对话领域的一项重要任务。现有的相关工作还未关注、解决以下两个数据分布方面的问题:长度较短的消息往往出现的频率更高,而短文本包含的语义信息较少,限制了模型的学习能力;存在回复关系的正样本数量往往远少于负样本数量,导致模型在训练过程中容易出现数据偏斜问题,降低了模型处理正样本的性能。针对上述两个问题,作者提出一个基于预训练语言模型的改进模型,首先通过动态查询窗口建模缓解短文本相关问题;然后通过位置驱动的正样本权重优化缓解正样本相关问题。与前人研究工作进行比对,实验结果表明,与基于预训练语言模型的基线模型相比,改进模型将召回率平均提升了15.7%。此外,还构建了一个采集自Telegram平台的新数据集,可为后续相关研究提供数据支持。
- 张竞文崔诗尧张兴华苏涛宇柳厅文
- 关键词:数据分布
- 度量正则表达式状态复杂度的方法及装置
- 本发明涉及一种度量正则表达式状态复杂度的方法及装置。度量正则表达式状态复杂度的方法包括:步骤一,判断给定非确定型有限自动机M中任意两状态p、q间的卷曲关系,该卷曲关系为如下五种关系之一:互斥关系、等价关系、包含于关系、包...
- 孙永柳厅文刘洋杨威刘庆云郑超杨嵘周舟
- 一种基于布局感知的文档合成方法及装置
- 本发明公开了一种基于布局感知的文档合成方法及装置,涉及文档数据处理领域,对布局生成模型生成的布局进行质量评估、筛选和校正,根据校正的布局创建文档融合模板,根据文档融合模板进行文本容量预估;基于约束条件构建提示语,输入到L...
- 李全刚柳厅文张志珂郭一涵黄琨袁明欢
- 一种半开放信息抽取的方法及装置
- 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界...
- 柳厅文郁博文王玉斌张振宇亚静
- 文献传递
- 一种网络安全日志模板抽取方法及装置
- 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;...
- 亚静柳厅文张浩亮时金桥
- 一种基于视觉的字符串相似度计算方法及相似性判断方法
- 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维...
- 柳厅文张洋亚静李全刚时金桥郭莉
- 一种面向评价性文本的核心实体识别方法及装置
- 本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向L...
- 李全刚柳厅文王玉斌李柢颖时金桥亚静郭莉
- 一种针对URL的分词方法及装置
- 本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到U...
- 亚静柳厅文张盼盼李全刚时金桥郭莉
- 文献传递
- 一种面向钓鱼URL检测的相似样本集构造方法
- 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的...
- 时金桥亚静柳厅文舒晓波张振宇张盼盼郭莉
- 文献传递