胡菊香
- 作品数:3 被引量:12H指数:1
- 供职机构:北京信息科技大学更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向专利的技术主题检测被引量:1
- 2016年
- 对专利文献自身特点及TF-IDF和TextRank关键词抽取技术进行研究,提出面向专利文献标题和摘要的技术主题检测方法。通过分析专利文献标题和专利文献摘要中专利技术主题的分布特点、词长特征和位置信息,计算候选技术主题的主题度,筛选主题度最大的候选主题词作为显式技术主题;根据TF-IDF算法和TextRank算法,从专利文献内容中提取关键词作为隐式技术主题词;将所提取的关键词进行加权计算,筛选权值最大的词作为最终的专利技术主题来评测。实验结果表明,该方法是有效的,可用于进一步支撑专利技术功效矩阵的构建工作。
- 胡菊香吕学强徐丽萍
- 关键词:关键词
- 专利技术功效短语获取研究被引量:10
- 2016年
- 在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。
- 胡菊香吕学强刘秀磊刘克会
- 利用类别引导词的投诉文本分类被引量:1
- 2015年
- 【目的】针对投诉事件文本具有信息量大、非结构化、规律性不强等特点,当前城市投诉信息管理亟需寻找一种高效的分类方法,提高管理人员的工作效率。【方法】分析投诉事件特点进而对其进行文本预处理;借助句法分析器、同义词林,并通过文档贡献度过滤引导词;采用TF-IDF计算引导词权重系数,并以VSM表示,最后通过SVM对处理后的投诉事件文本进行分类。【结果】在多个类别投诉事件测试文本中,该方法查准率和查全率平均值达到82.1%和82.3%。【局限】投诉事件文本的稀疏性在一定程度上影响分类结果。【结论】实验证明该方法在投诉事件文本分类中是有效的、可行的,能够提高投诉文本分类效果。
- 胡菊香吕学强刘克会
- 关键词:投诉事件文本分类引导词