在文本分类任务中,双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)被广泛使用,其不仅能提取文本上下文语义信息和长距离依赖关系,还可以避免出现传统RNN中存在的梯度弥散或爆炸问题.然而,BiGRU在捕获文本局部特征方面存在不足.本文提出一种基于自注意力和双向门控循环单元的文本分类模型(Self-attention and Bidirectional-gated-recurrent Unit based Text Classification,SBUTC),利用自注意力机制关注对分类贡献较大的文本部分,使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征;通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系;将CNN和BiGRU的输出进行特征融合,训练分类器对不同类型的文本信息进行分类.在ChnSentiCorp数据集和THUCNews_Title数据集上的对比实验结果表明,本文提出的模型在分类准确率和F1值上优于其他对比模型.
针对中文文本分类准确率低、单一的卷积神经网络模型难以提取多方面特征的问题,本文提出一种基于CNN的并行门控机制的混合文本分类模型——CGGA(Convolutional Neural Network with parallel gating unit and attention mechanism).利用卷积提取文本的局部特征,并加入双向门控循环单元对数据进行上下文数据建模,提取关系特征,同时,引入门控Tanh-ReLU单元进行进一步的特征筛选,从而控制信息向下层流动的力度,并且减轻梯度弥散,提高模型分类准确率.最后,使用多头注意力机制进行权重更新计算,以提高在相应文本类别上的输出,进而优化模型分类性能.实验结果显示,本文提出的文本分类模型和分类算法,在THUCNews数据集和搜狐数据集上,比基线模型的宏平均精确率分别提高了2.24%、6.78%.