学术探索 已发表论文 版本 3 Vol 3 (6) : 353-363 2018
下载
基于深度学习的商品评论情感分类研究
Research on Sentiment Classification of Commodity Reviews Based on Deep Learning
: 2018 - 10 - 10
: 2018 - 12 - 20
736 11 0
摘要&关键词
摘要:[目的/意义]对已有的文本表示、分类算法进行组合,遴选一种复杂度低、训练时间少的组合方式,构建商品评论情感文本分类的优化模型。[方法/过程]以Keras API为应用环境,将Word2vec词向量输入Embedding嵌入层,依据句子词索引序列,通过控制trainable参数实现3种商品评论的文本表示;将不同的文本表示分别与不同分类算法进行匹配,分析分类效果差异,确立较优算法组合。[结果/结论]Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型,在商品评论测试集上分类效果表现较好,准确率和ROC曲线面积AUC值分别为94.02%、0.982 7。应用表明,分类模型能较好实现商品评论的情感分类,有较好的分类泛化能力。
关键词:深度学习;情感分类;Word2vec词向量;Embedding嵌入层;TextCNN
Abstract & Keywords
Abstract: [Purpose/significance] The existing text representation and classification algorithms are combined, and a combination mode of low complexity and less training time is selected to construct an optimization model for the classification of emotional texts of commodity reviews. [Method/process] Firstly, this paper took the Keras API as an application environment, input Word2vec word vector into Embedding embedded layer. Then, based on sentence word index sequence, three kinds of commodity comment text representation were realized by controlling the trainable parameter. Finally,in this paper, different text representations were matched with different classification algorithms, differences in classification effects were analyzed, and the better combination of algorithms was established. [Result/conclusion] The text representation method which is continued training by Inputting Word2vec Word Vector into Embedding embedded Layer, combined with the TextCNN algorithm establishes the classification model. It performs better on the product review test set. Its accuracy and ROC curve area AUC values are 94.02% and 0.9827, respectively. The application shows that the classification model can better realize the emotional classification of commodity reviews and has better classification generalization ability.
Keywords: deep learning; sentiment classification; Word2vec word vector; Embedding embedded layer; TextCNN
文本情感分析是智能多媒体内容理解领域的重要问题,是让机器具有学习、推理和认知能力的基础。文本情感分类则是文本情感分析的核心。文本情感分类研究面临着标准文本获取困难、情感资源分配不均和数据稀疏性问题。同时,文本分类技术多样,不同的分类技术有不同的优缺点,所以具体的文本情感分类技术必须落实到具体应用领域,这样才能发现其最优的应用效果[1]
电子商务网站的商品评论数据丰富,情感特征较为明显。以商品评论文本为对象,进行情感分析具有现实基础,也有积极的应用前景[2]。情感分析技术已应用于电子商务、社交网络等互联网相关领域,其主要任务是识别出用户在评论文本中流露出的情感信息。
随着商品评论情感分类中文本表示方法、分类算法改进复杂度的增加,分类准确率有一定提高,但是模型训练时间会变长,算法复现应用难度较大。本文在当前主要的文本表示、分类算法的基础上,从降低模型复杂度,减少模型训练时间和降低实现难度的角度,以京东电商网站的商品评论为语料,选择不同的文本表示方法与分类算法进行组合,开展文本情感分类模型的构建、训练与评估的应用研究。
1   商品评论情感分类相关研究
目前已有商品评论情感分类相关研究成果揭示了情感分析技术的3种主要类别:
(1)基于规则的情感分类。通过制定语义规则,结合语料库和情感词典来抽取文本中的情感信息,再计算相应的情感倾向。如王志涛等对微博的情感分析是通过建立句型分析规则、句间关系分析规则、词语多元组分析规则来制定语义规则[3]。这类情感分析技术的关键在于各种规则的制定。而规则的制定又依赖于情感词典和分类目标的确立,这要耗费大量时间和人力。因此,目前该方法使用较少。
(2)基于机器学习的情感分类。运用机器学习方法,通过已知文本特征建立情感分类模型,再利用模型对未知文本进行情感分类。基于机器学习的情感分类关键在于特征和分类算法选取,尤其是特征选取。已有研究在对商品评论进行情感分析时,主要应用的机器学习分类算法有:朴素贝叶斯NB[4-5]、SGD 算法[5-6]、支持向量机SVM[7]、最近邻算法KNN[8]和随机森林RF等。它们的特征提取方式也不尽相同,但均是依赖情感词典进行提取。
(3)基于深度学习方法的情感分类。随着深度学习的发展,现有很多深度学习方法已应用到情感分类领域,如胡朝举等融合情感标签改进Word2vec词向量作为情感文本表示方法[9]、金志刚等将深度学习Bi-LSTM模型提取社交媒体用户评价情感的抽象特征[10]、刘全等提出一种RCNN-HLSTM的深度分层网络模型进行情感分析[11]、Yoon K提出TextCNN模型用于文本分类[12]等。浅层机器学习方法特征选择具有局限性,而深度学习方法不必单独构建情感词典,不受人为因素影响,它能自动从数据中学习提取特征形成研究热点。
深度学习主要利用词嵌入技术(如Word2vec[13]、GloVe、FastText、WordRank和text2vec等)进行文本信息的词向量表示,可计算词语间的语义关联,更有利于文本抽象特征学习,并有大量优秀的深度神经网络分类算法(如多层全连接神经网络MLP,卷积神经网络CNN、TextCNN[12],循环神经网络RNN、LSTM、GRU、Bi_GRU、Bi_LSTM,以及各种改进型神经网络算法等)可使用。研究重点为基于上述经典的文本表示方法和分类算法进行改进融合,如胡朝举等融合情感标签改进Word2vec词向量作为文本表示方法,将融合attention的Bi_LSTM与 CNN并联接受词向量输入,输出合并后再次融合attention,再连接LSTM,最终输出句子向量[14],但这种分类算法比较复杂。类似算法融合改进研究较多[10-12,15-18]
上述(1)基于规则的情感分类、(2)基于机器学习的情感分类都要依赖情感词典去表示情感特征,因此情感词典的质量直接影响特征提取质量。加上情感词典构建需要人们的先验知识,构建过程容易受到人为因素影响。且情感词典通用性并不好,某一领域的特征集不一定适应另一个领域。所以,前两种分类方法并未成为情感分析研究的主流,(3)基于深度学习方法的情感分类中的文本表示与分类算法改进融合才是当前研究的热点。随着文本表示方法和分类算法改进复杂度的增加,分类准确率也许有一定提高,但是模型训练时间会变长,算法复现应用难度较大。
2   研究思路与框架
2.1   研究思路
因此,针对上述(3)基于深度学习方法的情感分类中的问题,本文从降低模型复杂度、减少模型训练时间和降低实现难度的角度,选择深度学习方法,展开商品评论文本情感分类模型的构建、训练与评估的应用研究。
为了降低模型复杂度,采用深度学习框架Embedding嵌入层训练词向量方法和经典分类算法。前者只需设置Embedding嵌入层不同参数即可;后者大多已集成在深度学习框架中,直接调用算法模块,设置相应参数即可。整个应用过程并不需要做任何算法改进,从而降低了应用难度。
为了获得最优分类效果,减少模型训练时间,将Word2vec词嵌入技术训练词向量、深度学习框架Embedding嵌入层训练词向量进行组合,形成3种语料文本表示方法,并分别与分类算法(CNN、GRU、LSTM、Bi_ GRU、Bi_LSTM、TextCNN)进行组合应用。通过比较分类准确率、训练拟合程度和训练时间长短差异,从而确立较优的文本表示方法和分类算法组合。
其中深度学习框架Embedding嵌入层训练词向量方法和TextCNN分类算法,目前在中文情感分类中应用较少。
2.2   实现框架
以Keras[19]深度学习API作为应用环境,以Word2vec训练词向量、Embedding嵌入层训练词向量和两者结合训练词向量,作为不同的语料文本表示方法,分别与多个分类算法进行组合应用。通过比较分析分类效果差异,从而确立较优的文本表示方法和分类算法组合。
首先对语料分词并进行Word2vec词向量预训练,获得具有语义信息的词向量。根据每条语料的分词顺序,检索出对应的词向量并依次排列,形成预训练句子向量。再经Embedding嵌入层继续训练句子向量,然后将句子向量与正负情感分类标签信息通过输入层输入分类算法中,经隐藏层和输出层对输入数据进行多次迭代训练;最终获得情感分类模型。主要实现框架如图1所示:


图1   主要实现框架
情感分类主要任务有:文本编码(包括文本分词、词字典建立、句子的词索引转换、词向量训练等)、数据集构建、模型搭建与训练和模型评估。结合实现框架,制定详细的实现流程如图2所示:


图2   实现流程设计
整个流程对应以下4个具体过程:
(1)语料分词处理。选择中文分词工具,对原始语料进行分词但不作停用词过滤处理,并使用正则值过滤非中文字符。
(2)句子词索引矩阵构建。遍历所有语料样本,获取所有词语并作词频统计,为每个词语分配唯一的索引ID。然后将所有样本句子转化为词索引ID序列,即构成所有成句子词索引矩阵。
(3)词向量矩阵构建。首先选择词向量训练工具,根据需求设置相关参数,训练语料词向量;然后结合词索引ID构建词向量矩阵,每一列代表一个词的向量。
(4)分类模型训练。选择合适的分类算法构建分类模型,并将词向量矩阵、句子词索引矩阵和对应的正负情感分类标签信息,加载到模型的数据输入层中,然后进行句子词索引ID与词向量的映射转换,最后进行模型训练、验证与评估。
3   分类模型实现
3.1   语料文本表示
Keras中的Embedding嵌入层提供了3种向量训练方式,不同训练方式需设置trainable不同参数值进行控制:①将评价句子词索引ID编号作为词向量输入,trainable参数为True,进行词向量训练;②将Word2vec预训练好的词向量,作为Embedding嵌入层的权重值输入,trainable参数为False,词向量不会被训练更新;③将Word2vec预训练好的词向量,作为Embedding嵌入层的权重初始值,trainable参数为True,词向量会继续参与训练更新。主要通过控制Embedding嵌入层的数据输入和trainable参数控制,从而形成3种不同的文本表示方法。后文应用部分将对3种方法进行对比分析。
3.1.1   Word2vec词向量训练
Word2vec采用CBOW或Skip-Gram模型,利用上下文信息来预测当前词语的语义信息,从而生成词向量,实现词向空间的映射,通过计算空间向量间的距离获得词语间语义上的相似度。Word2vec词向量克服了One-Hot词向量的“词汇鸿沟”和“维度灾难”缺陷,更有利于文本表示[20-21]
采用python版的Word2vec[22]工具进行词向量训练,具体过程如下:①从gensim.models模块中导入Word2vec类;②设置词向量维度为256和训练窗口大小为8等参数;③选择Text8Corpus方法,加载已分词的文本文件;④定义模型变量model,选择Skip-Gram训练方式,并将参数和文本数据传递给Word2Vec方法,赋值给model;⑤执行model.wv.save_word2vec_format方法,开始训练并保存训练结果。训练结果包含了词语与对应向量,保存为文本文档。其中向量值已作归一化处理。
3.1.2   生成词向量矩阵
词向量文档中存储结构为:“词+‘ ’+向量”,每个词与对应词向量为一行,之间由空格隔开,例如“正品 0.532237 0.139422 0.062200 ……”。根据结构特点可循环读取每行数据,利用空格将词与向量分开,以词为关键字、向量为值生成词向量字典。词向量字典结构为:“{key:词,value:向量}”。
使用Keras文本预处理Tokenizer类,对所有词语进行词频统计,按照词频大小顺序给每个词语赋予唯一ID编号,以词为关键字、对应编号为值生成词字典。词字典结构为:“{key:词,value:编号}”。
将词向量字典与词字典以“词”为关联建立词向量矩阵,矩阵中所有词向量按照词对应ID编号顺序排序。最后在词向量矩阵上再增加矩阵序号为0和序号为词字典长度+1的向量,并将初始化为(0,0.001)间的随机值。
3.1.3   生成句子词索引矩阵
使用Tokenizer类的texts_to_sequences函数和序列转换pad_sequences类,将句子中每个分词由词字典中对应ID编号来代替,生成句子词索引矩阵,从而实现文本序列向ID编号序列转换,例如:“[[241 5775 2247 ...,0 0 0][603 154 1 ...,0 0 0]...]”。
由于评论语句长短不一,需要统一句子索引长度,具体长度值的选取可根据句子长度分布而决定,当句子长度小于设定值时,在序列后面补充0;当大于设定值时,将序列后面超出部分丢弃。
3.2   分类模型搭建
针对本文任务利用多个分类算法进行实验比较,最终选择了分类效果较好的TextCNN分类算法。分类模型首先进行句子词索引与词向量的映射转换,然后对词向量进行卷积操作。
3.2.1   TextCNN分类模型结构
TextCNN分类模型包括InputLayer(输入层)、Embedding(嵌入层)、SpatialDropout1D(整张特征图正则化层)、Conv1D(卷积层)、MaxPool1D(池化层)、Concatenate(拼接层)、Flatten(压平层)、Dropout(正则化层)和Dense(全连接层,含activation激活函数)。其结构如图3所示:


图3   TextCNN分类模型结构
3个Conv1D卷积核长度分别为2、3、4,默认移动步长为1,激活函数为relu;每个MaxPool1D池化层输出1个特征最大的词向量[17]
3.2.2   句子词索引与词向量映射
训练前由Embedding嵌入层通过分词索引ID在词向量矩阵中执行查表操作,获得每个词索引ID的词向量,并依次组合为句子的词向量矩阵,映射关系实例见图4,左边为句子词索引矩阵,中间为所有词的词向量矩阵,右边为句子向量矩阵,wi(i=0,1,...,6)为256维向量[23]


图4   分词索引ID与词向量映射关系
3.2.3   词向量卷积
每个句子矩阵大小为(m,256),m为句子词向量个数,256为词向量维度。假如Conv1D卷积核长度为2,在对句子卷积操作时,实际上是在m个词向量上以(2,256)的大小由上而下的单方向移动进行卷积,因此该卷积过程类似于使用神经网络进行N-gram=2的词与词间局部相关性特征提取,这正是使用卷积神经网络处理文本会非常快速有效的原因。
最终3个并联Conv1D卷积分别得到m-1、m-2、m-3个卷积后的向量,然后分别对m-1、m-2、m-3个向量进行MaxPool1D池化操作,各输出1个特征最大的词向量并进行Concatenate拼接处理,得到句子的3个特征向量并送分类器进行分类。分类器激活函数为sigmoid,损失函数为binary_crossentropy,算法优化器为adam。
4   应用与分析
模型训练过程中使用了动态调整学习率的ReduceLROnPlateau方法和防止训练过拟合的EarlyStopping方法。二者相互配合,实时监控“验证集损失val_loss”是否在继续减小,并作出相应训练调整。
分类模型效果评估除了使用测试集测试准确率外,还使用模型平均性能评价的ROC曲线下方面积(AUC值)大小进行评估。AUC值越接近于1,表明分类模型效果越好。
4.1   评论数据获取
通过京东电商网站的商品地址抓取商品评论数据。商品地址形如:“http://item.jd.com/1658812308.html”,其中“1658812308”数字部分为商品的编号。根据商品编号规则,随机生成待抓取的商品编号,构成商品地址列表,并进行地址有效性判断。有效则抓取商品页面上的好评、差评两类评价数据内容。分析商品评价页面的HTML标签信息,主要抓取“content”(评价内容)和“rating”(好评为3、差评为1的标志)标签内容,并对内容中的一些标签或符号进行清理,最后将评价内容和好评差评标志信息保存为关系型数据。根据上述抓取方法,于2018年2月随机抓取了京东商品评论数据约60 000条,经过数据清洗加工、好评与差评数据的统计分析,最终筛选31 120条实验语料数据并进行正负情感分类标注,好评数据15 560条、差评数据15 560条,正负分类数据平衡。将数据按照6:2:2的比例拆分为训练集18 672条、验证集6 224条和测试集6 224条3个部分。
4.2   句子长度选择
经语料分词处理后,统计每条句子的长度,生成句子长度分布直方图,如图5所示:


图5   句子长度分布统计
句子长度主要分布在0-140个词之间,词个数在8左右的句子最多,占了7000多条。随着句子长度增加,句子条数越来越少,总体属于短文本分类问题。实验将从8-140之间选择16、32、64和128共4个点进行长度比较实验。
选择Embedding嵌入层词向量常见训练方式②(将Word2vec预训练好的词向量,作为Embedding嵌入层的权重值输入,trainable参数为False),直接使用Word2vec预训练好的词向量进行分别训练,然后与TextCNN分类模型实验。实验结果见表1,生成结果比较曲线见图6。
表1   不同句子长度的分类结果
长度Trainable参数值迭代次数准确率(%)AUC值
训练集验证集测试集
16False2491.9590.4690.220.964 8
32False1691.9591.8592.130.971 6
64False1893.2592.5192.160.974 8
128False1993.0692.8892.290.977 2


图6   不同句子长度的分类结果比较
从图6可知模型的准确率和ROC曲线面积AUC值都随着句子长度的增加而增加,长度为128时准确率和AUC值最高,分别为92.29%、0.9772。相比取16分别高出1.93%、0.0124,而迭代次数排第3,并未增加太多。所以长度取128较合适。
4.3   不同文本表示方法效果对比
选择Embedding嵌入层词向量训练方式① “Embedding(Emb)”、② “Word2vec(Vec)”和③ “Word2vec + Embedding (Vec+Emb)”,另外增加基于方式②的一种变换方式“Word2vec*TF-IDF[24](Vec*TF-IDF)”(词向量乘以词频权重TF-IDF),分别与TextCNN分类模型进行实验。分类结果见表2,生成结果比较曲线见图7。
表2   不同文本表示方法的分类结果
文本表示Trainable参数值迭代次数准确率(%)AUC值
训练集验证集测试集
EmbTrue698.7792.4392.130.975 7
VecFalse1993.0692.8892.290.977 2
Vec*TF-IDFFalse4688.4689.7388.720.955 7
Vec+EmbTrue1296.6093.9194.020.982 7
 


图7   不同文本表示方法的分类结果
从表2、图7可知:
(1)方式①“Emb”比方式②“Vec”测试集上的准确率低0.16%,在训练集上过拟合程度最大。
(2)方式②“Vec” 测试集上的准确率和AUC值都居第二,分别为92.29%、0.977 2,在训练集上拟合程度最好。
(3)方式③“Vec+Emb”测试集上的准确率和AUC值最高,分别为94.02%、0.982 7,比(2)方式②分别高出1.73%、0.005 5,在训练集上过拟合程度居中,迭代次数排第二。
(4)“Vec*TF-IDF”方式,测试集上的准确率和AUC值都最低,在训练集上拟合较好。
词向量训练方式③更有利于准确率的提高,方式②有利于训练抗过拟合,下一步选择不同分类算法进一步实验来检验其效果。
4.4   不同分类算法效果对比
选择CNN、LSTM、GRU、Bi_LSTM、Bi_GRU和TextCNN分类算法与词向量训练方式②、③分别进行实验,实验结果见表3,生成结果比较曲线见图8。
表3   不同分类算法的分类结果
分类算法与文本表示Trainable参数值迭代次数准确率(%)AUC值
训练集验证集测试集
CNN+②False2494.8992.2792.190.972 3
CNN+③True798.6693.3293.200.978 3
GRU+②False1894.0792.5792.220.977 4
GRU+③True898.5693.2293.490.981 1
Bi_LSTM+②False3493.4492.5492.710.977 5
Bi_LSTM+③True997.6592.8593.330.978 2
LSTM+②False1694.1592.8492.890.977 7
LSTM+③True1098.0092.9593.120.977 9
Bi_GRU+②False3493.4492.5692.870.977 4
Bi_GRU+③True998.2293.2293.570.979 2
TextCNN+②False1993.0692.8892.290.977 2
TextCNN+③True1296.6093.9194.020.982 7


图8   不同分类算法的分类结果
从表3、图8可知:
(1)各分类算法与方式③的训练集、验证集与测试集准确率和AUC值比与方式②都要高,迭代次数更少,训练收敛较快。其中TextCNN在测试集上准确率和AUC值最高,分别为94.02%、0.982 7;比居第二位的GRU分别高出0.53%、0.001 6;与方式②最好的LSTM相比分别高出1.13%,0.005 0;
(2)所有分类算法与方式③在训练集上比与方式②过拟合程度更大,但TextCNN过拟合程度又是其中最小的。
从实验总体看:在现有语料数量情况下,将句子长度统一为128个词、使用Word2vec预训练256维度词向量作为初始值,并结合Embedding嵌入层继续训练词向量的方式和TextCNN分类算法,分类准确率和模型平均性能都有一定提高,较好地实现了文本正负情感分类,训练的模型有较好的分类泛化能力。
5   结语
本文利用Word2vec词嵌入技术预训练语料词向量,输入Keras API的Embedding嵌入层,依据语料句子词索引序列,通过控制Embedding嵌入层trainable参数值,从而实现3种商品评论句子的文本表示;并将不同的文本表示分别与不同分类算法进行匹配,最终筛选出较为理想的分类模型,即Word2vec词向量输入Embedding嵌入层继续训练的文本表示方法,结合TextCNN算法训练获得的分类模型。其主要优点表现在以下3个方面:①弥补了单独使用Word2vec预训练词向量会降低准确率、延长训练时间的缺点,和单独使用Embedding嵌入层训练词向量容易导致训练过拟合的风险;②将Word2vec预训练词向量,输入Embedding嵌入层继续训练,随着不断迭代更新词向量,训练时间反而缩短;③无须对算法程序作任何改进,只需设置Embedding嵌入层不同参数,即可降低实现难度,更有利于实际应用。
本文不足之处在于:商品评论数据种类较少, 未扩展至其他更多电商平台的商品评论数据。今后研究重点是收集更多的语料数据,增加训练数据集,并充分挖掘中文语料中具有一定语义的表情符号和英文单词的情感表示方法,进一步提升分类模型的准确率。
[1]
黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(S1):387-389.
[2]
谢法举,刘臣,唐莉.在线评论情感分析研究综述[J].软件导刊,2018,17(2):1-4,7.
[3]
王志涛,於志文,郭斌,等.基于词典和规则集的中文微博情感分析[J].计算机工程与应用,2015,51(8):218-225.
[4]
赵刚,徐赞.基于机器学习的商品评论情感分析模型研究[J].信息安全研究,2017,3(2):166-170.
[5]
郭博,李守光,王昊,等.电商评论综合分析系统的设计与实现——情感分析与观点挖掘的研究与应用[J].数据分析与知识发现,2017,1(12):1-9.
[6]
热西旦木•吐尔洪太,吾守尔•斯拉木,伊尔夏提•吐尔贡.词典与机器学习方法相结合的维吾尔语文本情感分析[J].中文信息学报,2017,31(1):177-183,191.
[7]
王新宇.基于情感词典与机器学习的旅游网络评价情感分析研究[J].计算机与数字工程,2016,44(4):578-582,766.
[8]
王正成,李丹丹.基于词向量和情感本体的短文本情感分类[J].浙江理工大学学报(社会科学版),2018,40(1):33-38.
[9]
胡朝举,赵晓伟.基于词向量技术和混合神经网络的情感分析[J].计算机应用研究,2018,35(12):3556-3559,3574.
[10]
金志刚,韩玥,朱琦.一种结合深度学习和集成学习的情感分析模型[J].哈尔滨工业大学学报, 2018,50(11):32-39.
[11]
刘全,梁斌,徐进,等.一种用于基于方面情感分析的深度分层网络模型[J/OL].[2018-06-08].http://kns.cnki.net/kcms/detail/11.1826.TP.20171129.2026.006.html.
[12]
YOON K.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). Stroudsburg: Association for Computational Linguistics,2014:1746-1751.
[13]
TOMAS M,KAI C,GREG C, et al.Efficient estimation of word representations in vector space[EB/OL].[2018-06-08]. https://arxiv.org/pdf/1301.3781.pdf.
[14]
王勤勤,张玉红,李培培,等.基于word2vec的跨领域情感分类方法[J].计算机应用研究,2018,35(10):2924-2927.
[15]
蔡林森,彭超,陈思远,等.基于多样化特征卷积神经网络的情感分析[J/OL].[2018-06-08].https://doi.org/10.19678/j.issn.1000-3428.0050338.
[16]
段传明.传统情感分类方法与基于深度学习的情感分类方法对比分析[J].软件导刊,2018,17(1):22-24.
[17]
孙超红.基于递归神经网络的微博情感分类研究[D].杭州:浙江理工大学,2017.
[18]
范炜昊,徐健.基于网络用户评论情感计算的用户痛点分析——以手机评论为例[J].情报理论与实践,2018,41(1):94-99.
[19]
Keras中文文档[EB/OL].[2018-06-08]. http://keras-cn.readthedocs.io/en/latest/.
[20]
薛炜明,侯霞,李宁.一种基于word2vec的文本分类方法[J].北京信息科技大学学报(自然科学版),2018,33(1):71-75.
[21]
朱磊.基于word2vec词向量的文本分类研究[D].重庆:西南大学,2017.
[22]
gensim: models.word2vec–Deep learning with word2vec[EB/OL].[2018-06-08].https://radimrehurek.com/gensim/models/word2vec.html.
[23]
词向量与Embedding究竟是怎么回事? [EB/OL].[2018-06-08].https://spaces.ac.cn/archives/4122.
[24]
李锐,张谦,刘嘉勇.基于加权word2vec的微博情感分析[J].通信技术,2017,50(3):502-506.
稿件与作者信息
李文江
LI Wen jiang
提出研究思路,设计研究方案,进行实验分析,起草论文初稿
115101850@qq.com
高级实验师,硕士,
陈诗琴
Chen Shi qin
负责采集、清洗和分类标注数据,论文最终版本修订
副研究馆员,硕士
出版历史
出版时间: 2018年12月20日 (版本3
参考文献列表中查看
知识管理论坛
Knowledge Management Forum