文本情感感情剖析怎么做推算感情舆情(文本情感感情剖析可以 使用于哪些范畴)
如何用python处理文本情感感情剖析
Python 有良好的流程包可以进行情感感情分类,那么这样就是Python 自然语言处理包,Natural Language Toolkit ,简称NLTK 。NLTK 肯定不只是处理情感感情剖析,NLTK 有着整套自然语言处理的工具,从分词到实体识别,从情感感情分类到句法剖析,完整而丰富,功能强大。
Word文本中的文档部件里的域 打开之后并非一个方框,而是一个代码是怎么。。。
编者按
文本情感感情剖析是对带有主观感情色的文本进行剖析、处理、归纳和推理的过程。网络上每时每刻都会产生大量文本,这其中也蕴含大量的用户直接参加的、对人、事、物的主观评价信息,打比方说微博、论坛、汽车、购物评论等,这几个评论信息常常表达了人们的各式主观情绪,如喜、怒、哀、乐,以及情感感情倾向性,如褒义、贬义等。基于此,潜在的用户就能够通过浏览和剖析这几个主观色的评论来了解大众舆论对于某一事件或产品的观点。
百分点认知智能实验室基于前沿的自然语言处理技术和实际的算法落地实践,真真正正实现了整体精度高、定制能力强的企业级情感感情剖析架构。从单一模型到定制化模型演变、文本作用域优化、多模型(相关度)融合、灵活规则引擎、以及基于实体的感情倾向性判定,探索出了一套高精确准确、可定制、可干预的智能剖析框架,为舆情顾客提供了高效的预警研判服务。
本文作 者: 常全有 刘政
1。
情感感情剖析概述
文本情感感情剖析,即 Sentiment Analysis(SA),又称意见挖掘或情绪倾向性剖析。 针对通用场景下带有主观描述的中文文本,自动判断该文本的感情极性类别并给出对应的置信度,情感感情极性分为积极、消极、中性等。
在文本剖析的基础上,也衍生出了一系列细粒度的感情剖析任务,如:
基于方面的感情剖析(ABSA):一般称作 Aspect Based Sentiment Analysis。旨在识别一条句子中一个指定方面(Aspect)的感情极性。常见于电商评论上,一条评论中关系到关于价格、服务、售后等方面的评价,需要区分各自的感情倾向。
基于实体的感情倾向性判定(ATSA): 一般称作 Aspect-Term Sentiment Analysis。对于给定的感情实体,进行情感感情倾向性判定。在一句话中不同实体的感情倾向性也是不一样的,需要区别对待。
80%是采用[mask],my dog is hairy → my dog is [MASK]
10%是随机取一个词来代替mask的词,my dog is hairy -> my dog is apple
10%保持不变,my dog is hairy -> my dog is hairy
Token Embeddings:是词向量,第1个单词是CLS标志,可以 使用于后来的分类任务。
Segment Embeddings:用以区别两种句子,由于预训练不光做LM还要做以两个句子为输入的分类任务。
Position Embeddings:让BERT学习到输入的顺序属性。
ALBERT-xxlarge的表现完全超过BERT-large,同时参数量只有其占比的70%,不过Bert-large的速度要比ALBERT-xxlarge倍左右。
BERT-xlarge的性能相比于Bert-base是低效的,表明大参数模型相比于小参数模型更加难训练。
内存问题
训练时间会更长
模型退化
Attention feed-forward block(上图中蓝色实线区域):
参数大小: O(12 * L * H * H)
L:编码器层数 eg:12
H:隐藏层大小 eg:768
参数量占比:80%
优化方法:采用参数分享机制
Token embedding projection block(上图中红色实线区域):
参数大小:(V * E)
V:词表大小 eg:30000
E:词嵌入大小 eg:768
参数量占比: 20%
优化方法:对Embedding进行因式分解
标题:正常文章的标题
全文: 标题和正文的统称
情感感情摘要:根据顾客的输入特征词,从文章中抽取一段摘要;长度在256字符内。
关键词周边:只关注所配置关键词身边的文本作用域,通常是一句话。
主体(实体)词周边:根据顾客所配置的品牌词、主体词,选取相应的文本作用域。
自然语义:是指符合人们的感情判定标准,像 色情、暴力、违禁、、反动等言论都是敏感信息的范围。打比方说:"#28天断食减肥[超话]#美柚说我还有4天就来姨妈了,所以是快要来姨妈了体重就掉的慢甚至不掉了吗,心塞。" 属于敏感。
主体(实体)情感感情:一般关系到的是 人名、地名、机构名、团体名、产品名、品牌名、”我“、”作者“等; 假如监测主体为美柚,那么上述文本的感情倾向性就是非敏感。再举例如下:”墨迹天气又忘记签到了,这个记性愈来愈差“,墨迹天气是监测主体,那么属于非敏感。
业务规则: 是指以一种可预示、可量化、可汇总、可表达的形式汇总知识和规则,业已不符合自然语义的理解领域。
业务规则&自然语义:顾客的负面信息判定是结合业务规则,而且是符合自然语义判定标准的。
顾客数目:10
数据分布:从舆情系统中依照自然日,为每个顾客选取100条测试数据
对比条件:情感感情摘要、标题
通用情感感情模型
相关度模型
实体识别和信息抽取问题
实体级别的感情倾向性判定
Chi Sun, Luyao Huang, Xipeng Qiu: Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence。 NAACL-HLT (1) 2019: 380-385
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。 NAACL-HLT (1) 2019: 4171-4186
Yifan Qiao, Chenyan Xiong, Zheng-Hao Liu, Zhiyuan Liu: Understanding the Behaviors of BERT in Ranking。 arXiv preprint arXiv:1904、07531 (2019)。
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut:ALBERT: A Lite BERT for Self-supervised Learning of Language Representations。arXiv:1909、11942 [cs。CL]
Ashish Vaswani, 非也am Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N。 Gomez, Lukasz Kaiser, Illia Polosukhin:Attention Is All You Need。arXiv:1706、03762 [cs。CL]
Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu ; Proceedings of the 36th International Conference on Machine Learning, PMLR 97:2337-2346, 2019:Efficient Training of BERT by Progressively Stacking
https://github。com/thunlp/PLMpapers
http://jalammar。github。io/illustrated-bert/
https://www。bilibili。com/video/BV1C7411c7Ag?p=4
核心目标和价值
舆情系统的最核心需求,是能够精确准确及时的为顾客甄别和推送负面,负面识别的准确性直接作用与影响信息推送和顾客体验,其中基于文本的感情剖析在舆情剖析中的重要程度不用多说,下图简要展示了文本剖析以及情感感情剖析在舆情体系中的效果。
舆情数据通过底层的大数据采集系统,流入中间层的 ETL 数据处理平台,经过初级的数据处理转化之后,向上进入数据挖掘核心处理环节;此阶段进行数据标准化、文本深度剖析,如地域识别、智能分词、情感感情判定、垃圾过滤等,经过文本处理的最终,即脱离了原始数据的状态,具备了顾客属性,基于顾客定制的监测和预警规则,信息将在下一阶段实时的推送给终端顾客,负面判定的准确度、召回率,直接作用与影响顾客的服务体验和服务认可度。
难点与挑战
舆情业务中的感情剖析难点,主要展现在以下几个方面:
1、舆情的顾客群体是复杂多样的,涉及行业多达二十四个(如下图所示),不同行业数据特点或敏感判定方案不完全一样,靠一个模型难以解决所有问题;
2、舆情监测的数据类型繁多, 既有常规的新闻、电话悟 真 网012 14944。net等媒体文章数据,又有偏口语化的微博、贴吧、问答数据,情感感情模型常常需要针对不同渠道类型独立训练优化,而渠道粒度的模型在不同顾客上效果表现也差异巨大;
3、顾客对情感感情的诉求是有差别的,一些客户会有自己专属的判定条件。通用的感情模型难以适应所有顾客的感情需求。
4、随着时间推移,顾客积累和修正的感情数据难以发挥价值。无法实现模型增量训练和性能的迭代提高。
5、对于关注品牌、主体监测顾客,需要进行特定目标(实体)情感感情倾向性(ATSA)判定。那么信息抽取就是一个难题。
6、对于新闻类数据,通常来讲存在标题和正文两个文本域。怎样提取有价值的文本信息作为模型输入也是面临的困难。
2。
情感感情剖析在百分点舆情的发展历程
从2015年开始,百分点舆情便开始将机器学习模型应用在早期的负面判定中;到2020年,我们经过努力已经将深度迁移学习场景化和规模化,也取得了挺好的成果;
2015年:抓取百万级别的口碑电商评论数据,使用逻辑回归进行建模,做为情感感情剖析的BaseLine;
2016年:主要侧重于技术上的递进,进入深度学习范畴。引入word2vec在大规模语料集上进行训练,获得具有更佳语义信息的词向量预示,替代基于Tfidf等守旧的统计特征。随后在TextCnn、TextRnn等深度学习算法进行更新迭代,尽管得到数字指标的提高,不过对于实际业务的帮忙还是不足。
2017年:结合舆情全业务特点,需要能做到针对品牌、主体的感情监测。提出 Syntax and Ruler-based Doc sentiment analysis的方式,根据可扩充的句法规则以及敏感词库进行特别规定的剖析。该方式在敏感精确准确度指标上是有提升的,不过却有较低的召回。同时在进行规则扩充时,也比较繁琐。
2019年上半年:以Bert为代表的迁移学习诞生,并且能在下游进行fine-tune,使用较小的训练数据集,便能获取挺好的成绩。进行以舆情业务数据为基础,构建一个简易的文本平台标注平台,在其上进行训练数据的标注,构建了一个通用的感情模型分类器。评测指标 F1值为 0。87,后续对 ERNIE1、0 进行try,有两个百分点的提升。
2019年下半年:主要从舆情的业务问题入手,通过优化提取更加精确准确、贴近业务的感情摘要作为模型输入,使用定制化模型以及多模型融合方案,联合对数据进行情感感情打标。并提出基于情感感情实体(主体)的负面信息监测,下述统称ATSA(aspect-term sentiment analysis),使用 Bert-Sentence Pair 的训练方式, 将 摘要文本、实体联合输入,进行实体的感情倾向性判定。在定点顾客上取得挺好的成绩,最终的F1值能达到 0。9五、
2020年:将细化范畴做到顾客级别,定制私有化情感感情模型。同时将增大对特定实体的细粒度情感感情剖析(ATSA)的优化;并 且,通过内部 AI训练平台的规模化应用,做到模型的全生命周期管理,简化操作程序,加强对底层算力平台的资源管控。
3。
预训练语言模型与技术解析
下图大体概括了语言模型的发展状况(未完全统计):
在2019年度情感感情剖析实践中,率先使用预训练语言模型 Bert,提高了情感感情剖析的准确率。后来具有更小参数量的ALBERT的提出,使生产环境定制化情感感情模型成为可能。这里就主要介绍BERT以及ALBERT。
BERT
BERT(Bidirectional Encoder Representations from Transformerss)的全称是基于 Transformer 的双向编码器表征,其中「双向」预示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息(如下图所示)。
在BERT中, 着重是以两种预训练的方式来建立语言模型。
1、MLM(Masked LM)
MLM可以理解为完形填空,作者会随机mask每一个句子中15%的词,以其上下文来做预测推算,比如:my dog is hairy → my dog is [MASK]。此处将hairy进行了mask处理,紧接着采用非监督学习的方式方法预测推算mask位置的词是什么,具体处理如下:
之后让模型预测推算和还原被遮盖掉或替换掉的部分。
2、NSP(Next Sentence Prediction)
first of all我们拿到属于上下文的一对句子,亦即两个句子,之后我们要在这两段连续的句子里面加一部分特殊 token: [cls] 上一句话,[sep] 下一句话。 [sep]
亦即在句子开头加一个 [cls],在两句话之中和句末加 [sep],具体地就好像下图一样:
BERT在文本摘要、信息检索、数据增强、阅读理解等任务中,亦有实际的应用和发展。更加的多关于Bert相关介绍,请参照百分点认知智能实验室往期文章。
ALBERT
ALBERT的全称是A Lite BERT for Self-supervised Learning of Language Representations(用于语言表征自监督学习的轻量级BERT),相比于Bert来讲,在保证参数量小的情形下,也能保持较高的性能。当然同样的模型还有 DistilBERT、TinyBERT。
1、ALBERT 和BERT的比较
下图是BERT和ALBERT在训练速度和性能上的整体比较:
2、ALBERT的目标
在基于预训练语言模型表征时,增添模型大小一般能够提升模型在下游任务中的性能。不过通过增添模型大小会带来以下问题:
在将Bert-large的隐层单元数增添一倍, Bert-xlarge在基准测试上准确率显著降低。
ALBERT核心目标就是解决上述问题, 接下来就来介绍ALBERT在精简参上的优化。
3、ALBERT模型优化
明确参数的分布,对于有效可靠的减少模型参数十分有用处。ALBERT同样也只使用到Transformer的Encoder阶段,如下图所示:
图中标明的蓝色方框和红色方框为主要的参数分布区域:
>E,所以ALBERT的词向量的维度是小于encoder输出值维度的。在NLP任务中,通常来讲词典都会很大,embedding matrix的大小是E×V。\n ALBERT采用了一种因式分解(Factorized embedding parameterization)的方式方法来降低参数量。first of all把one-hot向量映射到一个低维度的空间,大小为E,紧接着再映射到一个高维度的空间,当E<
具体参数优化如下:
Factorized embedding parameterization(对Embedding因式分解)
ALBERT认为,token embedding是没有上下文依赖的表述,而隐藏层的输出值不但包括了词本身之义还包括一些上下文信息,因此应该让H>>E,所以ALBERT的词向量的维度是小于encoder输出值维度的。在NLP任务中,通常来讲词典都会很大,embedding matrix的大小是E×V。
ALBERT采用了一种因式分解(Factorized embedding parameterization)的方式方法来降低参数量。first of all把one-hot向量映射到一个低维度的空间,大小为E,紧接着再映射到一个高维度的空间,当E<
可以看见,经过因式分解。参数量从O(V * H) 变为O(V*E + E*H),参数量将极大减小。如下图所示:在H=768条件下,对比E=128和E=768,参数量减少17%,而整体性能下降0。6%。
在后续的实验环境(所有的优化总结后),对 embedding size 的大小进行评估,总结出在 E=128时,性能达到最佳。
Cross-layer parameter sharing(跨层参数分享)
下图是对BERT-Base Attention分布的可视化。对于一个随机选择的句子,我们可视化来自不同Layer的Head的Attention分布。可以看见,底层的Attention分布类似于顶层的Attention分布。这一事实表明在一定程度上,它们的功能是相似的。
Transformerzhong gong享参数有多种方案,只分享feed-forward层,只分享attention层,ALBERT结合了上述两种方案,feed-forward层与attention层都实现参数分享,总之分享encoder内的所有参数。不过需要主要的是,这只是减少了参数量,推理时间其实没有减少。如下图所示:在采用 all-shared模式下,参数量减少70%,性能下降小于3%。
在经过上述的参数优化后,整体参数量有了非常大的缩减,训练速度也极大加快。后续作者又在模型变宽和模型变深上做了几组实验。如下:
模型变宽
当我们增添 H 大小时,性能会慢慢提高。在H=6144时,性能明显下降。如下图所示:
模型变深
在以ALBERT-large为基础参数,设置不同的layer大小,发现layer=48的性能要差于layer=二十四的性能,如下图所示:
一些实验预示NSP(BERT-style)非但没有作用,相反的会对模型带来一些损害。作者接着提出SOP(ALBERT-style)的优化模式。具体如下:
Inter-sentence coherence loss(句子连贯性)
在ALBERT中,为了去除主题识别的作用与影响,提出了一个新的任务 sentence-order prediction(SOP),SOP的正样本和NSP的获取方式是相同的,负样本把正样本的顺序反转即可。SOP由于是在同一个文档中选的,只关注句子的顺序其实没有主题方面的作用与影响。并且SOP能解决NSP的任务,不过NSP并不能解决SOP的任务,该任务的添加给最后的结果提升了一个点。
在后续的实验中, ALBERT在训练了100w步之后,模型依旧没有过拟合,于是乎作者果断移除了dropout,不料对下游任务的作用居然有一定的提升。
当然作者对于增添训练数据和训练时长也做了详尽的对比和测试,这里不再进行描述。
在最初的 ALBERT发布时,是只有中文的。感谢数据设计师徐亮以及所在的团队,于 2019 年 10 月,开源了首个中文预训练的中文版 ALBERT 模型。
项目地址:
https://github。com/brightmart/albert_zh
4。
情感感情剖析在舆情的应用实践
业务调研
2019上半年,舆情服务的整体情感感情判定框架已经迁移到以Bert训练为基础的感情模型上,总结出的测试指标 F1 值为 0。86,相较于旧版模型提升显著; 不过固然数据指标提升明显,业务端实际感受却并不明显。所以我们对表现性顾客进行采样调查,辅助我们找出生产指标和实验室指标差别所在。同时针对上文提到的关于舆情业务中情感感情剖析的痛点和难点,进行一次深度业务调研:
1、顾客情感感情满意度调查
2、文本作用域(模型输入文本选择)调研
这里将文本作用域分为以下几个层次,分布情况如下图所示:
3、情感感情判定因素
这里对判定因素做以下介绍:
我们针对上述调研结果进行详尽剖析,最终确定走情感感情细粒度模型的道路。
情感感情剖析的落地实践
精简版本的感情架构概览如下:
接着下面会基于此进行讲述,大体分为如下几个层次:
1、输入层
这里着重是获取相应文本输入,以及顾客的文本作用域规则和检索词、主体词,供下游的文本作用域生成提供相应的条件。
2、文本作用域
根据文本作用域规则,生成相应的模型输入,请参照上文对文本作用域的阐述。这里实验内容针对的是情感感情摘要。first of all将文本进行分句,紧接着根据对每一个句子和检索词进行匹配,通过BM25计算相关性。这里限制的文本长度在256内。在文本域优化后, 对线上的10家顾客进行对比剖析,实验条件如下:
进行对比剖析(顾客名称已脱敏),每个顾客的感情摘要和文本标题效果依次展示。如下图所示:
可以发现整体效果是有极大提升的。不过也可以看见部分顾客的敏感精确准确率是偏低的,这个和顾客的敏感分布有关,多数的敏感占比只有总数据量的 10% ~20%,有些甚至更加低。所以面临一个新的问题,怎样提升非均匀分布的敏感精确准确度。这个会在下文进行陈述。
3、情感感情判定因素
由上文的感情因素分布得知, 情感感情对象(实体)的因素占54%,基于实体的感情倾向性判定(ATSA)是一个普适需求。假如这里直接使用通用情感感情剖析判定(SA),在舆情的使用场景中会存在高召回,低精确准确的的情形。接着下面会对此进行相关处理方案的的论述。
4、模型层
在19年初, 使用Bert-Base(12L,768H)进行fine-tune,得到如下指标:情感感情准确性:0。866, 敏感精确准确率: 0。88,敏感召回:0。84,F1: 0。867;后来在ERNIE1、0上进行try,情感感情准确性能提升2个百分点。但是由于PaddlePaddle的生态问题,没有选择ERNIE。这是一个符合自然语义的感情模型, 不过对于舆情顾客来说,这还远远不够。
对生产环境的埋点日志剖析,发现顾客存在大量的屏蔽操作。选取近一个月屏蔽最多的10个话题进行剖析,如下图所示:
通过调研和剖析发现,这几个数据固然命里关键词,不过数据相关度有些低。在情感感情判定之前引入相关度判定, 对于非有关的数据,一律判定为非敏感。对于精确准确数据再次进行情感感情剖析判定,飞速增加敏感精确准确率。在工程上选取ALBERT进行模型训练可以达到部署多个模型的意图。观测到,单个模型在推理阶段,在Gpu(RTX 2080)上占用的显存大概在600MiB,极大节省资源。
部分顾客相关度模型效果如下:
顾客名称
准确率
正样本数量
负样本数量
数据来源
C1
0。95
619
1141
收藏、屏蔽数据
C2
0。97
5085
5二十四4
收藏、屏蔽数据
C3
0。93
450
450
收藏、屏蔽数据
C4
0。94
136
487
收藏、屏蔽数据
部分顾客实施相关度判定,因为数据特征比较明显,可以比较容易达到比较精确准确的数据效果,不过并不适合使用于所有顾客。相关度模型的引入,即达到筛选相关数据的意图,也能减少情感感情判定噪音数据的干扰,提升敏感精确准确度。
5、ATSA-面向情感感情实体的感情倾向性剖析
ATSA(aspect-term sentiment analysis) 要解决就是在特定情感感情实体下的感情倾向性判定问题。这里主要借鉴《Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence》文中的思想。这份工作做得特别聪明,它把本来情感感情计算的常规的单句分类问题,通过加入辅助句子,改造成了句子对匹配任务。许多实验印证了:BERT是非常适合做句子对匹配类的工作的,因此这种转换无疑能更充分地发挥BERT的应用优势。
舆情中要解决的问题如下:
A公司和B公司的感情倾向性是非敏感的, 而C公司却是敏感的。要解决此问题,要面临两个问题:
在舆情的业务场景中,可以简化问题,因为情感感情实体是提前给定的, 所以不需要做实体识别和信息抽取, 仅需要对特定实体的感情倾向性进行判定。整体程序如下:
着重是利用 Bert Sentence-Pair,文本与实体联合训练,得到输出标签。目前实验证明,经过这种问题转换,在保证召回率提升的情形下,准确率和精确准确率都获得了提高。选择一个顾客进行对比测试,如下所示:
实验条件
实验方式
准确率
精确准确率
召回率
F1
依照自然日采样,测试样本为912条,其中敏感数据108条
ATSA
0。95
0。8
0。85
0。82
情感感情摘要
0。84
0。4
0。7
0。51
上述是一个正负样本及其不均衡的情形,增添敏感精确准确率将提高顾客的满意度。当前的实现的机制还略显简单,未来还将持续投入。
6、情感感情规则引擎
在部分顾客场景中, 他们的业务规那么是明确的或者是可穷举的。这里会做一些长尾词挖掘、情感感情新词发现等工作来进行辅助, 同时要支持实时的干预机制,快速响应。打比方说某些顾客的微博经常会发许多微博,他们会要求都判定成非敏感。这里不再做过多介绍。
5。
长期规划
AI 训练平台的构建
软件开发范畴和模型开发范畴的程序是不一样的,如下所示:
可以看见,构建模型是困难的。在舆情架构发展中,线上多模型是必然的趋势,也就象征着需要一个平台能够快速支持和构建一个定制化模型,来满足真实的应用场景。还得需要从底层的算力资源进行管控、舆情数据的标准化制定和积累、模型的生命周期管理等多方面进行衡量。关于 AI 训练平台的构建以及在舆情范畴的应用实践,我们将在后续文章做进一步阐述。
持续学习,增量迭代
随着舆情顾客对系统的深度使用,一般会有情感感情标签的人工纠正。所以需要保证模型可以进行增量迭代,减少顾客的负反馈。
多实体的感情倾向剖析
对蕴含有多个实体信息的文本,针对每一个系统识别到的实体,做自动情感感情倾向性判断(敏感、非敏感),并给出对应的置信度,包括实体库的构建。
提升垂直类情感感情情感感情剖析效果
在垂类上(App、餐饮、酒店等)情感感情倾向性剖析准确率上增大优化力度。
随着舆情业务的发展,各范畴顾客都沉淀了大量与业务贴近的优质数据,怎样有效使用这几个数据,形成情感感情效果联动反馈机制,为业务赋能,是情感感情剖析范畴面临的新的挑战。在2019年的实践中,通过场景化的感情剖析框架落地应用,对情感感情效果做到了模型定制化干预,真真正正提高了顾客满意度。这种机制具有整体精度高、定制能力强、业务感知明显的特征。在后续打工时,将以 模型训练自动化与人工反馈相结合的方式,将模型定制能力规模化、平台化,实现情感感情剖析在舆情场景下千人千面的作用。
百分点舆情觉察系统
百分点舆情觉察系统(MediaForce)是一款沉淀多年的网络公开舆情 SAAS 剖析系统,覆盖全网主流资讯站点及社交媒体的公开数据,帮助企业迅速发现舆情热点,掌握负面和舆论动向,为上万顾客提供精确准确的舆情剖析服务。
Refer:
文本挖掘之中文情感感情剖析
情感感情剖析(Sentiment analysis,SA),又称倾向性剖析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感感情挖掘(Sentiment mining)、主观剖析(Subjectivity analysis)
情感感情剖析是对带有情感感情色的主观性文本进行剖析、处理、归纳和推理的过程
情感感情剖析的意图是为了找出说话者/作者在某些话题上或者针对一个文本两极看法的态度。这个态度可能是他或她的个人判断或是评估,大概是他那个时候的感情状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的感情交流(就是作者想要读者所体验的情绪)
文本情感感情剖析的应用非常广泛,如互联网舆情风险剖析,信息预测推算等。如通过Twitter用户情感感情预测推算gupiao走势,电影票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测推算
first of all安装SnowNLP中文情感感情剖析库:
SnowNLP(Simplified Chinese Text Processing),是一个python语言创作的类库,可以方便的处理中文文本内容,其开发受到了TextBlob的启发
In ⓵:
数据载入
In ⓶:
Out⓶:
数据预处理
In ⓷:
In ⓸:
Out⓸:
In ⓻:
Out⓻:
将所有数据打分
In ⓽:
Out⓽:
将分数合并会原表格
In ⑪:
Out⑪:
计算指标
In ⑫:
Out⑫:
In [13]:
Out[13]:
In [14]:
Out[14]:
基础结论:中位数比平均值高不少,说明有少量异常低的评分拉低了均值
In [16]:
Out[16]:
看分数分布情况,直方图最合拍
In [17]:
Out[17]:
少量数据,柱状图也可以
In [18]:
Out[18]:
In [19]:
Out[19]:
In [20]:
以分数排序,查看打分准确率
In [22]:
Out[22]:
好评
In [23]:
Out[23]:
In [二十四]:
Out[二十四]:
差评
In [25]:
Out[25]:
In [26]:
Out[26]:
In [27]:
Out[27]:
In [28]:
Out[28]:
In [29]:
Out[29]:
In [30]:
Out[30]:
结论
准确率比瞎猜高,但达未到人工打分准确率
SnowNLP库的训练基准数据是基于电商销售产品训练的,对饭店留言数据的打分准确率一般
做情感感情剖析最好用户自行实现(网站增添打分功能,用户自行打分)
网络舆情管理系统主要蕴含哪些技术?
以新浪舆情通-政企舆情大数据监测系统为例,应用到了以下5大核心技术:
1)大数据采集、挖掘技术
互联网舆情主要通过新闻、论坛、微博、悟 真 网012 14944。net、博客等渠道形成和传播,互联网舆情监测系统依靠强大的大数据计算能力实现了全网信息的实时收集、挖掘和智能检索,保障信息的及时性和完整性。
2)大数据处理技术
快速将数据去重、内容分类,噪音识别等,保障数据的精确准确度。
3)自然语言处理、图文智能剖析等技术
通过词法剖析、语义剖析等先进技术,判断内容的感情属性,并优先展示涉及敏感的信息,让舆情监测系统在剖析方式、剖析对象、剖析能力等方面更加“智能”,数据更加精确准确。
4)音视频处理技术
通过通过语音识别、视频处理等技术,将音视频信息转化为文本,实现对音视频信息的剖析、分类与检索。对字幕和弹幕的提取和处理能更深入了解用户的注意和关注点以及情绪。
5)OCR 技术
通过 OCR 技术将图片中的信息识别为文本,实现对图片信息的分类与检索。用户仅需要设置监测内容的关键词方案,即可实时获得有关的全网图片内容信息。通过网络信息采集和文本挖掘技术,帮助有关单位快速发现和收集需要的社会互联网舆情信息,通过采集、分类、过滤、聚类、
主题检测和统计剖析,实现社会热点话题、突发事件、重大案情的快速识别和定向追踪,对有较大作用与影响的重要事件快速发现快速处理的一套系统。
天互云镜舆情系统为你在线服务通过网络信息采集和文本挖掘技术,快速发现和收集需要的社会互联网舆情信息,通过采集、分类、过滤、聚类、主题检测和统计剖析,实现社会热点话题、突发事件、重大案情的快速识别和定向追踪,对有较大作用与影响的重要事件进行快速的发现和处理,如乐思的系统就是由两个子系统组成,自动采集子系统与剖析浏览子系统。
在当下,舆情监测已被普遍使用于各范畴,从企业到党政jiguan、高校,再到公众人物,相关事业单位等。
因此市场上有关的舆情监测软件产品也是层出不穷如识微商情监测系统、鹰眼速读网系统等,可供用户选择。
从技术角度来看,互联网舆情监测其实也就是说是众多技术结合的成果。一般而讲,舆情监测技术手段主要包括:
1。互联网舆情采集
在信息采集步骤中,主要包括互联网爬虫(We-bCrawler)和网页清洗(WebPageCleaning)等技术。
互联网爬虫是一个依照一定规则自动抓取互联网信息的流程,又称为互联网蜘蛛(WebSpider)。互联网爬虫分为三类:通用爬虫(GeneralPurposeWebCrawler) ,面向主题爬虫(FocusCrawlerorTopicalCrawler) ,面向DeepWeb爬虫(DeepWebCrawler)。考虑到互联网舆情监测通常是面向行业监测,倾向于使用面向主题爬虫。
网页清洗就是从网页中过滤掉“噪声"数据,提取出网页中有价值的信息内容。网页清洗剖析方法重点分为三类:基于树结构剖析方法,基于Web挖掘方法,基于正则表达式方法。基于树结构剖析方法应用最广,开源软件Htmlparse是比较有表现性的工具,缺点是高度依赖每个网站网页的结构。
2。舆情自动分类
互联网舆情分类是将收集的舆情进行自动分类,是整理和发现舆情的关键步骤,主要运用到自然语言处理中的文本分类(TextCategorization)和文本聚类(TextClusters)等技术。
3。话题识别与跟踪
话题识别与跟踪(TopicDetectionandTracking)是对互联网舆情聚类剖析后,通过算法找出热点问题,并通过算法跟踪话题发展过程,是互联网舆情监测中的核心技术。
4。文本情感感情剖析
文本情感感情剖析(又称文本倾向性或意见挖掘(OpinionMining)),是对带有情感感情色的主观性文本进行剖析、处理、归纳和推理的过程。文本情感感情剖析是自然语言处理技术中新兴的研究课题,具有很大的研究价值和应用价值,一般而讲,它分为三个主要研究任务:情感感情信息抽取、情感感情信息分类、情感感情信息的检索与归纳。
文本挖掘之中文情感感情剖析
情感感情剖析(Sentiment analysis,SA),又称倾向性剖析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感感情挖掘(Sentiment mining)、主观剖析(Subjectivity analysis)
情感感情剖析是对带有情感感情色的主观性文本进行剖析、处理、归纳和推理的过程
情感感情剖析的意图是为了找出说话者/作者在某些话题上或者针对一个文本两极看法的态度。这个态度可能是他或她的个人判断或是评估,大概是他那个时候的感情状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的感情交流(就是作者想要读者所体验的情绪)
文本情感感情剖析的应用非常广泛,如互联网舆情风险剖析,信息预测推算等。如通过Twitter用户情感感情预测推算gupiao走势,电影票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测推算
first of all安装SnowNLP中文情感感情剖析库:
SnowNLP(Simplified Chinese Text Processing),是一个python语言创作的类库,可以方便的处理中文文本内容,其开发受到了TextBlob的启发
In ⓵:
数据载入
In ⓶:
Out⓶:
数据预处理
In ⓷:
In ⓸:
Out⓸:
In ⓻:
Out⓻:
将所有数据打分
In ⓽:
Out⓽:
将分数合并会原表格
In ⑪:
Out⑪:
计算指标
In ⑫:
Out⑫:
In [13]:
Out[13]:
In [14]:
Out[14]:
基础结论:中位数比平均值高不少,说明有少量异常低的评分拉低了均值
In [16]:
Out[16]:
看分数分布情况,直方图最合拍
In [17]:
Out[17]:
少量数据,柱状图也可以
In [18]:
Out[18]:
In [19]:
Out[19]:
In [20]:
以分数排序,查看打分准确率
In [22]:
Out[22]:
好评
In [23]:
Out[23]:
In [二十四]:
Out[二十四]:
差评
In [25]:
Out[25]:
In [26]:
Out[26]:
In [27]:
Out[27]:
In [28]:
Out[28]:
In [29]:
Out[29]:
In [30]:
Out[30]:
结论
准确率比瞎猜高,但达未到人工打分准确率
SnowNLP库的训练基准数据是基于电商销售产品训练的,对饭店留言数据的打分准确率一般
做情感感情剖析最好用户自行实现(网站增添打分功能,用户自行打分)


