政府网络舆情监测系统的实现
发布日期:2015-11-18浏览:6677
摘 要
互联网以其便捷、虚拟化、传播快等特点使大众更乐于通过网络方式发表各自看法,形成网络舆情。政府通过构建网络舆情系统,及时了解社情民意,主导网络舆情。本文从网络舆情系统技术实现方面,介绍了舆情系统进行舆情收集、分析、预警、报告的整个过程,详细论述各个过程实现的关键技术,从而为理解和构建政府舆情监控系统提供参考。
关键词:网络舆情;舆情监控系统;电子政务
[1] Realization of the government network monitoring system based on publicopinion
MeiSong
(Information and Network Center, Hubei PartyInstitute & Hubei Administration Institute , Wuhan 430022)
Abstract: People are more willing to expresstheir views through the network for its convenience, virtualization, spreadquickly.So It is easy to form a network public opinion. Through building anetwork monitoring system for public opinion, the government can keep abreastof public sentiment and lead the network of public opinion.Based on the implementation technology of government network monitoring system, thisarticle describes the whole process applications of the system and discusses indetail the key technologies of each process, so as to provide a reference for understandingand building the government network public opinion monitoring system.
Key words: Internet public opinion;Network public opinion monitoring system;E-government
一、我国网络舆情现状及对政府的影响
1.1网络舆情现状
近两年网络热点事件爆发频繁,主要有三个方面的原因:一是网民人数增长迅速,据中国互联网信息中心今年7月发布的第26次互联网发展状况统计报告显示:截至2010年6月30日,中国网民规模已达到4.2亿人,普及率达到31.8%,从而扩大了网络舆情形成的基础。二是网络的虚拟化、即时性、传播快的特点,使其成为社情民意的首选表达平台。三是在世界金融危机的背景下,中国改革近30年经济增长和社会转型所积累的各种矛盾而引发的现实问题倾向于通过网络凸显,如果控制不当容易导致现实事件的激化态势。2009年网络热点事件为数众多。根据对五大网络社区热点事件发帖数量的统计,发帖超过5000份的热点事件有16项(见表1),其中发帖过万份的事件有5项 [1]。[2]
表1:2009年度网络热点事件排行榜
事件/话题
天涯社区
凯迪社区
强国论坛
新浪论坛
中华网
论坛
合计
1
湖北巴东县邓玉娇案
5260
7390
2390
3086
7007
25133
2
重庆打黑风暴
8790
2109
1345
1578
6157
19979
3
云南晋宁县“躲猫猫”事件
4682
2536
598
5011
2151
14978
4
上海交通管理部门
“钓鱼执法”
3959
1300
753
5123
318
11453
5
网瘾标准与治疗
4997
923
425
3978
776
11099
6
强制安装“绿坝”软件
起争议
4570
1952
899
956
639
9016
7
杭州市飙车案
2849
1720
223
1502
1201
7495
8
吉林通钢暴力事件
605
573
1719
882
3276
7055
9
长江大学三学生舍身救人
3723
211
953
784
688
6359
10
央视曝光谷歌涉黄
3467
1120
437
683
375
6082
11
河南农民工“开胸验肺”
1899
873
656
973
1427
5828
12
贾君鹏红遍网络
3818
398
103
1066
337
5722
13
郑州市副局长“替谁说话”
1435
918
2090
453
489
5385
14
昆明“小学生卖淫”案
3156
1060
223
351
498
5288
15
成都“6。5”公交车燃烧事件
2108
862
56
869
1284
5179
16
河南灵宝市跨省抓捕
王帅案
1670
1570
206
653
905
5004
17
99%访民“精神病”说
1849
1480
483
471
527
4810
18
罗彩霞被冒名顶替上大学
2516
721
178
529
652
4596
19
贵州习水县嫖宿幼女案
1842
782
116
611
961
4312
20
湖北石首市骚乱
772
1210
270
1267
585
4104
1.2网络舆情对政府形象的影响
从表格数据可以看出,当前形成网络舆情的热点事件呈现两个方面的特点:一方面,事件主要涉及公民权利保护、公共权力监督、公共道德伸张等一系列重大社会公共问题,往往反映的是负面信息。另一方面,排名前20位的事件中,与政府直接相关的有15件,占总事件数的75%,其中负面事件14件,占政府事件总数的93%。说明当前受大众最为关注的热点事件往往反映的是政府的负面信息,直接影响了政府及领导干部的形象。
十六届四中全会在《中共中央关于加强党的执政能力建设的决定》中提出:“高度重视互联网等新型传媒对社会舆论的影响,加快建立法律规范、行政监管、行业自律、技术保障相结合的管理体制,加强互联网宣传队伍建设,形成网上正面舆论的强势。”“建立舆情汇集和分析机制,畅通社情民意反映渠道”,把建立和完善舆情信息汇集和分析机制作为一种制度性的设计和安排,标志着党对舆情研究重要性的进一步认识。
随着网络媒体逐渐成为反映社情民意主要载体,网络舆情已经越来越成为政府各部门关注的焦点。舆情监控系统的构建为政府相关部门提供了智能化全时段的电子监控技术,信息主管部门可用其跟踪网络热点事件、主导网络文化阵地。对公职能部门可利用它实时监控网上对本部门的相关信息,随时获知公众对本部门的意见或看法,对于不利于本部门的负面信息给予自动报警,即时分析处理,判别事件处理优先级,作出相应对策处理,缓解舆论压力,避免事态恶化,从而变被动为主动,维护政府部门的良好形象。
二、网络舆情监测系统的总体框架
网络舆情监测系统的功能包括:舆情规划、舆情收集、舆情分析、舆情控制、舆情评估。相应地分别由以下五个子系统组成:
1、舆情规划子系统。确定监控的主题,设定监控的对象(国内主要网站、论坛、博客)。日常一般设置为本部门的机构名称或部门领导名字即可;在舆情爆发期,可根据舆情主题关键词来进行设置,准确捕获舆情动态信息。
2、舆情收集子系统。从指定的所有监控对象中,实时自动获取指定主题的网页信息,存入本地信息库中。
3、舆情分析子系统。对信息库中的所有信息,实时分析处理,包括主题识别、信息分类、数量统计、重要性分级,同时通过与之前信息分析结果相比较,自动研判相关舆情的主题及热度变化趋势。
4、舆情控制子系统。实现舆情预警通报、应急方案制定、部门应急联动等管理内容。通过设定一定阙值,超过阙值范围系统自动报警,继而引入人工干预,启动政府应急方案。
5、舆情评估子系统。主要是舆情事件的事后分析备案和总结,为舆情监控系统的优化及应急预案评估和修订提供参考依据。
系统总体框架图示如下:
三、监测系统实现的关键技术
针对上述舆情监测系统各部分的功能组成,结合系统总体框架图,下面我们详细介绍各功能的关键技术实现。
3.1Web信息采集技术
选定监控目标对象集(网站、论坛、博客等信息来源地址),设置主题关键词,进行信息捕获并存入舆情信息库。采集技术利用搜索引擎中的网络爬虫技术,根据http协议检索Web文档信息,自动提取网页,实现对主题网页的抓取。采集时需关注三个方面的策略问题:
在采集效率上,为保证舆情监控的实时性,可根据需要设定下载网页的层数,同时实现多对象、多线程并行采集。其次,为避免因抓取速度过快、抓取频度过高造成目标网站服务器拒绝服务的问题,需根据目标网站的下载速度决定下载的线程数及请求的频率。最后,初次遍历目标对象后,下次遍历时,只需对新更新的页面进行下载,提高效率。
在采集算法上,通过引入具有页面采集顺序及主题相关性识别机制的主题网络爬虫技术,定向抓取目标网页资源。它主要基于Web页面间链接结构的分析确定页面的重要性,进而决定采集顺序的策略。通常认为有较多入链或出链的页面具有较高的价值。Page Rank和Hits是其中具有代表性的算法[2]。著名的GOOGLE搜索引擎就是使用这一算法。
在采集周期上,需根据目标网站的信息量、访问量、信息更新频率等因素自动设定信息采集的周期,例如新闻类网站的更新频率(以分钟或小时计算)高,抓取的间隔时间就要短些。
3.2Web文本预处理技术
在信息分析之前,需要对搜集到的所有网页进行去重、内容提取、中文分词、文本特征提取等预处理工作,为下阶段的舆情信息分析做好基础工作。
3.2.1网页内容提取技术
与普通文本相比,网页包含了除正文以外的大量其他信息,如广告链接、网页格式标记等。与传统数据库中的结构化数据相比,网页上多是无结构或半结构化的信息,其数据格式多样化,格式信息和内容数据参杂在一起,因此需要提取网页中的正文内容,再进行后续的内容分析。具体过程为:对通篇文档进行HTML源码扫描,提取网页中的3种信息:
1)文档标题:通过提取出置标命令〈Title〉与〈/Title〉之间字串而得到;
2)文档内容:通过提取出置标命令〈Body〉与〈/Body〉之间所有正文文本得到;
3)新的链接:通过提取出置标命令〈Ahref =“字串” 〉中引号部分的字符串得到;
设置一些字符串变量,如STR:存储HTML文档中的正文部分;TitleStr:存储标题部分的内容。过滤掉如“<script>”和“</script>”之间字符串(一般是系统函数或者过程),“<style>”和“</style>”之间的字符串(一般是对于页面风格的设置)等不需要的信息。最后,将Titlestr和STR输出,就可以得到网页标题及正文信息 [3]。
3.2.2文本分词技术
文档内容提取完成后,就可以开始进行分词处理。文本分词是信息相关度和重要性分析以及文本特征表示的基础,原理是将一篇文档转化为词库的形式。建立停用词表,去除相关停用词。分词方法主要有下面3种:
基于规则的分词方法,又称机械分词方法,是按一定的算法从待分析的文本中提取一系列的字符串,依次与预先建立的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。其局限性在于词典的完备性。
基于统计的分词方法,是基于(两个或多个)汉字同时出现的概率,通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的学习,从而获取该类文本的某些整体特征。
基于理解分词,又称知识分词,是一种理想的分词方法,利用句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,找到最贴近于原句语义的分词结果。
3.2.3文本特征抽取
文本特征抽取是信息分析的关键,将文本通过一定模型进行表示,挖掘信息隐含语义特征,从而达到文本标识的目的。文本特征是指关于文本的元数据,特征表示是指以一定特征项(如词条或描述)来代表文档,在文本分类或聚类时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤[4]。
特征表示模型有多种,常用的有布尔逻辑模型、概率型、向量空间模型(Vector Space Model,VSM)等。近年来应用较好的是向量空间模型,其基本思想是将文本看作特征词的集合,并使用特征词的加权向量表示文本,将文本转换成易为数学处理的向量模型,使得文本相似运算和排序成为可能。
具体处理过程为:从文本中提取可以代表文本内容的若干关键词(t1,t2,t3,…..,tn)作为特征词,根据特征词在文本中的重要程度,给每个特征词赋予一个权值Wi。若一篇文本用N个特征词来表示,则可构造一个N维的向量空间,每个特征词所对应的权值Wi即为该文本在向量空间中对应维的向量分量,即将文本表示为一个特征向量(W1,W2,W3,……,Wn)。
由于Web文本的数据量非常大,表示文本的特征向量的维数很大,可能会达到几万维,如此高维的特征空间会使一些挖掘算法无法进行或效率很低,实际运用中还需要对特征空间进行降维处理。
3.3舆情信息分析跟踪技术
3.3.1话题识别及跟踪技术
话题识别与跟踪(TDT)通过监测目标网站的信息,实现对舆情新话题的自动识别和对已知话题的动态跟踪。包括5个方面工作:报道切分、话题关联识别、新话题发现、话题识别和话题跟踪[5]。
报道切分是从一个信息源获得的信息流切分为多个不同的话题相关的文档。
话题关联识别用于判断两篇文档是否描述了同一个话题,多个文档对按时间排序,顺序处理。
新话题发现是对信息流中的每篇文档,顺序判断其内容是否描述了一个新的话题,即是否为该信息流中描述某个话题的首篇文档。新主题的识别是话题发现的第一步工作,被认为是TDT中最有难度的任务。
话题识别是对信息流建立一个簇划分系统,簇内所有文档描述同一话题,由新主题发现和话题追踪两方面技术共同实现。
话题跟踪是给出一组种子报道,训练得到话题模型,然后在后续报道中发现与这个话题相关的所有报道。
3.3.2 文本情感倾向分析
网络文本的倾向性分析就是挖掘网络文本内容蕴含的各种喜好态度、情感等非内容信息。由于网络的虚拟性和匿名性,使得网络舆情在大多数情况下真实地表达出了民众的态度和情绪。通过倾向性分析可以明确网络传播者的意图和倾向,可以判断某一信息属于正面信息还是负面信息,例如若是针对政府某部门或某领导的负面信息,系统自动报警,从而使相关部门及时了解网情,做好应对措施。
当前流行的语义倾向性分析系统可以分为2个步骤,首先是识别词汇的语义(短语)倾向性,然后利用不同的策略,根据词汇(短语)的倾向性给出整篇文本的语义倾向评价。目前主要有两种研究思路。第一种,是对所有词汇的倾向性评分进行统计求和,根据最终的得分正负来评价文本的倾向性。第二种,是采用机器学习的方式根据词汇的倾向性训练出语义倾向分类器,这是目前比较流行的思路,总体效果比统计求和要好。
四、结 语
本文阐述了政府网络舆情监控系统的实现,主要从监控流程、总体框架、关键技术三个方面对舆情监控系统进行了全面的解构。舆情监控的关键技术涉及信息检索学、自然语言处理、Web信息搜索、数据挖掘、信息学等多个领域,其算法和模型的研究又是具体技术实现效果的关键。舆情监控系统实际运行中具体效果的评估及技术改进,是今后进一步研究的方向。
参考文献:
【1】 2009年中国互联网舆情分析报告 http://yq.people.com.cn/htmlArt/Art392.htm
【2】 刘世涛.简析搜索引擎中网络爬虫的搜索策略【J】 阜阳师范学院学报(自然科学版) 2006(9)
【3】 苏芳仲,林世平. Web文本挖掘中的一种中文分词算法研究及其实现【J】 福州大学学报(自然科学版)2004(12)
【4】胡静,蒋外文,朱华. Web文本挖掘中数据预处理技术研究【J】 现代计算机 2009(3)
【5】张压,刘云. 话题识别与跟踪技术的发展与研究【J】 北京电子科技学院学报 2008 (6)
互联网以其便捷、虚拟化、传播快等特点使大众更乐于通过网络方式发表各自看法,形成网络舆情。政府通过构建网络舆情系统,及时了解社情民意,主导网络舆情。本文从网络舆情系统技术实现方面,介绍了舆情系统进行舆情收集、分析、预警、报告的整个过程,详细论述各个过程实现的关键技术,从而为理解和构建政府舆情监控系统提供参考。
关键词:网络舆情;舆情监控系统;电子政务
[1] Realization of the government network monitoring system based on publicopinion
MeiSong
(Information and Network Center, Hubei PartyInstitute & Hubei Administration Institute , Wuhan 430022)
Abstract: People are more willing to expresstheir views through the network for its convenience, virtualization, spreadquickly.So It is easy to form a network public opinion. Through building anetwork monitoring system for public opinion, the government can keep abreastof public sentiment and lead the network of public opinion.Based on the implementation technology of government network monitoring system, thisarticle describes the whole process applications of the system and discusses indetail the key technologies of each process, so as to provide a reference for understandingand building the government network public opinion monitoring system.
Key words: Internet public opinion;Network public opinion monitoring system;E-government
一、我国网络舆情现状及对政府的影响
1.1网络舆情现状
近两年网络热点事件爆发频繁,主要有三个方面的原因:一是网民人数增长迅速,据中国互联网信息中心今年7月发布的第26次互联网发展状况统计报告显示:截至2010年6月30日,中国网民规模已达到4.2亿人,普及率达到31.8%,从而扩大了网络舆情形成的基础。二是网络的虚拟化、即时性、传播快的特点,使其成为社情民意的首选表达平台。三是在世界金融危机的背景下,中国改革近30年经济增长和社会转型所积累的各种矛盾而引发的现实问题倾向于通过网络凸显,如果控制不当容易导致现实事件的激化态势。2009年网络热点事件为数众多。根据对五大网络社区热点事件发帖数量的统计,发帖超过5000份的热点事件有16项(见表1),其中发帖过万份的事件有5项 [1]。[2]
表1:2009年度网络热点事件排行榜
事件/话题
天涯社区
凯迪社区
强国论坛
新浪论坛
中华网
论坛
合计
1
湖北巴东县邓玉娇案
5260
7390
2390
3086
7007
25133
2
重庆打黑风暴
8790
2109
1345
1578
6157
19979
3
云南晋宁县“躲猫猫”事件
4682
2536
598
5011
2151
14978
4
上海交通管理部门
“钓鱼执法”
3959
1300
753
5123
318
11453
5
网瘾标准与治疗
4997
923
425
3978
776
11099
6
强制安装“绿坝”软件
起争议
4570
1952
899
956
639
9016
7
杭州市飙车案
2849
1720
223
1502
1201
7495
8
吉林通钢暴力事件
605
573
1719
882
3276
7055
9
长江大学三学生舍身救人
3723
211
953
784
688
6359
10
央视曝光谷歌涉黄
3467
1120
437
683
375
6082
11
河南农民工“开胸验肺”
1899
873
656
973
1427
5828
12
贾君鹏红遍网络
3818
398
103
1066
337
5722
13
郑州市副局长“替谁说话”
1435
918
2090
453
489
5385
14
昆明“小学生卖淫”案
3156
1060
223
351
498
5288
15
成都“6。5”公交车燃烧事件
2108
862
56
869
1284
5179
16
河南灵宝市跨省抓捕
王帅案
1670
1570
206
653
905
5004
17
99%访民“精神病”说
1849
1480
483
471
527
4810
18
罗彩霞被冒名顶替上大学
2516
721
178
529
652
4596
19
贵州习水县嫖宿幼女案
1842
782
116
611
961
4312
20
湖北石首市骚乱
772
1210
270
1267
585
4104
1.2网络舆情对政府形象的影响
从表格数据可以看出,当前形成网络舆情的热点事件呈现两个方面的特点:一方面,事件主要涉及公民权利保护、公共权力监督、公共道德伸张等一系列重大社会公共问题,往往反映的是负面信息。另一方面,排名前20位的事件中,与政府直接相关的有15件,占总事件数的75%,其中负面事件14件,占政府事件总数的93%。说明当前受大众最为关注的热点事件往往反映的是政府的负面信息,直接影响了政府及领导干部的形象。
十六届四中全会在《中共中央关于加强党的执政能力建设的决定》中提出:“高度重视互联网等新型传媒对社会舆论的影响,加快建立法律规范、行政监管、行业自律、技术保障相结合的管理体制,加强互联网宣传队伍建设,形成网上正面舆论的强势。”“建立舆情汇集和分析机制,畅通社情民意反映渠道”,把建立和完善舆情信息汇集和分析机制作为一种制度性的设计和安排,标志着党对舆情研究重要性的进一步认识。
随着网络媒体逐渐成为反映社情民意主要载体,网络舆情已经越来越成为政府各部门关注的焦点。舆情监控系统的构建为政府相关部门提供了智能化全时段的电子监控技术,信息主管部门可用其跟踪网络热点事件、主导网络文化阵地。对公职能部门可利用它实时监控网上对本部门的相关信息,随时获知公众对本部门的意见或看法,对于不利于本部门的负面信息给予自动报警,即时分析处理,判别事件处理优先级,作出相应对策处理,缓解舆论压力,避免事态恶化,从而变被动为主动,维护政府部门的良好形象。
二、网络舆情监测系统的总体框架
网络舆情监测系统的功能包括:舆情规划、舆情收集、舆情分析、舆情控制、舆情评估。相应地分别由以下五个子系统组成:
1、舆情规划子系统。确定监控的主题,设定监控的对象(国内主要网站、论坛、博客)。日常一般设置为本部门的机构名称或部门领导名字即可;在舆情爆发期,可根据舆情主题关键词来进行设置,准确捕获舆情动态信息。
2、舆情收集子系统。从指定的所有监控对象中,实时自动获取指定主题的网页信息,存入本地信息库中。
3、舆情分析子系统。对信息库中的所有信息,实时分析处理,包括主题识别、信息分类、数量统计、重要性分级,同时通过与之前信息分析结果相比较,自动研判相关舆情的主题及热度变化趋势。
4、舆情控制子系统。实现舆情预警通报、应急方案制定、部门应急联动等管理内容。通过设定一定阙值,超过阙值范围系统自动报警,继而引入人工干预,启动政府应急方案。
5、舆情评估子系统。主要是舆情事件的事后分析备案和总结,为舆情监控系统的优化及应急预案评估和修订提供参考依据。
系统总体框架图示如下:
三、监测系统实现的关键技术
针对上述舆情监测系统各部分的功能组成,结合系统总体框架图,下面我们详细介绍各功能的关键技术实现。
3.1Web信息采集技术
选定监控目标对象集(网站、论坛、博客等信息来源地址),设置主题关键词,进行信息捕获并存入舆情信息库。采集技术利用搜索引擎中的网络爬虫技术,根据http协议检索Web文档信息,自动提取网页,实现对主题网页的抓取。采集时需关注三个方面的策略问题:
在采集效率上,为保证舆情监控的实时性,可根据需要设定下载网页的层数,同时实现多对象、多线程并行采集。其次,为避免因抓取速度过快、抓取频度过高造成目标网站服务器拒绝服务的问题,需根据目标网站的下载速度决定下载的线程数及请求的频率。最后,初次遍历目标对象后,下次遍历时,只需对新更新的页面进行下载,提高效率。
在采集算法上,通过引入具有页面采集顺序及主题相关性识别机制的主题网络爬虫技术,定向抓取目标网页资源。它主要基于Web页面间链接结构的分析确定页面的重要性,进而决定采集顺序的策略。通常认为有较多入链或出链的页面具有较高的价值。Page Rank和Hits是其中具有代表性的算法[2]。著名的GOOGLE搜索引擎就是使用这一算法。
在采集周期上,需根据目标网站的信息量、访问量、信息更新频率等因素自动设定信息采集的周期,例如新闻类网站的更新频率(以分钟或小时计算)高,抓取的间隔时间就要短些。
3.2Web文本预处理技术
在信息分析之前,需要对搜集到的所有网页进行去重、内容提取、中文分词、文本特征提取等预处理工作,为下阶段的舆情信息分析做好基础工作。
3.2.1网页内容提取技术
与普通文本相比,网页包含了除正文以外的大量其他信息,如广告链接、网页格式标记等。与传统数据库中的结构化数据相比,网页上多是无结构或半结构化的信息,其数据格式多样化,格式信息和内容数据参杂在一起,因此需要提取网页中的正文内容,再进行后续的内容分析。具体过程为:对通篇文档进行HTML源码扫描,提取网页中的3种信息:
1)文档标题:通过提取出置标命令〈Title〉与〈/Title〉之间字串而得到;
2)文档内容:通过提取出置标命令〈Body〉与〈/Body〉之间所有正文文本得到;
3)新的链接:通过提取出置标命令〈Ahref =“字串” 〉中引号部分的字符串得到;
设置一些字符串变量,如STR:存储HTML文档中的正文部分;TitleStr:存储标题部分的内容。过滤掉如“<script>”和“</script>”之间字符串(一般是系统函数或者过程),“<style>”和“</style>”之间的字符串(一般是对于页面风格的设置)等不需要的信息。最后,将Titlestr和STR输出,就可以得到网页标题及正文信息 [3]。
3.2.2文本分词技术
文档内容提取完成后,就可以开始进行分词处理。文本分词是信息相关度和重要性分析以及文本特征表示的基础,原理是将一篇文档转化为词库的形式。建立停用词表,去除相关停用词。分词方法主要有下面3种:
基于规则的分词方法,又称机械分词方法,是按一定的算法从待分析的文本中提取一系列的字符串,依次与预先建立的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。其局限性在于词典的完备性。
基于统计的分词方法,是基于(两个或多个)汉字同时出现的概率,通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的学习,从而获取该类文本的某些整体特征。
基于理解分词,又称知识分词,是一种理想的分词方法,利用句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,找到最贴近于原句语义的分词结果。
3.2.3文本特征抽取
文本特征抽取是信息分析的关键,将文本通过一定模型进行表示,挖掘信息隐含语义特征,从而达到文本标识的目的。文本特征是指关于文本的元数据,特征表示是指以一定特征项(如词条或描述)来代表文档,在文本分类或聚类时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤[4]。
特征表示模型有多种,常用的有布尔逻辑模型、概率型、向量空间模型(Vector Space Model,VSM)等。近年来应用较好的是向量空间模型,其基本思想是将文本看作特征词的集合,并使用特征词的加权向量表示文本,将文本转换成易为数学处理的向量模型,使得文本相似运算和排序成为可能。
具体处理过程为:从文本中提取可以代表文本内容的若干关键词(t1,t2,t3,…..,tn)作为特征词,根据特征词在文本中的重要程度,给每个特征词赋予一个权值Wi。若一篇文本用N个特征词来表示,则可构造一个N维的向量空间,每个特征词所对应的权值Wi即为该文本在向量空间中对应维的向量分量,即将文本表示为一个特征向量(W1,W2,W3,……,Wn)。
由于Web文本的数据量非常大,表示文本的特征向量的维数很大,可能会达到几万维,如此高维的特征空间会使一些挖掘算法无法进行或效率很低,实际运用中还需要对特征空间进行降维处理。
3.3舆情信息分析跟踪技术
3.3.1话题识别及跟踪技术
话题识别与跟踪(TDT)通过监测目标网站的信息,实现对舆情新话题的自动识别和对已知话题的动态跟踪。包括5个方面工作:报道切分、话题关联识别、新话题发现、话题识别和话题跟踪[5]。
报道切分是从一个信息源获得的信息流切分为多个不同的话题相关的文档。
话题关联识别用于判断两篇文档是否描述了同一个话题,多个文档对按时间排序,顺序处理。
新话题发现是对信息流中的每篇文档,顺序判断其内容是否描述了一个新的话题,即是否为该信息流中描述某个话题的首篇文档。新主题的识别是话题发现的第一步工作,被认为是TDT中最有难度的任务。
话题识别是对信息流建立一个簇划分系统,簇内所有文档描述同一话题,由新主题发现和话题追踪两方面技术共同实现。
话题跟踪是给出一组种子报道,训练得到话题模型,然后在后续报道中发现与这个话题相关的所有报道。
3.3.2 文本情感倾向分析
网络文本的倾向性分析就是挖掘网络文本内容蕴含的各种喜好态度、情感等非内容信息。由于网络的虚拟性和匿名性,使得网络舆情在大多数情况下真实地表达出了民众的态度和情绪。通过倾向性分析可以明确网络传播者的意图和倾向,可以判断某一信息属于正面信息还是负面信息,例如若是针对政府某部门或某领导的负面信息,系统自动报警,从而使相关部门及时了解网情,做好应对措施。
当前流行的语义倾向性分析系统可以分为2个步骤,首先是识别词汇的语义(短语)倾向性,然后利用不同的策略,根据词汇(短语)的倾向性给出整篇文本的语义倾向评价。目前主要有两种研究思路。第一种,是对所有词汇的倾向性评分进行统计求和,根据最终的得分正负来评价文本的倾向性。第二种,是采用机器学习的方式根据词汇的倾向性训练出语义倾向分类器,这是目前比较流行的思路,总体效果比统计求和要好。
四、结 语
本文阐述了政府网络舆情监控系统的实现,主要从监控流程、总体框架、关键技术三个方面对舆情监控系统进行了全面的解构。舆情监控的关键技术涉及信息检索学、自然语言处理、Web信息搜索、数据挖掘、信息学等多个领域,其算法和模型的研究又是具体技术实现效果的关键。舆情监控系统实际运行中具体效果的评估及技术改进,是今后进一步研究的方向。
参考文献:
【1】 2009年中国互联网舆情分析报告 http://yq.people.com.cn/htmlArt/Art392.htm
【2】 刘世涛.简析搜索引擎中网络爬虫的搜索策略【J】 阜阳师范学院学报(自然科学版) 2006(9)
【3】 苏芳仲,林世平. Web文本挖掘中的一种中文分词算法研究及其实现【J】 福州大学学报(自然科学版)2004(12)
【4】胡静,蒋外文,朱华. Web文本挖掘中数据预处理技术研究【J】 现代计算机 2009(3)
【5】张压,刘云. 话题识别与跟踪技术的发展与研究【J】 北京电子科技学院学报 2008 (6)