基于若干技术的舆情监控系统的设计与实现

来源：99网

基于若干技术的舆情监控系统的设计与实现　徐（同济大学软件学院宁　上海２０１８００）　［摘要］通过有针对性地对互联息进行过滤、整理、分析，及时发现危害、扰乱社会秩序、图谋实施犯罪等有价值的信息，从而及时预防、制止　不法活动的发生，有效打击犯罪，为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究，实现网络舆情的系统监控，及时准确地有针　对性的获取相关信息，从而发现、掌握特定的动态信息，为国家决策部署提供有力的依据　［关键词］爬虫；中文分词；信息指纹；信息抽取　中图分类号：，ＴＰ３１１．５２　文献标识码：Ａ　文章编号：１００９—９１４Ｘ（２０１５）０５—０１２８—０１　２．２中分分词　引言　随着网络技术的推陈出新，除了网络新闻、网络论坛等传统应用外，又出现　现有的分词算法可分为三大类［２ｏ］：基于字符串匹配的分词方法、基于统计　了博客（含微博）、维基、聚合新闻、等新形态的信息交互模式。范围广、交互性　强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系，是　对传统新闻媒介的传播模式的解构和。互联息内容庞杂多样，既有大　量进步、健康、有益的信息，也有不少反动、迷信、黄色的内容。互联网作为一块　正在加速膨胀的思想阵地，加上其虚拟性、隐蔽陛、发散性、渗透性和随意性等　特点，越来越多的人们愿意通过这类渠道表达自己的个人想法，因此网络舆情　的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。有关如何控制、　规范互联息，成为技术难点。　１．舆情监控系统架构设计　１．１舆惰监控系统工作流程　１、给爬虫配置爬取网站的地址、爬虫参数，如：要爬取的网站入口、轮循间　隔，爬取线程、爬取深度等参数。　２、爬虫根据地址爬取数据，这时的数据缓存在爬虫服务器中，成为待处理　数据。　３、中文分词　４、信息抽取　５、提取信息指纹去重　６、语意指纹提取　７、摘要生成　８、索引入库　９、聚类、趋势分析　ｌ０、提供ＷＥＢ、提供客户检索服务　１　２舆情监控系统架构　信息层：分布在境内外的互联息。如：Ｑ（　群、动态网、新闻、博客、论坛。　采集层：爬虫通过分布式并发采集、多线程采集快速采集互联网舆情信息　加工层：分词、信息抽取、提取信息指纹去重、语意指纹提取、摘要生成。　数据存储中心：海量信息分布式存储和并发存取。　用户层：提供模糊检索、高级检索等多种特征检索、智能检索方式、聚类和　趋势分析。　２．关键技术实现　２．１爬虫策略的革新　本系统采用多种机制革新爬虫工作方法，要求舆情能在网络舆情产生之后　第一时间采集下来。同时采取多种机制保证爬虫爬取数据的完整性，保证采集　数据的完整性，做到不漏采集、不重复采集、避免死链采集，从而保证及时采集。　１、广度优先采集　爬虫支持任意数量和深度的抓取，采用广度优先策略。广度优先搜索策略　是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。　２、快速爬取　爬虫根据网页链接爬取数据，通过精确配置爬虫抓取模板参数，只采集指　定层级的网站链接，实现爬虫资源的最大优化。　爬虫在数据爬取的过程当中，可以自定义针对特定站点的爬取多少及爬取　的速度进行合理调配，这样，可以最大限度地使资源最大化。　３、按照模板爬取　要求爬虫针对常见的网站论坛使用不同的爬去模板进行爬取数据，有针对　性的优化爬虫效率。　为了更加合理地使爬虫爬取数据，￣ｉ－ｘ￣各不同的站点，定义了不同级别的　爬虫模板，可以根据站点的优先级，通过不同的模板设置更新频率，　４、分布式爬取　针对不同的类型的网站使用多个爬虫分别爬取数据，录入更多带宽和硬件　资源，分配给更新比较快的负责爬取论坛的爬虫。　５、优先级爬取　不同类别的网站使用不同的优先级进行爬取数据。　根据不同的站点设置紧急、较急、一般等级别，可以设置不同的站点抓取站　点的导数，针对易发站点可以实时做到分钟级的更新。　１２８｛科技博览　的分词方法和基于理解的分词方法。　１、基于字符串匹配的分词方法　基于字符串匹配的分词方法，又叫做机械分词方法，它是按照一定的策略　将待切分的汉字串与分词词库中的词条进行匹配，若在词库中找到相应的词　条，则匹配成功。按照扫描的方向不同，基于字符串匹配的分词方法可分为正向　匹配分词方法和逆向匹配分词方法；按照不同长度优先匹配的情况，又可分为　最大匹配和最小匹配。　‘　２、基于统计的分词方法　基于统计的分词方法的基本原理：从形式上看，词是稳定的字的组合，因此　在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与　字相邻共现的频率或概率能够较好地反映成词的可信度。　３．基于理解的分词方法　基于理解的分词方法是通过计算机模拟人对句子的理解，达到识别词的效　果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信　息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控　部分。　（１）信息抽取　在互联网中，信息的数量很多，但是这些信息的数据质量相对较低，一般只　能用于浏览或者搜索。我们需要把这些信息提取出来，构成结构化的信息，把他　们变成高质量的信息数据。将信息按照无结构到有结构来分，大致可以分为　Ｆｒｅｅ　ｔｅｘｔ－＞新闻组中的发帖（如寻友信息）或者是旅游记录一＞手工编写的　ＨＴＭＬ－＞ＣＧＩ生成的ＨＴＭＬ－＞ＸＭＬ－＞数据库。现有的针对ｗｅｂ进行信息抽　取的方法进行分类。则大致可以分成四类：手工编写的ＩＥ系统，需要指导的Ⅲ系　统、半指导的砸系统以及全自动的ＩＥ系统。　（２）通过提取信息指纹去重　信息指纹：就是提取全体文字信息内容，定义其关键字部分做为重点信息，　通常是一组词或者是一组词加上一组词出现的频率做为特征码，然后根据这组　词调用特别的算法，进行二次处理，得到相关结果，并将其定义成特征信息，做　为信息指纹，信息指纹的历史很悠久，但真正的广泛应用是在有了互联网以后，　计的好，任何两段信息的指纹都很难重复，主要取决于随机抽取的随机数的设　计问题，就如同人类的指纹一样。只要产生随机数的算法足够好，可以保证几乎　不可能有两个字符串的指纹相同，就如同不可能有两个人的指纹相同一样。由　于指纹是固定的１２８位整数，因此查找的计算量比字符串小得多。　（４）基于Ｌｕｃｅｎｅ的倒排索引　本系统为了快速提高检索效率，采用基于Ｌｕｃｅｎｅ的倒排索引技术。正常的　索引结构建立的是“文档到单词”的映射关系，在使用倒排索引技术后，建立的　是“单词到文档”映射关系，即关键词对应所有拥有这个关键词的文档编号列　表。其实可以这样理解，倒排索引就是描述一个词项集合（Ｔｅｒｍｓ）Ｎ素和一个文　档集合（Ｄｏｃｓ）对应关系的数据结构．通常仅记录关键词在哪些文章中出现还不　够，同时还需要记录关键词在文章中出现次数和出现的位置，这样做可以方便　快速获取查询记录的数目和对查询结果进行排序。　（５）采用Ｃａｒｒｏｔ２聚类　本系统为了监控敏感网站上都有哪些热点信息，采用聚类技术，技术实现　上采用基于Ｃａｒｒｏｔ２的聚类算法．　参考文献　…１王来华．舆情研究概论——理论、方法和现实热点［Ｍ】．天津：天津社会　科学院出版社，２００３：３．　［２】周如俊，陈天琪．网络舆情：现代思想政治教育的新领域［Ｊ］．思想理论　教育，２００５（６）：１２－１５．４．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文