Author: admin

甲鱼舆情监测软件 上海舆情监测

搭建教育类网络舆情检查项目的建设内容主要是什么?

教育舆情全流程监测平台从甲鱼数据中心获取全网互联网数据,经过筛选过滤和算法处理,保存数据到本地数据库。数据一方面可供用户检索,另一方面通过聚合运算,生成用户需要的统计数据。通过建设“重点+全面”相结合的舆情监测系统,对网站、论坛、博客、微博、微信、APP进行全面的巡查,及时掌握了解网上的新闻线索和新闻热点。通过建立科学、量化、规范的舆情监测体系,实现对重点舆情、专题事件提供多维度智能分析研判,并进行数据可视化展示,为天津教委提供及时、全面、科学、准确的信息支持。系统主要涉及以下内容: (1)互联网信息采集 主要实现: 个性化采集定制 互联网数据采集 多方位、全面采集数据 数据预处理 (2)文本挖掘和智能分析 主要实现: 数据清洗 自动分词 自动分类/聚类 数据标识 (3)舆情监测 主要实现: 舆情预警 线索订阅 舆情统计分析 热点事件分析 重点人物监控 信息巡查/检索 云搜索 舆情报告 (4)数据可视化 主要实现: 数据总览 舆情走势 区域热点 热点事件 重点人物 云词 可视化模板 (5)人工报告 按事件、周、月、季度、年、地域、教育院所等维度提供人工舆情报告服务,全面深入的进行舆情分析和舆情解读。 (6)舆情导控 导控任务概览 任务中心 执行任务 执行结果 任务审核 综合统计 (7)智慧采编 自动采编 智能组稿 传播测评 版权监控

搭建教育类网络舆情监测项目的项目总体设计

结合客户的实际需求,提供以数据服务+舆情本地化为平台的搭建方案: 1.部署本地化教育舆情全流程监测系统,舆情系统所有应用功能模块部署在客户的本地机房,后台数据处理模块部署在甲鱼的数据中心,甲鱼数据中心将处理后的数据推送到用户本地机房,最后在客户机房的WEB前端应用上进行数据可视化展示。 2.数据推送服务,根据客户配置的关键词和客户的具体需求,按年提供所需要的全网互联网数据,以数据API推送的方式对接到客户本地的数据中心,用于展现在舆情监测系统中。 本章节将分别从系统平台的总体架构及主要功能重点介绍本建设方案。 系统总体架构 教育舆情全流程监测平台需要以基础硬件为支撑,以海量互联网数据源为自采集对象,结合甲鱼数据平台数据,以标准、规范和安全体系为保障,提供互联网舆情信息的分析、展示、预警、数据管理于一体的舆情管理控制平台。 系统总体框架由硬件支撑层、数据存储层、数据处理层和公共安全应用层组成。采用面向服务的思想,利用松散耦合的分层方式将系统整体上分为四个层次和两个体系,各层间的界限清晰,功能明确而不交叉,具有较高的可配置性和伸缩性。 硬件支撑层 硬件支撑层所需设备主要由服务器(若干)、存储设备、路由器、网络、安全基础设备等构成,一般放置在信息中心的机房中,也可托管于运营商机房,为整个系统提供基础的硬件支撑。 数据存储层 数据存储层用于对数据中心的导入数据、采购数据、元搜索自采数据的存储和检索,包括结构化数据、非结构化数据和半结构化数据,涵盖了包括新闻、社交网站、论坛等全部数据类型,支持PB级的大规模数据进行存储,同时支持最少5000用户的请求并发。 数据处理层 数据处理层是整个后台工作的核心,包括了对数据的清洗,对数据的过滤机制的制定和策略,数据URL去重处理,数据高效降噪处理,以及其他清洗处理配置。同时可以进行数据处理策略的配置操作,包括智能任务分发,弹性处理配置,高效统一去重配置和数据交换配置等。 舆情应用层 舆情应用层是整个系统的核心,采用面向服务的思想,为用户输出舆情监测结果和用户对信息的查询、管理等任务。应用层由五大应用平台组成,包括舆情搜索展示平台、舆情管理工作台、应急导控处置平台、用户管理平台和通讯平台,利用Web Services技术为系统升级服务或为其他外部系统提供基于SOAP的远程方法调用接口,用以完成异构系统之间的数据交换和同步。 安全保障体系 从技术安全、运行安全和管理安全三方面构建安全防范体系,切实保护系统的可用行、机密性、完整性、抗抵赖性、可审计性、可控性。 本系统中安全保障措施包括: 指定保密协议和安全管理制度,项目组定期进行学习、培训和检查。 采用强大、稳定、可靠的Linux核心服务器。 采用VPN安全网络连接方式。各个系统用户与服务器连接均需采用VPN通道,首先保证系统连接安全。 应用系统的访问采用HTTPS加密传输协议。HTTPS在用户客户端和服务器间建立了一个信息安全通道,保证数据传输的安全,防止数据在中途被窃取,维护数据的完整性,确保数据在传输过程中不被改变。 用户采用认证登录的方式确保账号密码安全。只有输入正确的用户名、密码方可登陆。 系统保存详细操作日志,保证每一步操作皆有日志可查;同时保留操作内容,操作终端MAC、IP、操作账号、操作时间、在线时间等信息,做到万事皆有可查。 系统采用超时登录机制,一旦登录终端长时间(一般设定为15分钟)不对系统进行操作,则自动退出系统。 系统采用帐号(用户名)唯一登陆机制,同一个用户名在同一时间只能登陆一次,如果用户已登陆至系统,使用其他设备登陆时,已登陆系统将自动跳出。 使用防火墙、入侵监测设备、互联网行为管控设备等进行硬件层的安全防护,定期扫描服务器漏洞,安全配置等服务。

搭建教育类网络舆情监测项目的建设目标主要是什么?

教育舆情全流程监测平台是集监测、预警、分析、报告于一体的舆情大数据平台,实现舆情数据的采集与分析,并依托大数据进行舆情发展趋势分析,提升天津教委的舆情监控、预警和研判能力。互联网教育舆情大数据监测分析平台项目建设目标如下: 一是涉天津市各教育院所舆情信息监测服务及时、全面; 二是舆情预警及时、准确; 三是舆情分析多维、透彻,研判科学,报告报送及时; 四是应用前沿的大数据、人工智能技术,建设技术先进、性能优越的智能化教育舆情监测、分析、研判系统。 产品提供的服务具体如下: 1.全面满足用户舆情监测、舆情预警、专题分析、报告生成的需求; 2.定制监测功能适应不同用户个性化的舆情监测需求; 3.预警功能解决用户不能及时发现重大舆情的痛点; 4.一键生成报告,帮用户赢得宝贵的舆情应对时间; 5.对舆情的智能画像,满足用户从海量信息掌握人物、组织及主题关系需求; 6.实现对舆情发展趋势预测,辅助用户科学研判舆情发展趋势; 7.热点事件聚类分析,通过信息采集和分析与该事件相关的舆情信息,发现事件传播和发展脉络,明确各个参与主体的影响作用,评估各个参与主体的传播渠道,以及事件的影响力、参与者的情感分布、地域分布、男女比例等多项信息内容。让用户第一时间掌握当前事件的发脉络; 8.重点人物,发觉当前各媒体频道中重点的人物并对该人物进行人物画像和深度分析; 9.人工分析报告,解决机器报告解析深度和全面性的问题,使报告内容更全面,剖析更深刻; 10.舆情导控,科学的手段导控舆情发展,让网民更清晰的了解当前的舆情真相,可控的舆论引导,为客户提供舆情发展的导引策略; 11.智慧采编,快捷资讯摘选、多版式内容编辑、智能内容审核、多渠道内容发布,为用户带来智能、便捷的内容编辑系统。

网络舆情监测系统舆情服务系统方案建设说明

实现对互联网信息的全面监控,具备敏感词监控、图片识别、预警推送、舆情浏览、综合分析、事件分析、小视频监测等功能。 一.功能概述 全网监控 实现对互联网新闻、论坛、博客、平媒、视频、微博、微信、手机APP、小视频等互联网主流媒体的7X24小时监控。 全网采集 系统可以实现对全网的信息采集监测,能够国内主要新闻网站、论坛贴吧,微信微博、视频网站等网站的信息采集。 支持关键词匹配、标题匹配、内容匹配等组合进行采集。 支持关键词、主体词、事件词叉乘计算采集,采集的频率每10秒自动更新,7×24小时不间断采集。 支持新闻网站、论坛、博客、微博定向采集,同时可对网络大V,活跃个人微博进行定向添加采集。 定向采集 定向采集 系统支持对特定来源数据的定向采集,支持对指定域名、频道、账号的数据采集监控。 数据分析 实现舆情信息的综合分析,能够针对数据源、正负面信息、信息走势进行不同维度、不同时间区间的分析。 支持可视化展示,提供曲线图、扇形统计图等图形显示。 正负面判断 对任意新闻、博客、微博、论坛等互联网数据进行情感分析中表达情绪的正负面识别,以及对其发生事件的地域进行判断,并过滤掉历史、小说和广告等垃圾数据。 正负面统计 对事件相关或周期内的信息进行正负面统计。 区域分析 按照区域对负面信息进行统计,形成舆情地图。 数据源分析 实现对信息来源的分析,按照传播媒体分类统计周期内的信息。 数据趋势 实现对数据发展趋势的分析,通过历史搜集数据量生成数据走势图。 舆情首页 实现舆情工作台功能,实现对舆情概况的展现,并能够链接到相关功能模块。至少包括当日舆情信息、一周内信息走势、预警信息、最新热点、舆情简报等信息。 当日舆情实现当日系统所监测到的相关舆情信息展示,能够按照信息来源显示数量。 舆情走势:实现7天内舆情信息数量趋势分析的展示,支持图形显示。 预警信息:实现预警信息的实时展示。 最新舆情:实现最新发布舆情的实时展示。 实时热点:实现最新实时热点的实时展示 舆情日报:可查看近期的舆情日报。 微博观点:实现微博热门观点的实时展现。 预警弹窗:实现手机端预警弹窗功能。 舆情浏览 实现对国内重大新闻、论坛、微博、博客 进行全面监测,并可根据关键词筛选出有效信息。并新增图片采集功能。 支持不同专题的显示,各专题可分别设置关键词。 专题设置 专题设置支持自定义关键词设置,至少能够设置地域关键词、主体关键词、事件关键词三组关键词,关键词之间使用空格分割。 各组关键词组内支持“或”,组间支持“与”关系。 支持歧义词设置,包含歧义词的信息自动排除。 专题浏览 舆情信息可以按照预设的专题进行浏览,支持智能检索,支持全文、标题、来源、作者等筛选,支持模糊查询。 快速标记 支持对信息的快速标记,可以对浏览的信息逐条或批量进行正负面标注,并可以快捷“加入简报”、“加入预警”。 导航设置 实现专题的导航设置,可以将专题设为功能导航,进行快速浏览。 图片识别     可对图片上出现的文字进行解析,解析成文本文字,然后进行关键词匹配。 舆情预警 对全网信息的地域、语义、正负面的自动判断,实现敏感词的自动预警。 预警设置 支持自定义关键词,可根据需求添加、修改预警关键词,并能够按照不同专题进行关键词管理。…
Read more

品牌如何使用网络舆情监测软件监控网络舆情动态

随着大数据分析与舆情监测的快速发展,企业品牌对网络舆情服务越来越重视,优秀的口碑营销利于传播,而较多的危机舆论则会对品牌产生一定的影响,品牌也在加速的成长,经过验证,好的商业模式以及风口立马会被资本所青睐。 资本就好比加速器,有了介入就可以迅速的扩张,占领市场更多的份额,但是在市场快速迭代的时候,品牌总会遇见大大小小的口碑问题,作为企业PR,如何站在品牌的角度面对这些口碑问题轻松解决?今天甲鱼结合自身经验加以分析。 首先做PR基本就需要有有三大职责与能力: 1.新闻压制,对那些抹黑品牌的客户,或者恶意攻击的客户,我们要快速的对负面消息做出回应的职责与能力。 2.新闻删除的能力,如何通过沟通或者渠道,将一些搬弄是非,扭曲事实的信息快速处理掉的能力。 3.新闻宣传的能力,品牌新闻稿在品牌不同的阶段发布在什么样的平台,面对什么样的受众,个人识别与分析的能力。 1-巧妙借助舆情监测软件- 那么品牌在初期,可能不会用到舆情软件系统的监测,当品牌到达一定的用户量规模的时间,通常是品牌在百度系,或者搜狗系建立了自己的品牌矩阵的时候,则要引入品牌舆情监测软件。 什么是舆情软件: 原来曾是政府,通过利用采购计算机软件的办法,对新闻网站,论坛,博客,用大数据抓取的形式,实施检测,采集与品牌相关的数据与关键舆论,现在也多用去大型企业,上市公司,或者面对c端消费者较多的品牌等。 也可以这么理解: 利用这个舆情软件,可以自动分析与品牌相关的舆情信息的发展趋势,舆情信息的首发网站,作者,转载情况,热度变化,评估干预,处理舆论之后的效果等。 2 -对舆情软件的错误理解- 1.网络舆情监测软件没有太大价值 对于刚接触舆情监测软件的朋友,或者新入门的PR,有些可能会理解差异的觉得,舆情软件没有太大价值,这种的想法其实是相当落伍的。 现在的互联网产业的出现,社交媒体也是万象更新,整个市场随时都在发生变化,舆情危机爆发速度越来越快,一条信息,一个视频,同时爆发时效短,舆论发展快,而且媒介越来越小众化,削弱化,企业就会无法及时获取信息,而造成处理问题之后,严重影响顾客体验,造成没必要的舆论行为。 企业或者如果不重视消费者的体验与感受,消费者在网上散布相关体验不好的信息,就会给品牌带来危机,舆情监测软件的目的,就可以利用数据,快速,准确的在网上找出舆论的发生点,利于企业快速处理。 2.舆情软件就是监测企业本身 较多的企业认为,运用舆情监测软件,往往只关注自身的片面信息,其实这样会造成舆论监测的结果有偏差,这是因为不能够清楚认识到舆情监测的范围。 现在的舆情监测软件基本可以覆盖,微信,新闻,微博,论坛,短视频,问答平台,APP等,靠大量的数据支撑,企业可以获取更高更远的认识,不仅能了解自身情况,还可以了解到竞争对手的动态,舆论,做到整个大环境,整个垂直领域的深入,全面,快速认识。 3.依靠人工搜索就可以胜过舆情监测软件 很多的较大品牌,或者企业,都会设定专门负责舆情监测和采集的工作,较小的企业可能就是PR自己在操作,要么选择乙方妈妈协助,签约一个年度的合作框架。也有很多的老板对舆情监测软件理解有误,认为人工搜索就可以完成这项工作,而且还要根据人工搜索的结果写出舆情报告。 其实这种工作方法不仅效率不高,而且分析的不一定全部合理,能不能帮助品牌或者企业完成工作,也是一码事。现在很多的舆情监测软件,不仅仅能监测媒体,论坛,甚至社群也可以覆盖,而且乙方还会配合专业的人给予报告解析和合理化运营建议。 4.舆情监测软件就可以解决所有问题 其实这也是一种误导,舆情监测软件的目的是为了更合理的监测品牌以及企业在社会上产生的舆论,以及危机的预警,并不是靠软件来解决问题,软件只是为了更直观的找到问题的发生根本点,提高效率,减少沟通成本,快速解决。 5.舆情监测=舆情监控 舆情监测系统是通过抓取网络公开可见的言论信息数据,分析并总结隐藏数据背后的含义。企业网络舆情监测一方面是为了帮助企业早日发现舆情,为后续处理争取足够多的时间,另一方面让品牌或者企业能够全面掌握舆情的形式,为回应对策提供充分的依据,监测等于检查。 3-监测到舆情怎么办- 舆情软件跑出来的数据,每周,或者每月都可以利用报表的形式进行展现,那么PR团队假设遇到危机言论,或者中性言论该如何进行有效的处理,甲鱼结合自身经验进行分析如下: 1.小型危机言论(出自微博 或者论坛) 如果是自媒体,这样的行为,通过数据的抓取,可以有效的查找到源发出地址,以及联系人,PR团队可以积极与自媒体进行有效的沟通。 如果是传统媒体,或者论坛,这样的行为,PR团队一方面通常采用的是积极沟通,沟通无果直接交给第三方,乙方妈妈处理。 2.转载过多的舆情文章 假设一篇文章,通过跑数据的形式,可以看出转载超过20或者30个媒体以上,那么这种行为,查看源发地址是哪里,假设是中性媒体,或者地方站,PR团队如果交给乙方去沟通处理的成本过高,可以采用新闻压制的形式,做一次口碑营销,大量的针对关键词进行发稿,SEO优化即可。 3.大型危机事件 这个相对来讲,大家都不是很陌生,一个文章,一个短视频瞬间爆发,一定是有原因所在,企业或者品牌遇到这样的问题,第一时间,成立危机小组,分工明确,找到源文章或者视频的主人,或者媒体,积极沟通,第二时间,调查具体造成的情况,第三时间,主动回应,主动回应不是逃避问题,而是针对问题做出合理的解释以及未来如何改成。第四时间,在处理完后,积极做正向新闻的传播。 4-什么企业适合使用舆情监测- 舆情软件相对来讲乙方公司运用居多,也是必不可少的一部分,帮助甲方去分析数据以及舆论,个人认为甲方公司,如果品牌处于初期,A轮,或者刚B轮这样的阶段,可以不去直接购买舆情软件,这个事情可以交给乙方SEO公司去做。当品牌足够大时候,B轮+以上,自己公司直接购买,引入较为方便。 同时较大的企业是必不可少的,还有一种情况是,公司的子品牌较多,有生态链板块,那么母公司就要有舆情监测软件了,监测到整个生态链,子项目的数据也是非常的重要。 关于舆情软件的价格,市场上的种类有很多,有的按照年计算,有的按照次数,使用几次,有的按照监测的关键词,希望以上对您在PR发展上有所帮助。 写在最后: 舆情监测不是孤立存在的,监测不是目的,管理品牌形象才是最终目标。因此对网络舆情进行监测之后还要加以管理,包括对监测到的数据的分析研判,对危机事件的应对处理,对品牌形象的维护升级。

甲鱼网络舆情监测系统可以监测网络历史数据吗?

这几年来,一直有客户在问小编,请问一下你们公司的网络舆情监测系统可以监测出2016年我们公司关键词在互联网上面的所有数据吗?小编就表示很疑惑,这个不是很简单的事情吗?为什么会有这么多客户来问小编这个问题呢?小编最近做了一个市场调查,原来其他公司都没有保持网络上面的历史数据,他们最多保存了网络上面的近3个月的数据,因为网络舆情监测系统是全量采集网络上面的所有数据的,如果要保存历史几年的网络上面的数据,这个需要投入大量的服务器,要有一个或者多个足够大的数据仓库。而且还需要大批量的人力技术来维护这个大数据仓库跟这些数据。一般的小公司是没有办法实现这个功能的。而且市场上面目前只有甲鱼网络舆情监测系统软件有做这一块的功能,甲鱼网络舆情监测系统从2014年就开始存储网络上面的所有数据,而且不只是存储数据的快照,而且把所有的数据都爬到我们的数据仓库,然后在存储数据全量。目前数据仓库中有数万亿条数据。而且这个数据还在不断的增加。 其实网络舆情监测系统是没有办法监测网络上面历史几年的数据,因为这几年发生了太多的事情,网络舆情监测系统就是一些爬虫去爬网络上面的数据,就好像百度搜索引擎也不会去爬几年前的网络上面的历史数据, 因为爬虫没有办法判断这些数据到底是什么时候发布的,到底是几年前,还是最近发布的。这个不仅仅是一个简单的技术问题,还是一个复杂的算法问题,这个涉及到快照问题。百度会快照存储功能,爬虫也有快照功能。 你如果要找网络历史数据,只有去找那些已经存储了网络历史数据的公司,而不是去找爬虫去爬,这样是爬不出来的,爬出来的数据也是非常不可靠的。

用网络舆情监测软件来评估哪家机构高考命题更准?

今天,小编看到了各省的高考语文作文题的题目成为了网络上面的热点话题,那么过几天肯定会出现这样的热点话题,某某某教育机构出现的高考命题命中了今年的高考作文题,命中了今年的某某题,命中率多少多少等等,那么这个教育机构的话你信吗?反正我比较怀疑,如果不信的朋友,咱可以用网络舆情监测软件来评估一下,到底这些教育机构说的话到底靠不靠谱。 到底该如何用网络舆情监测软件来评估教育机构是否命中今年高考的某些考题呢? 首先,你得找一个有存储网络上面历史几年网络数据的网络舆情监测软件,这家舆情监测软件可以精准的监测网络上面的数据,无漏网之鱼,那么你可以有2种方法来精准监测: 方案一:你可以拿高考的真题去做关键词分析,监测,看看到底有哪几家教育机构的押题内容有在被监测的范围之内。这样可以精准的看出到底哪家教育机构实力比较强。当然这个只是一个实验,可能很多教育机构没有把他的押题卷放到网络上面,这样就没有参与评估了,这个一般都是由教育单位做的监测实验。 方案二:你可以拿网络舆情监测软件去监测某个单位的所有网络上面的公开押题卷,再把监测出来的内容去跟高考考题核对、评估、看看这样的精准率高不高,这个一般都是由教育机构自己做评估,或者对他们的竞品做评估等。但是这样存在着很大的水分,你懂的。

搭建教育类平台网络舆情监测项目系统部署与软硬件配置

本项目采用本地化部署模式,即舆情监测系统本地部署,同时依托数据平台进行数据推送服务的提供,用户可以根据自身项目投入、信息化水平、安全性等多方面的需求进行软硬件选择。 5.1本地化部署模式 5.1.1本地化部署模式介绍 舆情监测系统所有的功能模块均部署在客户的本地机房,数据处理后台及文本处理模型等均由甲鱼的数据中心进行服务。客户的自采数据经过对接后进入甲鱼的数据中心,同时结合甲鱼自有的数据,在甲鱼的数据中心进行数据的处理服务,最后将处理结果返回到客户机房的舆情监测应用上。 5.1.2硬件配置说明 20台物理机,具体配置如下: 存储:>2T SSD CPU:2路14核CPU 内存:256G 5.25.35.3.15.3.25.3.3硬件配置及投资估算 序号 分项 功能描述 单价 数量 小计 备注 1 服务器 用于应用部署、数据处理、数据检索、数据分发 – – 此项为估算价格,具体以市场价格为准 4 合计 – 5.3.4软件配置及投资估算 序号 分项 功能描述 单价 数量 小计 备注 1 教育舆情全流程监测平台 舆情监测、重点人物监测、研判、报告等 – 1 – 按客户每套计算 2 互联网舆情数据服务 – 1年 – 3 平台运维 远程季度巡检,远程培训,升级,补丁等 – – 第一年免费,第二年及以后年度每年按平台费用的10%收取 4 合计…
Read more

搭建教育类平台网络舆情监测项目功能方案

4.1线索订阅 4.1.1专题设置 4.1.1.1关键词设置 专题设置关键词默认设置1000个,包含地域词、主体词、事件词、歧义词。 地域词:用户关心的区域。例:承德,多个词按空格隔开,不支持英文输入法下的特殊符号,词与词之间是或的关系;如果需要输入多个英文单词组成一句话作为地域词,则需要使用英文输入法下的双引号括起来。 主体词:用户关心的主体。例:城管,多个词按空格隔开,不支持英文输入法下的特殊符号,词与词之间是或的关系;如果需要输入多个英文单词组成一句话作为主体词,则需要使用英文输入法下的双引号括起来。 事件词:例:受贿,多个词按空格隔开,不支持英文输入法下的特殊符号,词与词之间是或的关系;如果需要输入多个英文单词组成一句话作为事件词,则需要使用英文输入法下的双引号括起来。 信息匹配规则:根据地域、主体、事件词三类进行匹配,任意一类如果设置,则该类必须包含其中一个词信息才有效,同时设置两类或者三类则必须同时每类都包含。 歧义词:设置文章中干扰用户关键词的词,例:用户地域为“保定”,“医保定点”符合条件,但是用户不想要该类信息,则设置为歧义词,系统会自动屏蔽这些歧义词。如果使用双#号将歧义词括起来,则定义为排除词,既信息中出现此歧义词,信息将不会进入用户账号中。 4.1.1.2推送设置 在推送预警页面中【推送预警】选项使用。注:此功能需要后台维护开通权限。如果用户设置为【不推送】,则【推送设置】项内所有其它项都会为不可修改。但是已经做得修改不会清除。如果用户设置为【推送】,则【推送设置】项内所有其它项才可修改设置。 媒体类型:用户可以根据需求,选择专题的数据来源。 倾向性:用户可以选择专题信息的倾向性(正面、负面、中性)。 噪音过滤:用户可以根据信息分类选择专题信息(全部、过滤信息、正常信息、精准信息)。 搜索词:例:高考,多个词按空格隔开,不支持英文输入法下的特殊符号,词与词之间是或的关系;如果需要输入多个英文单词组成一句话作为搜索词,则需要使用英文输入法下的双引号括起来。会搜索出所有包含该词的文章进行推送。 排除词:例:雾霾,多个词按空格隔开,不支持英文输入法下的特殊符号,词与词之间是或的关系;如果需要输入多个英文单词组成一句话作为排除词,则需要使用英文输入法下的双引号括起来。会将搜索出的包含该词的文章过滤掉,不会进入专题中。 4.1.1.3预警设置 在舆情推送页面中【推送预警】。 控制专题是否预警,如果勾选为预警,满足预警词则会预警。 4.1.1.4新数据提醒 手机端新数据总条数提醒 不推送:手机端不提示新数据条数 5/10/30/60分钟:勾选相应时间,则会每5/10/30/60分钟手机会弹框提示新数据总条数。 4.1.1.5精准设置 注:此功能需要后台维护开通权限。在不开启精准设置时,精准信息与正常信息相同 词距:匹配上的关键词之间的距离。如果设置2组关键词,则必须满足2组词词距小于设定值;如果设置3组词,则地域词与主体词,主体词与事件词都要小于设定值。即为精准信息。 地域词词距:从标题开始到首次出现地域词之间的词距,小于等于设定值,即为精准信息。 微博内容时间点过滤: 微博信息中出现的时间在专题创建时间前后1个月之外的数据会被过滤掉。 标题匹配:只有当标题中包含地域词、主体词、事件词时,信息才会被标为精准信息。 唯一地域:开通唯一地域后,信息中只有当设置的地域词占比最高(应比第二位占比高出45%且只精确到省),才会被定为精准信息。 4.1.1.6定向设置 当“数据来源”显示【属地】时,定向设置功能可以使用。定向设置可以从媒体类型(包含新闻、论坛、博客、微博、平媒、微信、视频、长微博、APP、评论、其他十一类来源)、域名、频道、账号进行设置。 域名:例如:bbs.baidu.com,t.qq.com,163.com,sina.com.cn。 频道:域名下的具体频道,例如:百度贴吧-承德吧,新浪网-新浪天津。 帐号:具体的帐号名称,例如:笑话一箩筐,人民日报,央视新闻。 4.1.2全局词设置 用户可以根据需求自定义正/负面词,系统将停止使用默认识别 4.1.2.1功能说明 初次进入正/负面设置,系统会弹框,显示“启用自定义正/负面词以后,系统将停止使用默认识别”,默认为关闭状态 设置包括:主体正/负面词,事件词,歧义词和精准设置 主体正/负面词:输入本地区所关注的主体词,包括机构名、人名、职务等,如:政府 公安局 财政局局长 事件词: 输入关注的主体上发生的事件词,一般以动词为主。如:打人 贪污 上访 歧义词: 输入与地域词相歧义的词,如:地域词为邯郸,歧义词为邯郸学步 匹配标题:勾选匹配标题,则筛选专题,数据标题中必须包含主体正/负面词,事件词 设置完成点击提交,会有“提交成功”弹框 不开启正负面设置,系统将使用默认识别区分数据 开启正负面设置,系统将不使用默认识别区分数据 4.1.2.2逻辑关系…
Read more

搭建教育类平台网络舆情监测项目的项目技术方案

3.1总体功能概述 通过数据中心自有数据、第三方采购数据、元搜索自采数据等,经过文本处理分析、数据挖掘技术,并可自主设置关键词、监测范围,实现对舆情数据的监测、搜索、分析、预警和展示。具体来说,产品主要包括舆情实时监测、重点人物监控、舆情分析研判、人工分析报告、舆论引导管控、智慧采编、用户管理等功能。系统采用自主知识产权的协作式爬虫技术进行海量互联网数据的采集,主要包括以下功能: 1.个性化定制采集 (1) 实现对互联网上舆情信息进行自动的增量采集。可定时运行,也可7*24小时运行,可设置采集时间间隔最短为1分钟。 (2) 支持多线程采集,信息采集的延时可定置。 (3) 可以便捷地对采集目标网站进行可视化管理,配置出采集任务文件,加入调度过程,可以任意修改,增加,移除监测目标。 2.数据采集 (1)系统支持对网站、论坛、博客、微博、微信、APP等信息采集(或数据云端导入),主流新闻客户端,微博、微信公号采集频率最快需达到分钟级,定向监测采集的信息源可随时根据需要不断扩充。 (2)系统支持不少于30000个网站(或APP)3000个版块(或栏目)的网站信息采集,论坛不少于3000个,电子报刊(数字报)不少于1000份。 (3)系统支持不少于2000个社交媒体账号的信息内容采集。 (4)可以根据关键词即时检索App、微博、微信、Twitter、Facebook热点信息,并可实现按转发量/转载量、跟帖量/评论量等排序。 (5)满足定向数据监测需求,可定向监测指定站点的新闻、论坛、贴吧、博客、新闻APP、以及指定账号的微博、微信、Twitter、Facebook数据。 (6)可提供完整的舆情相关关键词词库以及相关行业词库、专业词库,具备关键词智能聚类、热词新词发现能力。 (7)监测数据准确性较高、相关性高,不低于90%,监测数据纯净度高,垃圾数据不能高于10%,监测数据可实现排重,数据及时性高。 3.采集数据全面 (1) 新闻网站采集:能依据设置的新闻网站域名,采集新闻网站内容。设置简单,能自动识别正文页面,能过滤网页噪音,提取正文,进行增量采集;采集要素包括:标题、正文、发布时间、作者、来源等。 (2) 论坛采集:对论坛发帖进行实时采集,具有较强的扩展功能,能够较大程度的适应用户的各种信息采集的需求。具体包括:支持主帖、回帖采集;支持需要用户名和密码认证后才能访问的论坛发帖采集;任务设置简单,支持智能识别、自动匹配其插件类型;能过滤网页噪音,进行增量采集;采集要素包括:标题、作者、主帖和回帖、时间、点击和回复数等。 (3) 博客采集:支持主流博客,设置简单,可对人物和话题进行定制和采集。可采集博客的标题、内容、发布时间等。 (4) 实现境外社交媒体账号的言论以及谈及该账号发帖信息内容、数量、网站等数据的采集。包含时间、来源、正文、标题、链接、评论、转发等字段。 (5) 实现微博、微信公众号和APP监测,相关数据可通过投标人的数据推送服务实现。 4.数据预处理 (1) 支持格式文档文本自动解析功能,并可对解析后的内容进行自动分类、自动排重、自动摘要/关键词抽取等智能化处理。 (2) 多语言处理功能:可自动处理并保存中英文信息,对于其他语言可在完善语种词典后进行自动处理。 (3) 智能文章提取:对于文章类型网页,可以无需配置,直接自动提取文章正文与标题,以及作者发布日期等,自动去除广告,栏目,版权等无关的垃圾内容。 数据框架流程 3.2数据源配置 1.数据来源:甲鱼数据平台采集数据、接口数据等。 2.数据类型:新闻、社交、论坛、电商、贴吧等互联网数据。 3.数据规模:集群数据。 3.3数据采集功能 3.3.1监测数据源 监测数据源包括新闻、视频、平媒、论坛、贴吧、博客、微博、微信、新闻客户端、境外等网站信息,采集信息包括标题、URL、发布时间、正文、图片、发布媒体名称、信息来源、记者/作者/发布者姓名、摘要、转发数、评论数、发布人粉丝数、阅读数、粉丝及与目标信息相关的多媒体信息等。 3.3.2数据获取范围 ?新闻 新闻及综合类网站的采集,例如各大新闻门户网站;根据不同类型的新闻站点,自动解析网页格式,采集分析得到结构化数据。 ?平媒 包含3000+家电子报纸和平面媒体 ?论坛 全国重点论坛及各地方论坛 ?贴吧 百度贴吧2200W+子频道全站内容全部采集 ?博客 博客类型的网站的采集,例如新浪博客、网易博客等博客类网站;根据不同类型的博客,自动解析网页格式,采集分析得到结构化数据。 ?微博…
Read more