I3S热点资讯聚合解决方案
【在线演示】
应用需求与价值
社会快速发展的今天,资讯成为人们了解世界和获取知识的最佳工具,阅读网络资讯已渐渐成为现代人获取时事与信息的一个重要渠道。然而网络资讯来源众多,报道的角度与立场各有不同,加上资讯往往具有前因后果的特性,如果用户想完整了解一个新闻事件的所有信息,利用目前新闻网站(如新浪等门户网站)的编排与呈现方式,还不能够满足用户在大量的新闻中寻找某事件及其相关后续报道的需求。
I3S热点资讯聚合解决方案以全球网络1000多个中文新闻来源中的新闻为对象,在一般新闻分类基础上,为读者提供进一步更直观的分类方式,也就是将各新闻来源的新闻文件以事件的方式聚类,让使用者能清楚地了解社会上目前究竟有哪些事件正在发生或已经发生,并能持续追踪事件的发展,将该新闻事件后续相关的报道加入到所属类中,以便让读者对新闻事件有更完整的了解。
该方案能帮助一般网上的新闻读者,满足其对新闻资讯的需求,也可以作为媒体工作者及投资决策人员工作或决策的一个参考工具,具有很强的实用价值。
系统框架

新闻热点资讯系统主要分为三个模块:数据采集模块、热点识别模块和CGI数据服务模块。数据采集模块持续不断地从互联网上下载最新发布的新闻网页(和论坛网页),经过网页正文提取、网页排重等预处理步骤后,再进行热点识别处理,并按照热度对事件进行排列,最后将历史事件和当前事件提交给CGI数据服务模块提供检索和显示功能。
系统以分类的方式提供友好的显示界面,并允许用户使用关键词对历史热点事件和当前热点事件进行检索。
热点识别算法主要由三个模块组成:新闻预处理、新事件识别与跟踪和事件排序。其中预处理的主要任务是新闻正文提取和新闻消重;新事件识别与跟踪则是识别事件的第一篇报道以及后续相关报道;事件排序根据多个因素计算事件的热度,只返回那些热度超过一定阈值的事件,其任务是控制热点事件的产生与消失。
功能特点
热点资讯系统从全球1000多个中文新闻来源中收集新闻、论坛数据,并按照所描述的事件自动聚类,热度最高的事件列在首位。新闻主题每5分钟更新一次,因此每次查看新闻热点时,都会看到最新报道。用户还可挑选自己感兴趣的主题,然后直接进入发布该报道的网站。具体功能如下:
[新闻聚类] 系统会对互联网随机发布的新闻重新按照事件组织,这使得数量相等的文字能够表达更多的信息量。
[事件显示] 根据事件报道的内容分门别类,显示各个分类下的热点事件。
[事件查询] 提供按照时间段、关键词查询事件的功能,能够按照时间顺序或者相关性顺序对结果排序。
[新闻查询] 提供新闻的全文索引
[多文档摘要] 对于每一个事件,系统都生成一个摘要,用以概述该事件的来龙去脉。
[新闻定制/邮件提醒] 用户输入关键词,系统自动将与该关键词相关的事件发送到用户邮箱中。
[事件评论] 针对每一个事件,提供一个用户评论链接。
[显示相关图片] 显示与事件相关的某一个图片
[个性化资讯] 自定义页面功能;还可以获得系统根据过去您所搜索和点击的新闻报道认为您会最感兴趣的头条资讯。
结果界面图如下图所示:

技术特点与优势
该系统提供一个网络新闻舆情监测平台,实时处理当前发布的新闻,将新闻以事件方式组织, 根据其所属类别分类,并对各新闻按其热度排序,将热点新闻呈现给用户。
该系统弥补了新闻门户不能定制和筛选的缺点。
焦点新闻是最受关注、热度值最高的新闻;
分类新闻是根据新闻所属类别来显示该类别中的热点新闻。
用户可以直接浏览自己关心的相关主题新闻。
网页的自动分类。
准确提取当前新闻中的热点关键词。
通过该系统,用户可以时刻了解新闻动向并获得自己关注的热点新闻。
整个系统采用流水线设计,将功能尽量模块化,模块之间耦合度较低,可扩展性强、稳定、高效,有较好的容错性。
系统在服务器P4 3.2G,内存1G环境下速度达到平均131篇/s(是现有4000多个新闻源发布最大流量的8倍)。
|