18888888823787888



   
 
 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I3S互联网信息搜索解决方案

应用需求与价值

  对于从事信息研究和情报分析的人员来说,互联网上的搜索引擎是其主要的工具之一。然而,搜索引擎在时效性和针对性方面往往不能满足特定工作的要求,缺乏深加工的搜索结果也使工作人员很难达到较高的工作效率。I3S互联网信息搜索解决方案就是为解决这一问题而提出的,目的是充分利用计算机信息处理技术,及时采集互联网上的特定信息,自动分析整理,协助企业、政府人员把握国内外资讯和动态,为政府和企业的正确决策提供重要依据。

该解决方案可以做到:

  • 高效地采集互联网上的特定信息,及时跟踪每日最新消息;

  • 对采集到的信息自动标引、分类和筛选;

  • 按照不同用户的权限及需求,将加工好的信息推送到特定用户;

  • 用户可以灵活修改系统的控制策略,以适应多种应用方式;

  • 对采集到的信息提供有效的检索服务;

  • 对用户进行注册管理和权限分配,保证对信息的安全访问。

功能特点

  搜索任务管理功能——对特定工作需求而提出的搜索任务进行管理,实现工作任务管理的明确、合理、有序和常规化。

  信息获取功能——用户对搜索任务进行具体设定(包括搜索关键词、搜索引擎、执行期限、定向跟踪网站等),搜索系统据此进行网上信息自动搜索与采集;提供两种采集方式,即采集定制网站上的所有内容,或通过元搜索方式采集各大搜索引擎的查询结果。
信息组织功能——由系统对获取到的内容进行有机处理,包括:文档格式解析、编码识别与转换、文件去重、分词、建索引、话题聚类与跟踪等,形成一个排列有序、层次分明的结果集,并交由用户确认与标识,形成最终结果。

  反馈学习功能——根据用户的反馈对系统内置的策略进行学习修正。
信息服务功能——系统根据用户预设的配置,对最终被用户采纳的结果进行合理的组织与输出,并可提供报表导出功能,方便用户进一步处理。

  系统设定功能——用户能够对一些全局性的系统配置进行调整与设定。
用户管理与权限控制功能——对用户进行注册管理及权限设定,以保证系统与信息安全。

系统框架

上图说明了I3S信息搜索解决方案的基本结构,由此将系统划分成4个子系统:

  • 信息采集子系统,从Internet采集用户提交的信息,并以原始资料的形式保存;
  • 原始资料处理子系统,对采集来的信息进行预处理并建立索引;
  • 信息组织子系统,对预处理好的信息进行聚类、分类等智能分析;
  • 系统配置子系统,包括采集配置、分类/筛选配置。

信息采集子系统

  信息采集子系统,负责对Internet上用户指定信息的自动采集,并以原始资料的形式保存。它可自动收集Internet上WWW站点内有效的信息,包括文本、超链接文本、图象、声音、录象、压缩等各类文档,并定期自动更新站点内原有信息。

  用户可通过两种方式指定采集目标。一种方式是用户通过采集配置来指定待采集的固定站点目标。信息采集子系统支持自动爬行功能,用户可以查看、筛选自动发现的未知站点。
用户还可以通过元搜索引擎来指定采集目标。元搜索引擎是建立在已有的搜索引擎服务之上的一种搜索引擎,它利用下层多个搜索引擎提供的服务向上提供统一的检索服务,它维护所管理的搜索引擎的参数信息,当用户提交了一个查询条件时,元搜索引擎按照各个成员引擎的查询格式作相应的转换之后再分发到各个成员引擎,各个成员引擎返回结果之后,进行查询结果的采集。一个简单的元搜索如下图所示:

 

原始资料处理子系统

采集到的信息存储在原始资料库中,原始资料处理子系统自动对原始资料库中的信息进行分析、标引,提取各项相关属性,建立全文检索的索引。索引支持:
√ 中文(GB2312,GBK)、英文快速索引;
√ 增量索引;
√ 索引文档删除;
√ 多字段索引;
√ 支持纯文本,HTML,PDF文档格式;
√ 支持ICTCLAS分词组件;
√ 支持日期字段索引;
√ 同一文档各字段可以使用不同的内容分析器(Analyzer);
√ 支持停用词;
对信息采集子系统采集到的网页,原始资料处理子系统分析识别出采集的网页中包含的文本内容和标题/文件名、关键词、出处、URL、时间、摘要、文章长度及语种等属性信息,并整理入库;对于采集到的繁体文章,自动转化成简体内容;建立索引,以供用户随时检索已采集的原始资料。

信息组织子系统

  信息组织子系统自动对新采集的页面内容分类和过滤,将相似的信息聚类。系统采取一定策略保证每个页面最多只归入一个类中。系统通过“推送”和“检索”两种方式向用户提供信息:
系统根据自动标引和过滤的结果将符合用户条件的新信息自动推送给用户,并提示用户有新信息到达。用户可以选择适当时机察看新信息。推送资料以列表的方式显示给用户,列表中显示每条信息的标题、关键词、权值/相关度、URL、时间等属性。所列出的属性可以由用户定制。系统提供分类或/和分组对推送信息进行筛选,用户可随时根据需要改变筛选方式分类显示,只列出其所关心的部分内容。分类和分组规则在分类/筛选配置中设置。用户需要时,可点击文章标题察看文章的全文和完整属性。用户可以查看与某条信息相似的其它信息。用户可以随时主动要求刷新,系统将最新的采集数据推送给用户。
用户根据业务需要可以随时以关键词、属性(地址、时间等)信息构成组合查询条件,检索支持:

√ 布尔查询(AND 、OR、NOT任意组合);
√ 支持短语检索;
√ 支持向量空间模型计算文档相关性;
√ 跨字段检索;
√ 日期范围检索;
√ 检索结果按任意指定字段排序(例如按时间排序)。


系统配置子系统

系统配置子系统包括采集配置和分类/聚类配置两部分。
用户在采集配置上实现固定站点的设置,提交采集目标站点的信息,包括设置待采集站点,设置代理服务器、设置屏蔽文件类型和查看采集系统结构。
用户在采集配置上可设置待采集的目标站点,指定待采站点的最大采集页数;文件的最大长度;搜索的深度,可以从主页或任一页面开始采集;搜索的宽度,可以设置只采集目标站点中的部分内容;采集时的最长等待时间。站点采集和刷新的时间和周期可以按用户需要自由调节,一般每日更新,对于内容变化较快的网站根据需要可按小时更新。
在采集配置上用户可以设置屏蔽文件类型,指定屏蔽文件类型名和文件类型名所对应的扩展名列表。
用户在分类/聚类配置上的设置包括类别及对应关键词表达式。关键词可以授予不同权值以体现其重要程度,关键词提供对多语种的支持。
用户设置的分类/聚类配置信息,将直接影响信息组织子系统中自动标引和过滤的结果。调整相关的配置,可以得到比较理想的处理结果。

技术特点与优势

1. 强大的采集能力

用户可直接指定采集的站点地址,也可以通过元搜索引擎来指定采集目标;多个采集器并行采集。

2. 高效的信息处理机制

自动对采集的信息进行分析、标引,提取各项相关属性,建立全文索引,索引速度达到9兆字节/秒。

支持I3S自主研制的特征串扫描技术组件,关键词可以多达上万组,扫描速度高达500M/s。

能够识别转换多格式文档和压缩文档,如TXT、HTML、XML、DOC、PDF、ZIP、GZIP、TAR等,并且能够自动补充某些格式文档中缺少的结构信息;对于经过多次压缩的压缩文件,提供了嵌套的解压方式。

为了排除网页中大量的广告、菜单等信息的干扰,系统综合利用了Html页面的视觉属性和篇章布局特征,较精确地提取出页面的正文和标题,并对标题等醒目字眼赋予较高的权重。

采用聚类与分类相结合的方式,自动发现隐含的热点话题团,并实现特定话题的持续跟踪。

4. 灵活的信息服务形式

系统自动将符合用户条件的新信息推送给用户,用户也可以随时查询信息。

用户可以查看系统处理的分类、聚类结果,并进行正确与错误的反馈;系统可以对结果生成报表。

5. 有效的自适应学习机制

系统采用改进的Rocchio算法对过滤规则进行正反例学习,动态调整用户兴趣模板,有效跟踪用户兴趣的漂移。

 

 

 

 

 

 

 

 

http://www.i3s.ac.cn
中科计算技术转移中心
©2006 I3S 京ICP备06068417号