18888888823787888
5
I3S简介
6
I3S背景
4
I3S新闻
3
I3S博客
2
加入I3S
2
联系I3S
产品概述
技术组件
信息检索
信息采集
数字版权保护
3
互联网信息搜索
3
热点资讯聚合
3
实时文本流处理
2
互联网人物搜索
1
竞争情报辅助发现
资源下载
技术论坛
资源下载
技术论坛



   
 
 
 

 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I3S互联网人物信息搜索解决方案

应用需求与价值

  目前,搜索引擎正呈现多样化、专业化发展的趋势,传统的搜索引擎并不能完全满足这种要求。尽管目前流行的信息服务形式很多,例如“图片搜索”、“歌曲/歌词搜索”、“热点新闻搜索”等,但从人物角度来组织信息的服务还不常见。

  目前已有的系统只能根据提交的人名关键词返回含有该人名的原始网页,处理的精细程度不够;或只能对部分名人的信息进行较精细的处理,所能处理的人物范围有限。在这种情况下,人们要想了解一个人物的信息,往往不得不借助于通用领域的搜索引擎,例如Google等,键入相关的人名,搜索到的页面里边有很多同名人物的结果,也有很多结果不是人物的信息;页面只是采取简单罗列的方式,未根据人物的特征进行整理,用户无法对所关注的人物进行清晰的把握。

  I3S互联网人物信息搜索解决方案为解决这一问题而生,能够从网页里面自动分析所出现的人物,不需或只需少量人工的干预,就可分析出同名人物的信息,以及每个人物的履历和活动报道专集,乃至该人物的知名度变化曲线图。

  本方案主要应用于以下场景:
  
  1、人物搜索引擎:能够对互联网网页进行大规模处理,推出一种全新的信息服务方式——人物搜索,该搜索引擎不仅能把同名人物的网页区分开,对每个人物还能提供多角度的信息。

  2、特定人物的跟踪:便于信息情报部门对某一人物进行持续的跟踪。只要提供少量该人物的信息,就能够跟踪其参与的主要事件、言论及背景经历。

  3、流行人物的发现:适用于信息内容服务商。通过对网上各个人物的分析、判别,能够发现一段时间内在互联网上比较流行的人物,方便人们对网上流行人物的把握。

系统框架

 

① 新闻Url指导库:指导采集器只对新闻网页进行采集,因为新闻网页描述规范且报道及时。

② 采集器:使用分布式采集系统定时地遍历网页,将遍历到的网页送到网页去重器中。

③ 网页去重器:根据历史记录检测重复网页,只把未采集过的新网页存储到页面库中。

④ 页面库:存储采集下来的页面。

⑤ 人物模型片断提取器:对人物信息建模,进行人物信息的数据预处理工作,具体内容包括:网页噪音过滤、词法分析、人名识别、人名指代的处理、人物对应语段的划分、时间和时序标签的确定、人物属性的抽取、人物特定类型事件的抽取,以及人物模型片断信息的分发(按姓氏范围分发给不同的人物模型组织器)。

⑥ 知名度计算信息:用于进行人物知名度计算的必要信息,例如网页的PageRank值等。

⑦ 人物模型组织器:采用分布式系统对人物模型片断信息进行处理,包括同名人物的判别、人物事件信息的组织、人物知名度判断等。

⑧ 人物信息索引库:存放人物信息的索引文件,主要有:姓名索引文件、同名人物文件、人物履历文件、人物活动报道文件。

⑨ 检索器:接受用户查询,把查询提交给检索器。接受的查询词主要是人名,也可接受人名和属性词的组合查询。

⑩ 文档号索引器:通过文档号,可以取得对应文档在页面库中的位置。

功能特点

  本方案能够对同名人物的文章进行判别,对每一个人物,能够提供履历和事件报道专集以及知名度变化统计图。具体界面效果如下图所示。


技术特点和优势

1.能够从互联网网页中自动挖掘出人物的信息,解决人物数据的获取问题。
2. 克服同名人物页面混杂的问题,减少信息冗余,用户阅读一目了然。
3. 提供人物的履历信息,简明清晰地突出人物的主要特征。
4. 提供人物的活动报道专集,对人物参与的事件进行有效整理。
5. 提供人物知名度的变化统计图,清晰呈现人物在互联网上的知名变化程度。

 

 

 

 

http://www.i3s.ac.cn
中科计算技术转移中心
©2006 I3S 京ICP备06068417号