I3S企业竞争情报辅助发现解决方案
应用需求与价值
随着互联网时代的到来,企业面对的信息呈现爆炸式地增长,现代企业越来越依赖于有效组织起来的非结构化信息。如何从繁多而无序的非结构化信息中,提炼出对企业占领市场、保证可持续发展的关键信息,是现代企业面临的一个挑战。
I3S企业竞争情报辅助发现解决方案是适应当前互联网时代而产生的动态企业竞争战略,是企业组织利用内外部信息、把握瞬息万变的市场竞争环境的有力工具。它能够为企业成员评估行业关键发展趋势,把握行业结构的调整,跟踪正在出现的连续性与非连续性变化,以及分析现有和潜在竞争对手的能力和方向,从而协助企业保持和发展可持续性的竞争优势。
系统框架

从结构上看,该方案分为以下几个部分:1)采集器,提供两种采集方式,即采集定制网站上的所有内容,或通过元搜索方式采集各大搜索引擎的查询结果。2)内容文档库,集中存储从采集子系统传来的数据。3)特征子串扫描模块,采用高效的多关键词扫描算法对未经处理的文本快速扫描,高效率筛选掉大量的无关文档。4)内容提取模块,对未被筛选掉的文档进行格式分析,排除广告、菜单等噪音信息的干扰。5)过滤模块,采用关键词过滤和模糊过滤两种方式。6)过滤结果库,集中存放过滤结果。7)用户管理模块,对用户进行权限管理,接收用户多种形式的兴趣表达方式;接收用户提供的正、负反馈信息。8)结果推送模块,向用户推送过滤结果,用户不仅可通过浏览器分层浏览不同级别的内容,还可定制包括email、手机短信在内的不同的推送方式。9)自适应学习插件,根据用户提供的反馈信息自动更新用户兴趣特征,综合采用了相关反馈和伪相关反馈的技术。
功能特点
用户定制功能: 定制关键词或感兴趣的示例文本,定制要关注的网站。
信息获取功能: 提供两种采集方式,即采集定制网站上的所有内容,或通过元搜索方式采集各大搜 索引擎的查询结果。
信息过滤功能: 基于精确匹配的关键词过滤和基于内容相似度计算的模糊过滤。
报表生成与反馈功能: 自动将结果生成报表,并接收用户反馈,系统进行在线学习。
报表结果显示界面如下图所示。

技术特点与优势
1. 多关键词快速扫描
采用I3S自主研制的特征串扫描技术组件,支持的关键词多达上万组,扫描速度高达500M/s。
2. 多文档类型识别
在网络信息中,文档的格式是多种多样的。系统实现了多种格式文档和压缩文档的识别转换,如TXT、HTML、XML、DOC、PDF、ZIP、GZIP、TAR等,并且能够自动补充某些格式文档中缺少的结构信息;对于经过多次压缩的压缩文件,提供了嵌套的解压方式。
3. 文档内容提取
为了排除网页中大量的广告、菜单等信息的干扰,系统综合利用了Html页面的视觉属性和篇章布局特征,较精确地提取出页面的正文和标题,并对标题等醒目字眼赋予较高的权重。
4. 用户需求扩展和特征选择
在用户需求扩展上,采用经典的Rocchio算法进行伪相关反馈,用户可手工参与修改用户兴趣模板。系统根据用户的反馈信息,主动推荐最合适的关键词。用户还可指示重新训练模板。
5. 自适应学习机制
系统采用改进的Rocchio算法对过滤规则进行正反例学习,动态调整用户兴趣模板,有效跟踪用户兴趣的漂移。 |