18888888823787888
5
I3S简介
6
I3S背景
4
I3S新闻
3
I3S博客
2
加入I3S
2
联系I3S
产品概述
技术组件
信息检索
信息采集
数字版权保护
3
互联网信息搜索
3
热点资讯聚合
3
实时文本流处理
2
互联网人物搜索
1
竞争情报辅助发现
资源下载
技术论坛



   
 
 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I3S实时文本流处理解决方案

下载试用程序 下载解决方案白皮书(PDF版) 在线演示动画

应用需求与价值

  今天的互联网规模早已超越了海量的级别。信息研究和情报分析工作者往往需要实时的、进行过筛选和深加工过的信息。相关系统能否在保持高准确率的前提下,达到对大量的、以不同形态存在的互联网信息进行实时的处理速度,是许多网络应用迫切需要的功能,也是一项棘手的工作。

  传统的网络内容分析产品都是采用基于文件的串行处理方式,即:等到全部的网络包到达后,将网络包拼接成一个完整的文件,然后才开始进行分析。这种处理方式有很大的延时,无法满足网络环境的实时性要求。

  I3S实时文本流处理解决方案,简称KNIFE(Kits of Network Information Filter Engine),可以有效解决这一问题。它包括特征串匹配、文档格式分析、编码转换三个模块。其中,特征串匹配模块提供实时高效的特征串匹配功能,能够支持1000-5万的特征串规模,速度为经典算法的3-4倍,是目前世界上最快的串匹配算法;文档格式分析模块对网络上常见的文档格式进行解析,它采用基于网络包的流式解析技术,真正满足网络实时性的要求;编码转换模块提供了丰富的编码转换功能,能够在目前互联网上的主流编码之间进行转换。

系统架构

 

功能特点

1.特征串扫描:

串匹配功能

支持任意长度、任何类型(中文、英文、二进制)的特征串;支持1000-5万规模的特征串匹配,性能优越,速度是经典算法的3-4倍;根据不同的应用场合,从算法库的20余种算法中选择最合适的算法,最大限度地契合用户的需求;针对特殊应用进行优化,针对IP地址、URL和Email匹配进行特殊优化,并支持大小写不敏感匹配。

表达式匹配功能

支持特征串的与、或、非布尔表达式匹配;支持1万规模的表达式匹配,针对表达式的特点进行优化,使得计算代价与表达式的规模无关;
多线程安全调用;
算法库的扫描自动机可以同时被多个线程所使用,不会产生任何冲突。

流式扫描

面向高速网络流环境下的实时处理需求,算法库支持流式扫描,及时报告扫描结果,非常适合于网络包处理的应用。

多线程安全

算法库的扫描自动机可以同时被多个线程所使用,不会产生任何冲突。

配置监控功能

自动定时监控用户的配置信息,并及时更新扫描器,保证新旧扫描器之间的安全转换,无需中断扫描过程。

流式扫描和内存管理

面向网络流处理的需求,算法库支持流式扫描,非常适合于网络包处理的应用;对扫描句柄进行统一管理,即使有异常连接,也可安全高效地分配系统资源。

统一的开发接口

算法库提供统一、简洁的调用接口,用户可以在上面快速地搭建应用系统;底层算法的更新不影响上层的应用系统。

容错功能和日志信息

对用户的错误配置进行容错处理,并提供完整的错误信息、警告信息,以及耗用系统资源的统计信息,帮助用户快速、全面地掌握系统的运行情况。

2.文档格式分析:

文档格式分析功能

目前支持的格式文档解析类型有:PDF、CHM、RAR、EML、RTF、ZIP、Office系列、HTTPEscape。

流式分析

采用基于网络包的流式解析技术,无需等待文档的全部数据到来,即可开始解析,并及时返回分析结果。单机处理能力达到每秒10000个网络包以上,是一种实时的文档解析技术。

统一内存管理
对格式文档分析的句柄进行统一管理,即使有异常连接,也可安全高效地分配系统资源。

日志信息

提供完整的错误信息、警告信息,以及耗用系统资源的统计信息,帮助用户快速、全面地掌握系统的运行情况。

3.编码转换:

编码转换功能
在不同的编码之间进行快速转换,目前支持9种直接的编码转换:GB->UTF8,GBK->BIG5,GBK->Unicode,Unicode->GBK,UTF7->Unicode,UTF8->Unicode,HZ->GB,GB->GB字体拆分,GB->拼音。

流式编码转换
提供流式的编码转换功能,及时返回最新的编码转换结果。

日志信息
提供完整的错误信息、警告信息,以及耗用系统资源的统计信息,帮助用户快速、全面地掌握系统的运行情况。

技术特点和优势

性能优异,资源消耗小:与国际最为经典的两种串匹配算法AC(Aho-Corasick)和WM(Wu-Manber)相比, KNIFE是经典算法速度的3-4倍,所耗用的内存空间是经典的基于自动机算法的5%。

支持流式扫描和解析:采用基于网络包的流式分析技术,只有极小的网络延时,能够真正满足高速网络流环境下的实时处理。

功能丰富,使用方便:与同类产品相比,本系统除了提供基本的串匹配功能外,还提供了表达式匹配、流式扫描、配置监控、线程安全等众多的功能,接口也更加简洁,能够帮助用户在最短的时间内开发新的应用。

支持文档类型多:几乎支持目前主流的所有文档格式。
运行稳定:已在十几个工程项目中应用,运行稳定,性能优越,产生了巨大的经济和社会效益,得到了用户的高度肯定。

相关专利论文

[专利-谭建龙2002] 快速内容分析的多关键词匹配方法,专利申请号:02157881.8
[专利-谭建龙2003] 快速网络流特征检测的关键词匹配方法,专利申请号:02159352.3
[LiuPing2005] Liu Ping, Tan Jian-long and Liu Yan-bing, A Partition-Based Efficient Algorithm for Large Scale Multiple-String Matching, SPIRE 2005

 

 

 

 

 

 

 

 

http://www.i3s.ac.cn
中科计算技术转移中心
©2006 I3S 京ICP备06068417号