| 时间地点: |
| 时间:2007年4月10日 |
| 地点:北京·西苑饭店 |
| 论坛主题: |
数据挖掘与信息整合 |
| 主办单位: |
中国电子信息产业发展研究院
中国信息化推进联盟 |
| 承办单位: |

中国信息化推进联盟BI专委会 |
| 支持媒体: |
中国计算机报、中国计算机用户、
软件世界杂志、赛迪网 |
| 大会网站: |
|
| 联系方式: |
合作联系 |
北京海淀区紫竹院路66号赛迪大厦10层(100044)
合作联系人:王朝闻
电话:010-88558527
传真:010-88558539
手机:13522721680
邮件:wangcw@ccidconsulting.com
参会报名 |
北京海淀区紫竹院路66号赛迪大厦9层(100044)
联系人:樊娜 何扬
电 话:010-88558542 / 9924
传 真:010-88559026 / 9032
E-mail: huiyi@ccidconsulting.com |
|
|
|
北京拓尔思信息技术有限公司副总裁林春雨演讲
首先介绍一下我们公司,拓尔思公司做的也是搜索、整合、发现这三个方面。
TRS2000年开始提“内容管理”口号,2001年我们提出“内容管理原动力”,2004年是“内容创造价值”,2007年又变了,我们是“搜索、整合、发现”,跟今天主题是吻合的。
今天搜索已经成为了数据管理技术最大的应用,无论你用什么样的系统,最核心,最经常使用的就是搜索。比如说我们在一些国家的某个部委里面做的系统,一开始是门户网的访问率是第一位,一两个月之后搜索就是第一位的。
整合,我们现在有太多不同的系统,不同的形式,散落的不同系统上去。内容全生命周期管理,不同系统,不同格式,不同形态的内容统一管理,结构化和非结构化数据。发现,就是为客户发现我们可以提供的更多服务。
搜索有三个概念:
第一个是互联网搜索,像百度、Google之类的,它的要求是快速找到关联性的信息,但不一定查全,这是一个大概的搜索。
第二个,是企业搜索,动态网页采集的优先级较高,结构化数据库信息采集要求高。
第三个,是垂直搜索,你要为某个行业提供服务,就要用到垂直搜索的技术。
垂直搜索有四大关联技术:
第一,聚焦、实时和可管理的网页采集技术。
第二,从非结构化内容到结构化数据的网页解析技术。比如说我要把餐饮的信息梳理成结构化,如何把大众点评网的数据变成我的数据,把原来没有结构化的信息梳理起来。
第三,精、准、全的全文索引和联合检索技术。
第四,数据挖掘技术。
这些我们最近做的一些案例,千里眼经济情报预警平台,这是为银行业服务的。首都食品安全监控系统,在315活动也发挥了很重要的作用,对媒体披露的信息,跟我们的监控信息及时得到,并提供互动。下面有一些案例,比如说我们跟中信集团签订了114号码百事通的搜索引擎,它的口号就是打造一个中国的语音Google。它有很多垂直业务的应用,比如说生活指南、消费、饭店、餐饮等等。比如说我现在找西直门附近的一个川菜馆,就给114打电话,电话员就可以帮你找到这几个川菜馆,然后根据排序告诉你。这是一个垂直搜索引擎的应用。这是央网的搜索引擎,包括网站搜索,国务院公报,图片搜索,文档搜索,还有其他服务搜索功能,大家可以去体验一下。我们在一些企业里面,有产品售后质量跟踪系统。比如我是做光学产品的企业,我非常想知道客户用我产品的情况,它分了光学性能,电子系统等等,你满足了中文的论坛,包括数码类的论坛,通过聚类、分类的技术,自动跟它的产品进行匹配。我们可以通过一系列垂直搜索的应用,就可以为客户建立一套很好的售后质量跟踪系统。
TRS搜索引擎的优势特点。
一、海量信息采集和存储支持分布式管理、多服务器集群和协作。
二、智能信息处理基于予以理解的文本挖掘技术,这个我们后面会讲到。
三、一个平台两种应用,融合了企业搜索和互联网搜索技术为一体。
四、智能全文检索查全和查准的完美结合。这也是搜索引擎重要的标记,不但要全,还要准。
07年我们也提供了TRS6.01版本,性能有了大幅度的提升。
TRS内容管理框架,这里面有外部的数据,还有内部的数据,我们需要用一些什么方式整合它,像外部的数据,我们可以用网络信息采集技术把网页采集进来的,我们还可以通过Oracle数据库把内部的数据整合进来的。个人数据如何整合,我们也提供了相关技术实现。TRS提供了IDS,统一身份认证及用户管理的服务器,整合外部的网站,可以通过网页机器人,通过TRS提供的信息雷达进行整合。整合关系数据库,比如说Oracle,Notes,就是通过数据网关来实现。这是我们公司实现的一个个性门户,这里面包括很多豆腐块,这种豆腐块是可以被重新定义的,你可以建立很多的标签页,比如我的内网,我的兴趣中心,还有博客,博客也作为知识共享的一部分。这里面的颜色、版式都是可以自己定义。这个是我个人的桌面,这是外网的新闻,还有内网的一些新闻。这个是一个企业博客,公司博客里面的内容都可以得到体现。这是一个门户,外部、内部的,相关的资源都整合起来了。这是另外一个,我们放到第二个标签页,就是我的个人兴趣,我经常看福布斯中文网站,然后就把福布斯中文抓进来了,还有看天气预报,还有你感兴趣的,跟工作相关的文章抓进来,还有热门的话题也可以整合进来,文档也可以被自动搜索起来的。这个系统可以自动的去总结,去提升。这边是包括车辆违章查询,百度搜索引擎,还有博客等等。所以我们可以通过个性化的门户,把这些信息整合起来,这样不用花很多时间去找,只要加到这里面就可以了。
其实在整合上面还有很多的内容,IDS,信息雷达,数据网关等等,这些不一一来说了,如果大家感兴趣可以访问我们的网站。
发现,我们通过信息雷达,为一些单位提供垂直搜索引擎的服务,但可能有些数据会很大,人工处理是不可能的,即使你找个一百人的数据工厂也处理不完。那么从这些里面如何找到有价值的数据,就是需要发现功能。SAS系统有结构化的数据,比如说打电话、话务量,话务的类别,话费,所花费的具体内容进行自动分类,这里面包括文本分类,自动排重等等。
这里有一个演示,自动分类的技术。这种分类里面,每天处理量就是五万篇,而且这还是排重后的。我们信息中互相抄袭的很多,40%是重复的,所以我们把文章自动归到各类别里面去,准确率在85%以上。这个是基于内容的去重,我们是基于文章本身来去重。比如说这篇文章和中华网上的文章虽然标题不一样,但是内容有相当大的重复性了。发现重复的时候,我们会通过预警,把这两篇文章挑出来,看看是不是有重复。
聚类也有两个大的应用,一个是信息岛图,我们现在有5000篇文章,把这5000篇文章通过聚类可以把没有关联的文章找出来。第二,我们还可以找到聚类的时间趋势图。我们每天都有一个信息海洋,昨天的信息海洋和今天的信息海洋有什么变化呢,我们就可以通过聚类发现信息的关联。比如说这个是关于证券报道的例子,第一天是100%,第二天是69%,第三天是60%,第四天就降低了,你可以通过聚类来发现信息的走势。
聚类的应用
第一个是热点分析,所采集的网络范围内重复程度最高的话题。比如说全球网络舆情十大热点,第一位的是十一五方面的信息,第二位是高考方面的信息,通过这个热点我们还可以找到相应的文章。
第二个是频点分析,找到所采集的网络范围内新鲜的重复度高的文章。这个是我们为政府部门做的,叫TRS政务舆情信息中心,我们分为热点人名,热点地名,热点机构,我们还可以看到最热的一些报道里面的人名。
信息抽取案例,这里面包括新词的识别,人名、地名、组织机构名等命名实体识别,信息抽取,时间、电话号码,身分证号,护照号,E-Mail,车牌,案件名称等的抽取。
垂直搜索的应用。比如说餐饮信息抽取,我们可以通过餐饮信息抽取的技术从大众点评网或饭桶网抓取信息,来自动匹配分为菜系,特色菜,类型,折扣,车位保健等等,都可以抽取起来,弄到我们数据库里面重新吸收。
再一个就是火车票抽取,我们的研究部门经常拿酷讯跟我们这个系统做对比,比如说8月26号桂林到北京的硬座火车票两张,我们可以把一堆的火车票抽取出去来,是转让,还是求购,还有火车车次,开车时间等等。
我们还可以对数码产品信息抽取,简历信息抽取,旅游信息抽取等等。
我们发现搜索、整合、发现缺一不可,你必须要有一个很强大的搜索平台做数据整合的支撑,数据通过整合以后,全部存储在一个TRS的数据库里面,我们通过很好的发现技术,把这些数据利用起来。
|
|
|
|