论文部分内容阅读
北京拓尔思(TRS)信息技术有限公司成立于1993年,始创中文全文检索,在企业和互联网搜索、内容管理和信息挖掘等领域具有领先的技术和产品,是国内最大的搜索和内容管理技术提供者,是非结构化信息处理技术领域的创新者和领导者。TRS产品广泛应用于电子政务、数字传媒、竞争情报、知识管理、企业信息门户以及各种信息资源管理和服务项目,在中国拥有约2000家企业级用户。
近日,北京拓尔思公司董事长兼总经理施水才接受记者采访,就TRS公司技术路线的定位和发展方向、产品技术研发和应用的进展以及公司未来等方面谈了自己的看法。
TRS技术和产品的研发方向
北京拓尔思公司董事长兼总经理 施水才
施水才表示,近年来,TRS依然秉承“专注创新”的企业理念,并以“超越顾客满意”作为质量方针,专注在非結构化数据的智能化处理和管理技术领域,加大投入研发,并根据市场和用户的需要,不断创新,开发出更令顾客满意的应用软件产品。
施水才认为,当前随着电子政务、办公自动化、网络媒体、网络营销等信息化应用的进一步发展,在整个信息资源的开发、建设、利用和管理中,非结构化信息资源相关应用日趋占据相当重要的地位,无论从信息规模还是从信息应用角度都是如此,重点管理和应用非结构化信息资源已经成为众所周知的大趋势。目前国家和政府所大力推行的信息资源开发建设和利用战略,其重点也在于改变非结构化信息资源异构、分散、分隔、埋没的现状,解决其采集处理成本高、增值难、利用效率低的问题。
施水才介绍,针对非结构化数据管理的技术发展趋势和用户需求,基于TRS的自身优势,TRS的技术和产品主要沿三大细分领域发展,分别是搜索、内容管理和文本挖掘。
垂直搜索和企业搜索
随着互联网和搜索引擎服务的推广和普及,搜索已经成为人们获取信息的常用途径,其模式对用户的行为习惯产生了不可逆的深刻影响。作为中文信息检索软件的先行者,TRS把握搜索应用大潮,预见到搜索即将向智能化、个性化和垂直化、行业化发展,同时用户个人的搜索行为习惯会加速搜索应用引入组织,而各组织内信息资源所蕴含的价值对组织而言更高,所以前几年不温不火的企业搜索引擎市场面临着快速成长的市场机遇。
在搜索研究方面,2005年TRS设置了专门的研究部门,汇聚精尖人才,从事自然语言智能处理和新一代搜索引擎技术的研究, 并在分词、语料统计、实体识别等自然语言处理基础研究领域获得新的成果,现已经开始向产品化方向转移。在搜索技术和产品方面,2005年,TRS发布了企业搜索引擎解决方案和行业垂直搜索解决方案,并推出了TRS搜索引擎的核心基础平台TRS全文数据库管理系统(TRS Database Server) 5.0,相关的配套产品如TRS网络信息雷达系统(TRS InfoRadar)、TRS关系数据库检索网关(TRS Gateway for RDBMS)、TRS Notes数据网关(TRS Gateway for Notes)等都发布了最新版本,同时TRS已开发出具有数亿级规模网页的大规模分布式采集和搜索技术。
2005年,TRS成功地为中央人民政府网站搜索引擎和政府某部行业搜索引擎提供了技术支撑平台。
TRS内容管理
在内容管理领域,TRS认为,当前应用的主流依然是Web内容管理,并且进一步向平台化、集成化和个性化发展。 2005年,TRS发布了新一代Web内容管理产品TRS WCM 内容协作平台 5.2 ( TRS WCM 5.2 )。这是TRS集自身内容管理先进理念和技术,汇聚最新内容管理应用实践经验,在2005年推向市场的最重量级产品之一,将大力引领内容管理应用的深化和升级。
TRS WCM 5.2在设计理念和功能实现上,真正强调平台架构和用户体验两大要素:首先,TRS WCM 5.2是基于 TRS Momentum 构建的面向Web内容管理的应用系统。Momentum与TRS WCM 5.2灵活优秀的设计和功能能够给用户带来绝佳的体验。另外,TRS WCM 5.2面向个性化需求,通过创新的扩展选件,满足专业性、交互性要求更高的网站应用,包括互动评论、网上调查、广告管理、图片管理、Web 2.0应用等(BLOG/Podcasting)。最近新央视国际(CCTV.com)上线的央视互动社区开通的博客、播客应用,就是利用TRS Web 2.0互动内容管理平台产品搭建的。至此,TRS 大规模论坛系统和Web 2.0互动平台先后为央视国际“在线主持”、“央视论坛”、“央视播客”、“央视博客”等互动应用提供核心平台服务,其大规模负载能力和内容安全控制机制居于国内领先。
TRS文本挖掘
在文本挖掘领域,TRS把相关自动分类/聚类、自动摘要、关键字/特征词的自动提取过滤、自动排重和相似性检索等技术集成到相关的产品中,如TRS竞争情报系统(TRS CIS)、TRS知识管理平台(TRS EKP)等,直接服务于政府或企业特定应用。
另一方面,TRS将这些领先的技术包装成TRS文本挖掘基础件(TRS CKM),为上层应用定制开发提供组件化和服务化的应用接口或Web服务。TRS CKM可以广泛地适用于多个领域,包括信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、信息增值服务等,特别如下方面应用价值尤为显著:
助力政务信息资源建设和服务加速增效
推动垂直搜索引擎服务的智能化、行业化和知识化
保障信息内容安全的智能监管工具
企业信息资源利用和知识管理的必备基础件
内容提供商开展增值信息服务不可获缺的得力助手
目前,TRS CKM 已经成功应用于外交部、新华社、中央电视台、宝钢等用户项目,经受了海量信息和复杂环境的考验,实践证明具有很高的成熟度、实用性和可用性。作为一款用途广泛的产品,TRS CKM具有相当的增值潜力。
TRS的技术和产品的应用状况
2005年,TRS在加快产品研发和发布的步伐的同时,也成功实施了一批新的引人瞩目的项目, 包括中华人民共和国门户搜索引擎、政府某部行业垂直搜索引擎、军方的TRS搜索产品采购、国家发改委网站、投资北京网站群、日本某跨国电子厂商竞争情报系统等等。
不同于以往的各种互联网搜索引擎,作为凝互联网搜索和数据库搜索为一体的新型深度搜索引擎,TRS搜索引擎不仅包括类似Google、百度等传统互联网搜索引擎的网页搜索功能,还整合了多种异构数据库搜索。这种创新使得央网搜索引擎能够真正全面深入地整合政务信息资源,打破信息孤岛,挖掘信息资源价值。另外,TRS技术能够提供搜索引擎极好的访问控制和安全管理,这一重要因素帮助TRS在这一关系到国家和社会安全的项目竞标中,从Autonomy、Verity等世界级搜索技术厂商以及百度等搜索引擎服务商的重围中脱颖而出。
国家发改委门户网站项目,采用了TRS全套内容管理产品,包括:TRS WCM 5.2、TRS CDS、TRS Database Server、以及TRS最新身份管理产品TRS IDS,来打造全新的国家发改委门户网站。新建设的国家发改委门户网站具备了“全面、权威、实用、互动、安全”等鲜明特点,信息管理更加便捷,工作效率大大提高,并更有利于公开政府信息,推行政务透明化,更有利于增强公众服务,落实务实电子政务,更有利于加快政务信息化建设,树立良好的政府形象。
TRS的未来发展
谈到未来, 施水才充满希望和自信。他认为,目前数据管理的重点明显已经从结构化数据转向占信息总量80%以上的非结构化数据,包括文本、图像、音视频等多媒体数据。对这些数据的管理过程也从制作和存储,发展到搜索采集、分析挖掘、传递分发等环节,无论是全能巨头IBM,还是传统的专业厂商Adobe-Macromedia,从他们的产品发展动向都能看到这一趋势。这其中的搜索及相关的非结构化数据分析技术已经成为热点中的热点。当前此领域在国际上尚没有形成市场和技术的垄断,而其加速发展的趋势和竞争态势,对一直以非结构化数据管理技术为主要研发方向的TRS来说既是机遇又是挑战。令人兴奋的是,在“十一五”伊始,我国强调推行自主创新的国家战略必会给TRS这样坚持走自主创新的发展道路的企业带来发展契机和动力。
今后,TRS将继续专注于自主研发创新,致力于为广大客户提供高满意度、低拥有成本的优质产品和服务,打造核心竞争力,捍卫TRS中国优秀搜索和内容管理技术提供商的地位。
近日,北京拓尔思公司董事长兼总经理施水才接受记者采访,就TRS公司技术路线的定位和发展方向、产品技术研发和应用的进展以及公司未来等方面谈了自己的看法。
TRS技术和产品的研发方向
北京拓尔思公司董事长兼总经理 施水才
施水才表示,近年来,TRS依然秉承“专注创新”的企业理念,并以“超越顾客满意”作为质量方针,专注在非結构化数据的智能化处理和管理技术领域,加大投入研发,并根据市场和用户的需要,不断创新,开发出更令顾客满意的应用软件产品。
施水才认为,当前随着电子政务、办公自动化、网络媒体、网络营销等信息化应用的进一步发展,在整个信息资源的开发、建设、利用和管理中,非结构化信息资源相关应用日趋占据相当重要的地位,无论从信息规模还是从信息应用角度都是如此,重点管理和应用非结构化信息资源已经成为众所周知的大趋势。目前国家和政府所大力推行的信息资源开发建设和利用战略,其重点也在于改变非结构化信息资源异构、分散、分隔、埋没的现状,解决其采集处理成本高、增值难、利用效率低的问题。
施水才介绍,针对非结构化数据管理的技术发展趋势和用户需求,基于TRS的自身优势,TRS的技术和产品主要沿三大细分领域发展,分别是搜索、内容管理和文本挖掘。
垂直搜索和企业搜索
随着互联网和搜索引擎服务的推广和普及,搜索已经成为人们获取信息的常用途径,其模式对用户的行为习惯产生了不可逆的深刻影响。作为中文信息检索软件的先行者,TRS把握搜索应用大潮,预见到搜索即将向智能化、个性化和垂直化、行业化发展,同时用户个人的搜索行为习惯会加速搜索应用引入组织,而各组织内信息资源所蕴含的价值对组织而言更高,所以前几年不温不火的企业搜索引擎市场面临着快速成长的市场机遇。
在搜索研究方面,2005年TRS设置了专门的研究部门,汇聚精尖人才,从事自然语言智能处理和新一代搜索引擎技术的研究, 并在分词、语料统计、实体识别等自然语言处理基础研究领域获得新的成果,现已经开始向产品化方向转移。在搜索技术和产品方面,2005年,TRS发布了企业搜索引擎解决方案和行业垂直搜索解决方案,并推出了TRS搜索引擎的核心基础平台TRS全文数据库管理系统(TRS Database Server) 5.0,相关的配套产品如TRS网络信息雷达系统(TRS InfoRadar)、TRS关系数据库检索网关(TRS Gateway for RDBMS)、TRS Notes数据网关(TRS Gateway for Notes)等都发布了最新版本,同时TRS已开发出具有数亿级规模网页的大规模分布式采集和搜索技术。
2005年,TRS成功地为中央人民政府网站搜索引擎和政府某部行业搜索引擎提供了技术支撑平台。
TRS内容管理
在内容管理领域,TRS认为,当前应用的主流依然是Web内容管理,并且进一步向平台化、集成化和个性化发展。 2005年,TRS发布了新一代Web内容管理产品TRS WCM 内容协作平台 5.2 ( TRS WCM 5.2 )。这是TRS集自身内容管理先进理念和技术,汇聚最新内容管理应用实践经验,在2005年推向市场的最重量级产品之一,将大力引领内容管理应用的深化和升级。
TRS WCM 5.2在设计理念和功能实现上,真正强调平台架构和用户体验两大要素:首先,TRS WCM 5.2是基于 TRS Momentum 构建的面向Web内容管理的应用系统。Momentum与TRS WCM 5.2灵活优秀的设计和功能能够给用户带来绝佳的体验。另外,TRS WCM 5.2面向个性化需求,通过创新的扩展选件,满足专业性、交互性要求更高的网站应用,包括互动评论、网上调查、广告管理、图片管理、Web 2.0应用等(BLOG/Podcasting)。最近新央视国际(CCTV.com)上线的央视互动社区开通的博客、播客应用,就是利用TRS Web 2.0互动内容管理平台产品搭建的。至此,TRS 大规模论坛系统和Web 2.0互动平台先后为央视国际“在线主持”、“央视论坛”、“央视播客”、“央视博客”等互动应用提供核心平台服务,其大规模负载能力和内容安全控制机制居于国内领先。
TRS文本挖掘
在文本挖掘领域,TRS把相关自动分类/聚类、自动摘要、关键字/特征词的自动提取过滤、自动排重和相似性检索等技术集成到相关的产品中,如TRS竞争情报系统(TRS CIS)、TRS知识管理平台(TRS EKP)等,直接服务于政府或企业特定应用。
另一方面,TRS将这些领先的技术包装成TRS文本挖掘基础件(TRS CKM),为上层应用定制开发提供组件化和服务化的应用接口或Web服务。TRS CKM可以广泛地适用于多个领域,包括信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、信息增值服务等,特别如下方面应用价值尤为显著:
助力政务信息资源建设和服务加速增效
推动垂直搜索引擎服务的智能化、行业化和知识化
保障信息内容安全的智能监管工具
企业信息资源利用和知识管理的必备基础件
内容提供商开展增值信息服务不可获缺的得力助手
目前,TRS CKM 已经成功应用于外交部、新华社、中央电视台、宝钢等用户项目,经受了海量信息和复杂环境的考验,实践证明具有很高的成熟度、实用性和可用性。作为一款用途广泛的产品,TRS CKM具有相当的增值潜力。
TRS的技术和产品的应用状况
2005年,TRS在加快产品研发和发布的步伐的同时,也成功实施了一批新的引人瞩目的项目, 包括中华人民共和国门户搜索引擎、政府某部行业垂直搜索引擎、军方的TRS搜索产品采购、国家发改委网站、投资北京网站群、日本某跨国电子厂商竞争情报系统等等。
不同于以往的各种互联网搜索引擎,作为凝互联网搜索和数据库搜索为一体的新型深度搜索引擎,TRS搜索引擎不仅包括类似Google、百度等传统互联网搜索引擎的网页搜索功能,还整合了多种异构数据库搜索。这种创新使得央网搜索引擎能够真正全面深入地整合政务信息资源,打破信息孤岛,挖掘信息资源价值。另外,TRS技术能够提供搜索引擎极好的访问控制和安全管理,这一重要因素帮助TRS在这一关系到国家和社会安全的项目竞标中,从Autonomy、Verity等世界级搜索技术厂商以及百度等搜索引擎服务商的重围中脱颖而出。
国家发改委门户网站项目,采用了TRS全套内容管理产品,包括:TRS WCM 5.2、TRS CDS、TRS Database Server、以及TRS最新身份管理产品TRS IDS,来打造全新的国家发改委门户网站。新建设的国家发改委门户网站具备了“全面、权威、实用、互动、安全”等鲜明特点,信息管理更加便捷,工作效率大大提高,并更有利于公开政府信息,推行政务透明化,更有利于增强公众服务,落实务实电子政务,更有利于加快政务信息化建设,树立良好的政府形象。
TRS的未来发展
谈到未来, 施水才充满希望和自信。他认为,目前数据管理的重点明显已经从结构化数据转向占信息总量80%以上的非结构化数据,包括文本、图像、音视频等多媒体数据。对这些数据的管理过程也从制作和存储,发展到搜索采集、分析挖掘、传递分发等环节,无论是全能巨头IBM,还是传统的专业厂商Adobe-Macromedia,从他们的产品发展动向都能看到这一趋势。这其中的搜索及相关的非结构化数据分析技术已经成为热点中的热点。当前此领域在国际上尚没有形成市场和技术的垄断,而其加速发展的趋势和竞争态势,对一直以非结构化数据管理技术为主要研发方向的TRS来说既是机遇又是挑战。令人兴奋的是,在“十一五”伊始,我国强调推行自主创新的国家战略必会给TRS这样坚持走自主创新的发展道路的企业带来发展契机和动力。
今后,TRS将继续专注于自主研发创新,致力于为广大客户提供高满意度、低拥有成本的优质产品和服务,打造核心竞争力,捍卫TRS中国优秀搜索和内容管理技术提供商的地位。