【摘 要】
:
互联网飞速发展,已经渗透到人们日常生活的方方面面,互联网所容纳的数据量不断增长,人们面对海量数据的时候对数据的检索提出了更高的要求,期待可以用更少的时间找到自己感兴趣的
论文部分内容阅读
互联网飞速发展,已经渗透到人们日常生活的方方面面,互联网所容纳的数据量不断增长,人们面对海量数据的时候对数据的检索提出了更高的要求,期待可以用更少的时间找到自己感兴趣的数据。针对用户的多样性检索需求,本课题提出了一种基于本体的语义搜索模型。
模型通过对WEB文本数据进行具有语义的特征词抽取,从记叙文六要素出发提出描述文本信息本质的四个方面特征,即时间特征、地点特征、人物特征、主题特征。以此特征构建出描述事件的本体。用提取出来的语义特征作为事件本体的实例词汇,同时作为文本的计算点进行各种语义计算。计算过程中,模型对文本的语义特征进行了定量的分析。通过对不同事件之间的相关本体实例词汇的挖掘,较好的实现了关联事件的推理。
文中所设计系统采用以数据库为中心多模块松耦合的组织架构,适合功能模块的多种算法实现,利于系统灵活调优。论文中涉及WEB页面的信息采集,对文本信息的中文分词,命名实体的识别,正则表达式信息抽取,TF-IDF抽取关键词,本体构建,在MYSQL数据库上的语义标注等方面的相关技术、模型。
通过逐个模块的功能测试,以及通过测试集进行相关搜索指标测试,本课题设计的系统已较好的实现预期功能和测试指标。
将传统基于关键词的信息检索方法提升至语义层面,其提出的整体事件本体模型为多种的实际应用提供了技术支持,很好的改善了用户在进行信息搜索时的体验,具有较大的现实意义。
其他文献
近年来,随着计算机技术的迅猛发展,研究符合人际交流习惯的新颖的人机交互方式变得异常活跃。作为自然的人机交互的一个分支及机器视觉领域的一项重要内容的基于计算机视觉的手
近年来,互联网的迅速普及带动了信息技术的飞速发展,信息技术对人们的生活产生了巨大的影响。在这种环境下,政府和企业都在加快信息化建设的步伐,构建基于Web的电子政务、电
本论文主要介绍了基于DSP的自适应智能型积分器和交替式积分器的设计。作者通过对传统模拟积分器电路及数字信号处理等方面的深入调研,给出了实际积分电路的理论计算和误差分
在血液常规检查中,血球分析仪是医学临床检验最常用的仪器,为疾病的诊断提供重要的依据。随着微电子技术和超大规模集成电路的高速发展,基于嵌入式技术的血球分析仪系统在功
定位同步系统为综合检测列车上的各检测系统提供统一的距离采样控制基准及统一的时间、速度和里程标签,并通过实时的里程同步和距离脉冲通道发布,使处于整列车不同断面位置的检
随着医院信息系统的普及,医院数据库规模不断扩大,数据复杂程度日益增加。如何从现行医院信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱
在遥感数据的获取、处理、分析、数据转换等各种操作中,都会引入不同类型和不同程度的不确定性,并在随后的各种处理过程中传播,最终的不确定性则是各种不确定性不断积累的结果。随着遥感分类数据被广泛地作为GIS中研究土地覆盖和利用情况以及GIS中各种模型的重要数据源,研究遥感影像分类过程中的不确定性具有十分重要的意义。粗糙集理论是一种处理不确定性的数学工具,作为一种新兴的归纳学习方法,以其“不需对数据的任何
个性化、实时化、高效化构建三维人体模型已经成为虚拟人体建模的发展趋势,有着重要的研究价值和广泛的应用前景。三维人体虚拟人体的个性化建模、降低三维人体建模的构造成本
消息中间件(Message Oriented Middleware,MOM)是目前中间件技术的发展热点。它利用高效可靠的消息传递机制来进行平台无关的数据交流,并基于数据通信来实现分布式系统的集成。