企业外部商业关系抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mqkxxmvo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着因特网的快速发展,Web网页的数量也呈现出急剧增长的趋势,海量的网页中通常蕴含着丰富的企业竞争情报,如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点问题。企业竞争情报包含竞争者发现、商业关系抽取等多个方面,并且商业关系抽取已成为企业获取商业竞争情报的一种有效手段,在当今社会发挥着越来越重要的作用。   本论文关注于从Web网页中抽取企业外部商业关系,企业外部商业关系是一种重要的企业竞争情报,主要反映了本企业与其他企业之间存在的商业行为,通过获取企业及其他企业存在的商业关系可以帮助人们推测企业的发展策略,辅助人们决策。本文主要研究了企业外部商业关系中的收购关系和合作关系抽取问题,主要贡献如下:   (1)提出了面向Web网页的Top-k企业收购关系抽取算法。   本论文研究了在海量的Web网页中抽取企业收购关系的问题,并提出了一种新颖的算法,该算法引入了Web文本的时态特征和语义强弱性分类技术来实现企业收购关系的抽取。它通过对句子时态进行标注,再将时态特征应用到句子分类上解决描述收购关系的候选句子的语义强弱性分类问题,在此基础上对候选的收购对象进行排序产生最终的Top-k个企业收购关系。实验分别测试了6144个从Google返回的网页,以及386818个从New York Times下载的网页,实验结果表明了所提出算法的有效性。   (2)提出了基于简单模式生成算法的企业合作关系抽取方法。   企业外部商业关系抽取过程中,首先通过简单模式“公司名+关系指示词”来获取数据集中存在的目标关系候选句子,然而在合作关系抽取过程中发现手工输入的简单模式存在着候选句子识别率过低的问题。针对这一问题,本论文提出了基于聚类的简单模式生成算法来自动的生成模式,提高候选句子识别率,在此基础上完成合作关系抽取。该算法引入了WordNet来获取句子中的关键字信息,通过加入关键字权重信息来改进传统的TFIDF计算词语权重的不足,并采用聚类的方法得到最优簇,抽取最优簇中满足条件的关键字加入简单模式集合中,最后在时态标注、语义强弱分类的基础上完成合作关系抽取。实验结果表明算法显著提高了候选句子识别率和合作关系抽取效果。
其他文献
当今社会,网络视频会议以及高清视频点播等应用广泛流行,这就对视频编解码的编解码质量以及编解码速度提出了更高的要求。与此同时,视频分辨率急剧增加,从QCIF(176×144)到当今最
贝叶斯网络模型是不确定性知识表示和建模领域中最经典、最有效的模型之一。贝叶斯网络自然地将概率论与图论相结合,既能反映出观测数据的内在规律,其图形化的表示方式又具有
客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的
利用通用多核平台构建高速软件路由器是当前的一个研究热点,研究发现基于Linux的网络子系统是影响软件路由器性能的一个重要瓶颈。我们分析了Linux网络子系统的开销分布以及Pa
人类对于面部表情的研究,最始于生理学家和心理学家对于表情和情绪的研究,他们对表情和情绪之间的关系、表情的多样性、脸部表情含义的表述以及表情的分类等问题进行了研究。从
随着语义网(The Sematic Web)的发展,本体得到了越来越多的应用。本体是概念化的明确的规范说明,其主要目标是实现某种程度的知识共享和重用,以提高互操作、系统通讯和可靠性
李群学习模型不仅提供了描述数据的几何表示方法,而且给出了具体的代数求解方案。相对于传统的学习算法,李群学习可以高效处理矩阵样本,避免了因为维数的急剧增加而给分类识别带
图像是机器视觉系统的重要视觉信息。然而,图像采集和成像系统不可避免的存在模糊、运动变形和噪声等降质和退化过程,不但影响了人们对图像的视觉感受,而且大大降低了图像中
无线传感器网络WSN是由大量传感器节点以自组织方式构成的网络,网络安全性问题是制约无线传感器网络发展的重要难题,是国内外学者广泛关注的研究方向。其中密钥管理是WSN安全
最近十多年,农作物病害、虫灾越来越严重,其病害种类越来越多、规模越来越大,因此而造成了大幅度的农业减产。伴随着计算机技术的发展,特别是人工智能技术、图像处理技术在各领域