企业外部商业关系抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：mqkxxmvo

【摘要】

：

近年来，随着因特网的快速发展，Web网页的数量也呈现出急剧增长的趋势，海量的网页中通常蕴含着丰富的企业竞争情报，如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点

【作者】

：

杨佳

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2013年期

【关键词】

：

企业商业关系抽取句子时态特征简单模式生成算法 Web网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着因特网的快速发展，Web网页的数量也呈现出急剧增长的趋势，海量的网页中通常蕴含着丰富的企业竞争情报，如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点问题。企业竞争情报包含竞争者发现、商业关系抽取等多个方面，并且商业关系抽取已成为企业获取商业竞争情报的一种有效手段，在当今社会发挥着越来越重要的作用。　　本论文关注于从Web网页中抽取企业外部商业关系，企业外部商业关系是一种重要的企业竞争情报，主要反映了本企业与其他企业之间存在的商业行为，通过获取企业及其他企业存在的商业关系可以帮助人们推测企业的发展策略，辅助人们决策。本文主要研究了企业外部商业关系中的收购关系和合作关系抽取问题，主要贡献如下:　　 (1)提出了面向Web网页的Top-k企业收购关系抽取算法。　　本论文研究了在海量的Web网页中抽取企业收购关系的问题，并提出了一种新颖的算法，该算法引入了Web文本的时态特征和语义强弱性分类技术来实现企业收购关系的抽取。它通过对句子时态进行标注，再将时态特征应用到句子分类上解决描述收购关系的候选句子的语义强弱性分类问题，在此基础上对候选的收购对象进行排序产生最终的Top-k个企业收购关系。实验分别测试了6144个从Google返回的网页，以及386818个从New York Times下载的网页，实验结果表明了所提出算法的有效性。　　 (2)提出了基于简单模式生成算法的企业合作关系抽取方法。　　企业外部商业关系抽取过程中，首先通过简单模式“公司名+关系指示词”来获取数据集中存在的目标关系候选句子，然而在合作关系抽取过程中发现手工输入的简单模式存在着候选句子识别率过低的问题。针对这一问题，本论文提出了基于聚类的简单模式生成算法来自动的生成模式，提高候选句子识别率，在此基础上完成合作关系抽取。该算法引入了WordNet来获取句子中的关键字信息，通过加入关键字权重信息来改进传统的TFIDF计算词语权重的不足，并采用聚类的方法得到最优簇，抽取最优簇中满足条件的关键字加入简单模式集合中，最后在时态标注、语义强弱分类的基础上完成合作关系抽取。实验结果表明算法显著提高了候选句子识别率和合作关系抽取效果。

其他文献

基于主流视频编解码的基准测试程序的设计与实现

当今社会，网络视频会议以及高清视频点播等应用广泛流行，这就对视频编解码的编解码质量以及编解码速度提出了更高的要求。与此同时，视频分辨率急剧增加，从QCIF(176×144)到当今最

学位

视频编解码处理器结构热点函数测试程序软件开发评测指标

基于信息论的贝叶斯网络结构学习算法研究

贝叶斯网络模型是不确定性知识表示和建模领域中最经典、最有效的模型之一。贝叶斯网络自然地将概率论与图论相结合,既能反映出观测数据的内在规律,其图形化的表示方式又具有

学位

贝叶斯网络信息论结构学习算法

电信客户流失预测的研究

客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的

学位

客户流失数据挖掘属性集选择预测类不平衡

基于通用多核处理器的零拷贝IP转发的研究与实现

利用通用多核平台构建高速软件路由器是当前的一个研究热点，研究发现基于Linux的网络子系统是影响软件路由器性能的一个重要瓶颈。我们分析了Linux网络子系统的开销分布以及Pa

学位

IP转发零拷贝并发无锁通用多核处理器流水线并行任务并行

基于高斯回归的多姿态人脸情感识别应用研究

人类对于面部表情的研究，最始于生理学家和心理学家对于表情和情绪的研究，他们对表情和情绪之间的关系、表情的多样性、脸部表情含义的表述以及表情的分类等问题进行了研究。从

学位

表情识别高斯回归特征向量k-means聚类隐马尔可夫模型

高效的基于多策略本体映射方法的研究

随着语义网(The Sematic Web)的发展,本体得到了越来越多的应用。本体是概念化的明确的规范说明,其主要目标是实现某种程度的知识共享和重用,以提高互操作、系统通讯和可靠性

学位

本体本体映射相似度多策略

基于李群学习模型的颜色特征不变性关键问题研究

李群学习模型不仅提供了描述数据的几何表示方法，而且给出了具体的代数求解方案。相对于传统的学习算法，李群学习可以高效处理矩阵样本，避免了因为维数的急剧增加而给分类识别带

学位

李群机器学习李特征描述子颜色特征不变性图像匹配目标跟踪

降质图像的变分贝叶斯超分辨与分层自适应分割算法

图像是机器视觉系统的重要视觉信息。然而,图像采集和成像系统不可避免的存在模糊、运动变形和噪声等降质和退化过程,不但影响了人们对图像的视觉感受,而且大大降低了图像中

学位

降质图像超分辨率重建预处理多层次分割应用系统

异构传感网络的密钥协商机制研究

无线传感器网络WSN是由大量传感器节点以自组织方式构成的网络,网络安全性问题是制约无线传感器网络发展的重要难题,是国内外学者广泛关注的研究方向。其中密钥管理是WSN安全

学位

无线传感器网络异构传感器网络密钥管理机制椭圆曲线加密算法网格分簇路由驱动

扁豆病斑叶片图像分割研究

最近十多年，农作物病害、虫灾越来越严重，其病害种类越来越多、规模越来越大，因此而造成了大幅度的农业减产。伴随着计算机技术的发展，特别是人工智能技术、图像处理技术在各领域

学位

扁豆病斑叶片图像剥离分割彩色梯度模糊C聚类

企业外部商业关系抽取研究

其他学术论文