论文部分内容阅读
近年来,随着因特网的快速发展,Web网页的数量也呈现出急剧增长的趋势,海量的网页中通常蕴含着丰富的企业竞争情报,如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点问题。企业竞争情报包含竞争者发现、商业关系抽取等多个方面,并且商业关系抽取已成为企业获取商业竞争情报的一种有效手段,在当今社会发挥着越来越重要的作用。
本论文关注于从Web网页中抽取企业外部商业关系,企业外部商业关系是一种重要的企业竞争情报,主要反映了本企业与其他企业之间存在的商业行为,通过获取企业及其他企业存在的商业关系可以帮助人们推测企业的发展策略,辅助人们决策。本文主要研究了企业外部商业关系中的收购关系和合作关系抽取问题,主要贡献如下:
(1)提出了面向Web网页的Top-k企业收购关系抽取算法。
本论文研究了在海量的Web网页中抽取企业收购关系的问题,并提出了一种新颖的算法,该算法引入了Web文本的时态特征和语义强弱性分类技术来实现企业收购关系的抽取。它通过对句子时态进行标注,再将时态特征应用到句子分类上解决描述收购关系的候选句子的语义强弱性分类问题,在此基础上对候选的收购对象进行排序产生最终的Top-k个企业收购关系。实验分别测试了6144个从Google返回的网页,以及386818个从New York Times下载的网页,实验结果表明了所提出算法的有效性。
(2)提出了基于简单模式生成算法的企业合作关系抽取方法。
企业外部商业关系抽取过程中,首先通过简单模式“公司名+关系指示词”来获取数据集中存在的目标关系候选句子,然而在合作关系抽取过程中发现手工输入的简单模式存在着候选句子识别率过低的问题。针对这一问题,本论文提出了基于聚类的简单模式生成算法来自动的生成模式,提高候选句子识别率,在此基础上完成合作关系抽取。该算法引入了WordNet来获取句子中的关键字信息,通过加入关键字权重信息来改进传统的TFIDF计算词语权重的不足,并采用聚类的方法得到最优簇,抽取最优簇中满足条件的关键字加入简单模式集合中,最后在时态标注、语义强弱分类的基础上完成合作关系抽取。实验结果表明算法显著提高了候选句子识别率和合作关系抽取效果。