【摘 要】
:
近年来,随着社会网络及个人博客、微博的成功,互联网已经全面进入开放、平等、去中心化为特点的Web2.0时代,网络信息资源的海量增长使互联网信息重复与信息过载的问题日趋严
论文部分内容阅读
近年来,随着社会网络及个人博客、微博的成功,互联网已经全面进入开放、平等、去中心化为特点的Web2.0时代,网络信息资源的海量增长使互联网信息重复与信息过载的问题日趋严重。因此,如何将半结构化、离散分布的互联网信息动态关联并聚合起来,有效提供服务并促进知识共享,成为当前国内外学者主要研究方向。本文在研究文本聚类分析的基础上,借助中文分词、文本去重等技术,结合传统搜索引擎技术及RSS信息聚合技术,提出一种自动精炼Web信息、聚合语义相似信息的信息处理方法,以便根据潜在语义将相同或相似的Web信息自动聚合,及时发现新主题,追踪已有主题的演化趋势。本文主要研究内容包括:1、针对传统信息聚合技术缺乏对信息本身处理的问题,本文提出web信息自动聚合系统设计方案,根据功能不同将系统分为信息获取、信息预处理、按语义聚合三部分,并对每一部分的处理过程进行详细分析与设计。2、研究分析现有网页正文抽取技术,提出一种基于标点分布和标签相似度的多正文网页抽取技术,利用网络上爬取的网页进行实验,实现证明该方法能有效的将网页中的主要信息分正文抽取。3、深入研究文本主题模型,特别是能根据文本潜在语义信息对文本进行聚类的LDA主题模型;针对Web信息多样化、主题多变的特点对LDA进行一定改进,使只能处理离线的、无时间信息的LDA模型应用于在线的Web信息聚合系统中;实验分析表明,该算法可以根据潜在语义将所涉主题相关的文档归类,同时可以根据不同时间的主题分布和主题热度对主题进行演化分析。
其他文献
该文研究了一种应用于移动卫星通信系统的定向圆极化多臂平面螺旋天线.首先,论述了多臂平面螺旋天线的工作原理,随后运用二次曲线段三角基函数展开的矩量法对四臂平面螺旋天
三代虫(Gyrodactylus)是一类常见的鱼类体外寄生虫,一般寄生于鱼类的体表、鳍条和鳃,对鱼体健康造成较严重的危害。为了有效防控三代虫病的发生,本论文以小林三代虫(G.kobayashii)及
本研究从我国南北方代表地区收集了不同感染部位和致病类型的临床来源酵母菌1200余株,并从689名健康人口腔或生殖道黏膜系统分离了念珠菌90株,对其进行了基于26S rDNA D1/D2单
现阶段,受环境因素、生活方式、饮食结构等因素的影响,导致宫颈癌临床发病率逐年攀升.宫颈癌属于临床生殖系统常见的恶性肿瘤,对患者身心健康、生命安全造成严重威胁.较妇科
该文着重研究宽带音频信号的压缩编码和正交频分复用(OFDM)-DAB接收机两项DAB的关键技术.
研究四川藏区超高海拔深贫县世居藏民高血压基本状况;分析高血压的主要影响因素对当地世居藏民高血压患病人群的影响;通过对高血压患者健康管理,提高血压达标率,减少或延缓并
该文所做的工作主要是在非线性薛定谔方程的基础上,首次提出了一种完全不同于数值方法的求解方式,即级数解,并进一步得到近似解析解,它有利于研究者直观地理解光信号在光纤中
该文简要介绍了同步数字体制(SDH)的有关理论,并对国外的SDH 2Mb/s异步映射-去同步专用芯片ADMA-E1进行了介绍.对SDH 2Mbit/s异步映射去同步电路中的关键部分进行了研究,包
该文针对目前国内外热处理过程计算机控制系统的模型,深入分析了直接控制(DDC)系统、监督控制(SCC)系统及集散控制系统(DCS)等的构成及特点.其中DCS是融合DDC系统、SCC系统及