【摘 要】
:
近年来,随着web2.0的迅猛发展,互联网不断扩展成一个拥有海量数据并且内容丰富的信息载体。并且涌现出一些新型的,与用户交互性强的知识服务形式,其中典型的服务包括百科知识
论文部分内容阅读
近年来,随着web2.0的迅猛发展,互联网不断扩展成一个拥有海量数据并且内容丰富的信息载体。并且涌现出一些新型的,与用户交互性强的知识服务形式,其中典型的服务包括百科知识、个人博客、论坛等等。其中,论坛在网络上营造了一个虚拟空间,用户可以在这里提出并讨论问题,共享信息。由于其发表帖子随意形式简单,有很高的时效性,深受广大用户的喜爱。如何能充分利用金融领域论坛中的数据,整理并挖掘海量论坛数据中有用的信息,提供给用户查询访问是本课题的主要内容。 本文主要构建了面向金融领域论坛搜索以及观点判别系统,主要包括以下两个部分: 首先搭建一个面向金融领域论坛的垂直搜索引擎,按照搜索引擎的流程,依次实现了爬虫模块,网页数据提取并索引模块,查询排序模块。针对金融领域论坛垂直搜索,每一部分的实现都有其自身的特点。在爬虫模块的设计中,抓取策略是对于每天的热点股票给与更高的抓取频率,以提高系统整体数据的时新性。在查询排序模块中,不仅提供了通用搜索中的相关性排序,针对论坛这一结构,用户还可以选择根据点击量,回复数,发表时间等排序结果。 接下来,又对论坛中的帖子数据做了进一步的挖掘,为用户提供更加人性化,智能化的服务,主要工作就是通过文本分类判别论坛帖子的观点。在将文本数据分词,文本特征提取之后,使用朴素贝叶斯算法完成分类的工作。并改进了贝叶斯算法,提出了基于知网HowNet词语相似性的朴素贝叶斯算法,有效提高了文本分类的性能和准确性。 本课题金融领域论坛搜索及观点判别中的所有模块都已经挂载海天园的平台上面,可以稳定运行并为用户提供服务。
其他文献
随着社会的快速发展,人们对安全的要求越来越高,尤其是在涉及国家安全、金融、政法、电子商务等行业或领域时显得尤为重要。在这种情况下,就需要一种安全可靠的认证方法。生
随着因特网技术的不断发展,网络信息已经逐步成为人们学习、工作和生活中不可或缺的重要组成部分。网络提供了大量的文本信息,如新闻、博客、论坛、微博等。这些非结构化的数
通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。随着日志数据规模的增长,日志分析的可扩展性技术研究成为日志分析的研究方向。频
随着网络规模的逐渐增大,所储存数据的逐渐增多,安全性已成为网络建设的第一要素。访问控制作为实现数据保密性和完整性机制的重要手段,被美国国防部可信计算机系统评估标准T
随着互联网最近几年的迅猛发展,网络上的信息越来越多,开始进入网络生活时代。而如何能够快速、准确地找到自己所需要的信息,特别是短时间内爆发的突发性事件,变得越来越迫切
近年来,随着机械制造业的不断发展,用于残余应力消除的振动时效系统由于能耗少、污染低、作用周期短、操作简单,正在不断的替代传统的自然时效和热时效,得到了越来越广泛的应
网络流量异常指的是流量偏离正常模型。引起流量异常的原因有很多,比如恶意攻击、网络设备故障、正常的突发用户行为等。网络异常检测的目的就是及时检测出异常的发生,便于网
随着互联网的出现并不断发展,人们获取到的信息形式经历了从过去的文本、数字到如今的图像、语音、视频等多媒体的过程。当下三维模型在多媒体领域中的需求量大,该领域对三维
伴随着流媒体时代的到来,网络规模和应用获得了快速增长,为网络服务提出了新的挑战。传统的拥塞控制机制使用的是尽力服务模式,取得了一系列发展成果,为网络的健壮发展和性能
如何解决多企业间的快速互联协作一直是计算机网络研究中非常重要的研究课题。在目前网络技术迅速发展的背景下急需一种能为不同企业提供统一的快速互联协作机制的新型网络应