论文部分内容阅读
互联网络具有两个重要特征:一个是数据量非常大,另一个是数据更新速度极快。网络用户对及时的、个性化的网络信息服务越来越感兴趣。网络信息跟踪被用来跟踪动态网络,即时地获取网络上信息的更新,分析用户的行为模式,将最新的信息及时地报告给用户。本文基于网络的动态、大容量特性以及用户对服务的个性化要求进行研究,围绕网络信息跟踪系统及其后续信息处理技术展开讨论。主要的创新工作和贡献包括以下几个方面:
1.将集群分布式处理技术引入到被动式网络信息跟踪中,所提出的半静态路由表生成算法达到了集群节点间的负载均衡;利用网络信息内存实时重构以及自主的块内存管理提高了数据吞吐量;利用集群多机备份特点提高了系统可用性。实现的系统完成了对大规模网络数据流量的跟踪,对现有的被动网络信息跟踪系统做出了重大的改进。
2.提出主动式网络信息跟踪概念,建立了指数正比分配策略模型并通过研究得出资源分配正比于更新频率平方根的策略能够使总体更新检测时间最短。提出使用地理分布式跟踪技术跟踪广泛分布的大规模网络信息降低了网络数据传输量并缩短了传输时间。
3.提出把一致性散列算法引入到网页信息存储中,根据网页的URL进行一致性散列来确定保存网页的对应节点。该算法使得网页在节点之间均衡分布,系统扩展时数据迁移量达到最小,并且使用一致性散列中的多备份机制提高了网页存储系统的可用性。
4.提出对象集可用性概念以及在对等计算环境下用节点分组算法提高对象集可用性。该算法考虑了对等计算环境下节点可用性的不同以及可用资源的限制,将节点按照可用性进行分组,对象在组间进行均衡分配,提高了整个对象集的可用性。
5.提出综合原始搜索引擎的排序、用户的兴趣偏好以及用户的在线反馈三个因素提供个性化检索结果的一系列算法。该组算法利用交互操作收集用户兴趣偏好,并将其应用于个性化元搜索引擎的构造中。结果表明,使用个性化检索技术,提高了针对特定用户检索结果的准确度。