终端个性化信息提取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:youzheng123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个性化信息服务获取用户的个性化需求,并据此有针对性地向用户推送相关内容、过滤不相关内容,提高用户获取和使用网络信息的效率,减轻用户负担,能够有效地缓解“信息过载”和“信息迷失”带来的负面效果。个性化技术的研究已经引起了学术界和工业界的广泛关注和参与,并输出了一系列重要的研究成果。  随着智能终端相关技术的发展和产业的壮大,智能终端成为用户与网络世界连接的第一现场,是用户使用信息和网络感知用户的末梢。由于智能终端相比传统PC机,其图形界面方案和输入方式受限,“信息过载”带来的负面影响会更加明显。因此,近年来针对移动终端设备的移动个性化技术成为个性化技术中一个新兴的研究领域,其涉及到的个性化信息获取、表示技术要求更高,对信息的推荐、过滤过程一般要求加入上下文信息。所谓移动个性化是指针对目前具有联网能力的移动智能终端开展的个性化服务,考虑到其主要特点在机顶盒等智能终端上也完全得到充分体现,因此本文研究中统称。  当前终端个性化研究面临一些挑战,除了在传统“用户-物品”二维推荐模型的基础上加入了上下文成为“用户-上下文-物品”三维模型外,其主要挑战来源于用户个性化信息的完整、精确获取和表达。相关的技术包括终端数据采集技术、数据挖掘和用户建模技术。本文针对这些问题展开了终端用户个性化信息关键技术研究,主要贡献和创新点如下:  1)针对终端数据采集完整性和精确性问题,提出了一个两层数据采集框架,同时面向内容采集和面向会话采集用户行为记录。面向会话采集可用于用户访问路径相关行为模式分析,而面向内容的会话采集能够支持更精确地定位用户真正感兴趣的内容本身,提高后续挖掘用户兴趣的精准度。同时,框架摆脱依赖Web的现有终端采集思路,设计实现异构信息源的管理框架,使得采集范围可以超出Web限制,延伸至本地其它组件,提高用户行为采集的完整性。  2)针对用户数据的高维挖掘问题,提出一种优化的高维子空间聚类模型。将网格划分分为两个步骤,分别对多维数据空间进行粗网格和细网格两种粒度的划分。在粗网格上执行致密网格搜索算法,发现细网格精度的聚类。在实现相同精度的子空间聚类挖掘时,改进的模型提高了时间空间效率的同时有效抑制了高维子空间干扰小聚簇带来的误差和额外资源消耗。该算法在聚类过程中首先要找出分布在所有子空间的致密网格,每一个网格可以容易地转换为频繁项,因此也可用于频繁项挖掘,而聚类和频繁项挖掘是个性化技术中的基本技术,改善其在高维子空间挖掘的性能具有重要意义。合成数据集实验表明该模型聚类精准率和查全率性能明显优于原模型;基于真实数据集实验,相比一次划分模型,该模型以损失0.4%数据点的代价提高输出聚类密度19.4%,聚类质量大幅提升。  3)针对终端用户行为数据的数据流特点,以及终端用户组个性化信息的分析需求,提出一种针对分布式数据流的聚类挖掘方法。现有数据流聚类方法中,用于离线发现聚类的概要信息多针对单个数据流生成,而实际应用中为了分析不同规模用户组的个性化信息,需要将概要信息逐级汇总,以生成总的数据集上的聚类。为了支持在时间空间上对概要信息正确融合,本文提出全局统一的网格划分,并以时间衰退取代常见的序列衰退。离线部分采用差别阈值发现高维子空间聚类,以取得更好的高维挖掘性能。实验表明方法不仅能正确发现和演进聚类结果,其在线部分时空间效率明显优于现有算法。相较于对比算法,压缩需要通信的概要规模73.5%~82.1%,时间效率提高85%~208%。  4)针对终端用户个性化信息描述问题,提出一种改进的向量空间模型,扩展经典向量空间模型中关键词为多维词组——多维关键词,并给出了关键词提取方法和权重计算方法、以及不同维度关键词权重的平衡技术。由于携带了词的共现概率,扩展的多维关键词向量空间模型突破了经典向量空间模型不能携带语义信息的局限,同时保持与经典向量空间模型相当的复杂度,远低于现有的主题模型、本体模型等语义模型。在资源受限的终端环境下,多维关键词向量空间模型具有实用价值和效率优势。与经典关键词模型相比,多维关键词模型在实验中降低了24.2%的MAPE和24.9%的MAE。  综上所述,本文将一种在不同子空间采用差别阈值的聚类思想——密度意识聚类——用于个性化信息提取研究,将数据挖掘领域的理论创新用于解决实际的终端个性化需求,研究并解决了相关的数据采集问题、效率问题、增量处理问题和兴趣模型优化问题。本文优化密度意识聚类的效率,并扩展其增量处理数据流的能力;利用密度意识聚类在高维子空间挖掘优势挖掘多维关键词,作为改进的向量空间模型的训练工具;本文还给出了一个面向内容的用户行为数据采集框架,以提供模型训练所需的数据。
其他文献
扩声系统广泛应用于影剧院、报告厅、会议室、教室等公共场所。在扩声系统中,传声器接收到的信号不仅包括声源的直达声信号,还包括扬声器的反馈声信号,以及声源由于墙壁、地面、
本文通过研究侧扫声纳图像的纹理特征量的提取和分类识别方法,找到了几个具有不错分类效果的特征量组合.在论文中,我们分析了表征图像纹理特性的各种特征量,它们是游程长度分
低密度校验(LDPC)码被证明是一种拥有强大纠错能力,可逼近信道容量的信道编码技术,目前正广泛应用于通信系统中。本文重点研究了短码长中高码率的LDPC码译码技术,其中包括提出了
本文对甘肃道地药用植物党参和当归的遗传多样性进行了研究。结果表明,甘肃栽培的党参无论是在物种水平还是在居群水平都具有丰富的遗传多样性,党参栽培居群间的遗传分化很小,遗
时空标记交换是一种有效的信令机制,其主要特点就是将信令协议和路由协议紧密结合,而多粒度交换能够有效简化交换节点,降低成本。将时空标记交换和多粒度交换结合,能够提高效率,降
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)与离散多音(Discrete Multitone,DMT)由于频谱效率高、对信道时延扩展的鲁棒性强、简单的频域信道均衡以及
石梅湾,是世界唯一生长在滨海砂土上的国家珍稀濒危植物——青皮(Vaticahainanensis)林的所在区域,同时也是海南省重点的旅游开发区。本文应用国外流行的景观结构分析软件FRAGS
摘要:随着素质教育思想的深入,对中学数学教学提出了更高要求,其中几何机械化类问题是初中数学知识中的重要组成部分,对培养学生创新思维有重要作用。本文主要围绕中学数学机械化类解题思想、中学数学机械化类解题过程实例两方面展开讨论,根据实际习题来分析机械类数学问题的解题方法,可帮助学生充分掌握数学解题技巧,有利于数学教学的良好发展。  关键词:中学数学;机械类问题;解题教学方法  前言:中学数学课程经过改
随着减振降噪技术的发展,水下目标辐射的噪声级越来越低,常规被动宽带检测方法很难满足当前需求。螺旋桨旋转时切割水体会产生低频线谱,这些线谱较连续谱有更高的谱级,并且在长距
植物在生长发育过程中会遇到各种逆境的胁迫,为了对抗这些胁迫,他们在进化过程中形成了相应的应激机制。有些机制是为了适应某种特定的胁迫,比如说钠氢泵在耐盐中所起的作用;而有