论文部分内容阅读
                            
                            
                                
                            
                            
                              摘要:随着计算机技术的发展和互联网的普及,高清视频、图片、下载、音乐、网页内容越来越丰富,这些图像和视频等多媒体信息的获取和传播越来越方便快捷,因此,如何在浩如烟海的数据中准确无误地查询所检索的信息;在海量的数据面前有不同的媒体数据展现形态,如何进行数据检索、收集、汇总、分析,从而得出智能化的推论。一种新型的数据分析方法,如对物体示例搜索、基于Hadoop的图像检索和网络视频中热点事件聚类3个方面进行交叉研究,主要工作是针对数据形态,文本数据、视频数据以及文本与视频跨态数据,构建各自的相似度块矩阵,文本模态、视频模态以及文本与视频间的跨模态,将多模态融合的相似度矩阵和谱聚类算法结合起来,在热点事件视频数据库中进行聚类效果的分析,实验验证了方法的有效性,从而获得市场或者决策依据。
关键词:数据分析;跨媒体数;数据索引;索引优化;数据智能分析系统
随着市场经济和科学技术水平的不断发展以及互联网技术的不断更新,由海量多媒体信息形成的大数据急需一种更加高效灵活的处理方式,即大数据建模方法,跨媒体数据统一识别、数据关联推理、数据深度挖掘、信息综合搜索方式、数据内容集成整合等,都需要跨媒体数据研究向智能化、大型化深入发展。
1 跨媒体检索的含义和演进
麦格克早在1976年就告诉我们:人类对一个整体事物的一个概念性理解,需要人脑跨越和综合不同感官信息来判断和识别外界信息。跨媒体检索就是这样一个过程,就是常说的跨媒体信息检索。它适应当前信息检索的需要,受到国内外学术界的广泛关注,其检索特点是将相同内容、相同语言意义作为一个研究对象,是一种复杂类型的媒体信息检索技术。它识别检索的不仅仅是文字,还包括图像、音频等广义上的文件或者文件包,因此,需要一个内嵌的中央处理器(CPU)进行分析运算。
2 对跨媒体数据进行智能化处理的前提
首先要设计一种支持多模态检索的方法,实现从一种模态的媒体对象检索出另一种模态媒体对象的功能,这样才能有一个数据底层识别的标准。
跨媒体识别标准设立的意义。由于跨媒体内容形式多样,识别的难度自然加大,需要处理和分析汇总的运算能力就要高效、快速、精确,否则无法进行精准的识别。为了实现这个目标,对信息智能化处理的前提是需要打造一个支持多模态、高纬度的信息检索中心,运用多模检索、高纬度识别技术就可以实现检索目的。
其次应用高维索引技术,对数据信息进行检索分析。高维索引技术已经有20年的运用历史,在索引检索、归类、汇总上作用巨大。一般采用树形索引,利用空间分片、化区的办法进行归类索引,如Rtree及其变种是最常用的,但树形检索只适用于少维度的空间,对于多维度的检索需要首先进行数据降层转化,然后按层级处理。
再次是对原始向量采用近似的方法表示,如IQ-tree和VAfile之类向量就只能用近似模式来体现。这种检索方法可以加速按顺序检索数据信息,但也有很多弊端,由于模糊的方法在有的时候显示出来的效果会南辕北辙、答非所问,影响检索效果。
最后是如何对数据进行降层、降纬度处理的问题。当前使用最多的办法就是先对信息进行维度降低,把高维度的信息统统进行转化,通过将高维数据转化为一维数据进行高维查询,包括NB-Tree和Distance等。
总之,要形成一个衡量系统的标准体系,然后根据识别标准设计出合理的检索办法,对跨媒体数据进行数据检索、收集、汇总、分析。
3 数据检索引擎的建立
数据检索、收集、汇总、分析,根据跨媒体数据类型进行分类统一,然后进行建模,构建了跨媒体基元生成模型,还建立了跨媒体数据的局部特征和全局特征之间的映射机制,从多媒体数据表现出的底层特性出发,建立了相应的数据索引结构。经过一系列算法运算之后为图像内容相似度匹配模型,采用基于改进的语音识别算法实现了音频内容的模板匹配过程,完成了图像与音频的互检索,初步形成了从一种媒体类型检索到另一类媒体的设计过程,建立相应的跨媒体索引。整个系统运作过程就是一个数据分析引擎。
4 对跨媒体数据进行智能化处理的方法
通过分析不同模态的信息或者数据内容的特征以及它们各自在统计意义上的典型相关性,然后通过它们各自在二维空间跨媒体数据的各自维度,整合修正拓扑结构,解决了特征向量的异构性问题,从而结合相关反馈中的先验知识,提出数据分析模型。
4.1 数据查询与优化问题
首先会遇到几个难题:
(1)如何实现实时检索。实时检索可以使数据最大可能地表现真实性。
(2)查询会导致系统内存不足。内存是系统数据处理的仓库,频繁查询会加大系统运算所使用内存的容量。
(3)会产生数据冗余。数据冗余会导致数据库中数据的重复出现,占用大量的存储空间,在使用中导致不便,在系统设计中要尽可能降低数据冗余,达到数据的简洁、易用。
(4)数据替换速度如何解决?
(5)数据容错、纠错速度。容错就是当由于各种原因,假如在系统中出现了数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。容错有很多种形式,比较常用的有硬件容错、软件容错、整机容错、全线容错等,在容错技术中提高系统工作可靠性的方法主要有系统自检技术和冗余技术。
要解决上述一系列问题,首先需要组建数据分发服务器机群,包括多台数据分发服务器,用于将需要创建的数据拆分,并分发给创建数据索引服务器;创建数据索引服务器机群,包括多台创建数据索引服务器,接收数据分发服务器分发的数据并为数据创建索引;检索服务器机群,根据索引过程中需要完成的功能对服务器进行分配,避免抢资源。其次是建立一个数据库查询仓库。数据库索引如同翻阅书籍的目录一样,通过检索索引,就可以轻松查到所需的内容,提高数据库的查询速度,因此数据库查询仓库的建立是不可或缺的。4.2数据库设计完善和优化的方法 海量数据处理的一个热点是数据库(尤其是MySQL)性能优化方法。MySQL数据库优化需要完成以下方面设计。
首先,要千方百计地提升优化索引的性能办法,对数据库的写操作(插入、更新、删除等)尽量用短字节,查询逻辑越简单越好。
其次,充分发挥和利用配置缓存来降低数据库查询读取次数,这样可以大大缓解和释放数据库服务器的压力。
再次,日志分析要灵活使用。数据库长期运行会积累大量的LOG日志,其信息量巨大,我们通过日志分析就能找到系统性能的关键,从而进一步提出系统优化方案。
最后,要优化索引数据库模型。特别是聚集索引,用处更为卓越,具有两个最大的优势:以最快的速度缩小查询范围,时间就是效率,效率就是金钱;以最快的速度进行字段排序。
4.2 衡量海量跨媒体数据优化的标准
首先是数据要易于分析。如果数据查询仅仅看到结果是不够的,当管理决策者对结果有疑问时,要能从多个角度、多条路径去分析为什么会这样。只有这样,才能找到问题的原因,才能让管理决策者更有针对性地提出改善措施,从而提高管理决策水平。数据易于阅读。大数据的一个关键价值就是化繁为简,所以要将数据简化为几个关键的KPI,让管理决策者通过几个数字就能知道经营的情况。同时,数据的可视化也至关重要。一堆密密麻麻、信息量庞大的表格,是无法让管理决策者一眼就发现问题与趋势的,合理地利用仪表盘与图表,就可以让数据动起来。
其次生成的数据要易于获取。目前大家一般在电子表格中处理数据,电子表格EXCEL的功能虽然很强悍,能够熟练应用的人也很多很广泛,但电子表格EXCEL无法完成的一个功能是无法集成为一个完整的平台,无法让所有人通过一个平台去调取数据或者能够调取的也只能是一个个单一无法联通的数据。如果没有办法解决平台化的问题,即大家无法在一个平台上获取数据,而是一个个独立的EXCEL文件,这样管理决策者获得的信息是单一的,其结果还需要一个研发或者设计一个新的整合这些数据的软件,造成了数据无法体现其应有的价值。当前,随着移动互联技术越来越成熟,管理决策者越来越习惯在移动设备上办公,所以如何让管理决策者充分利用移动设备访问数据,是使数据发挥价值的重要原因。总之,数据获取的便捷、快速是衡量海量跨媒体数据智能分析系统优劣的一个重要指标。
最后是如何打造一个扁平化数据,但又不能让所处理数据的原有价值贬值。如果太过去扁平化处理数据,会毁掉原始结构中所表达的重要对应关系。很多用户希望数据呈现的状态可以和可视元素进行交互,从而很清晰明了地得到他们正在寻找的答案。如果数据扁平、过滤次数太多、数据失真,信息会失去原来的价值。这是一个两难的境地。海量跨媒体数据智能分析系统就需要在两难中艰难取舍。
5 大数据、云数据的处理
5.1 数据打包和转移
大数据很“大”,如果打包转移,负担太重。不能将数据提取出来,要将数据处理成一个个数据集市和数据立方,如果“提取”数据,就意味着转移数据,将给数据维护、系统网络性能附加处理器等造成一系列纷乱庞杂的问题,还会出现两个逻辑上相同的备份。解决这个问题,目前应用的最直接的解决办法是利用BI系统,先让BI深入更底层运行数据,做好数据的分析比对,这就是大数据萌发的最初动力。
5.2 数据安全防护问题
众所周知,数据泄露事件频繁发生,要保证数据的安全稳妥,就要选择能够利用现有安全模型的BI工具。依靠Ranger、Sentry、Knox等综合性安全系统,使云技术、大数据实现数据安全变得更加容易,现在就连Mongo数据库都有了令人惊叹的安全架构。所有那些模型都允许插入权限、将用户信息一路传播到应用层、实施可视化的授权和提供与该授权相关的数据志。请记住:数据安全就是服务,就是价值。
5.3 充分利用智能工具、智能软件、智能技术
要利用这些智能工具,我们可以从用户和数据与可视图的交互中获得大量实时信息,再通过现代智能工具整合、汇总、分析,然后得出结论,就可以轻松地让信息为我们服务。
如今的大数据系统因为预测分析能力而著称。相关性、预测和其他功能使企业用户比以往任何时候都能更便捷地进行高级分析,不需要编程经验就能处理大数据的可视化技术使分析师们如有神助,超越了基本分析的范畴。为了实现其真正的潜力,大数据不应该依赖于每个人都变成R预言程序员。人类非常善于处理可视化信息,我们必须更加努力地将可视化信息呈现在人们眼前。
6 打造跨媒体海量数据智能分析系统
打造海量跨媒体数据智能分析系统,要对系统分析、系统预测、系统评估、系统运行管理等整个流程进行一一梳理,对数据的发现、分析、识别、评价和预警等方面分别做出反应动作。
跨媒体海量数据智能分析对数据系统分析、预测和评估,是一个连贯的过程。利用数据挖掘进行数据分析常用的方法有数据分类法、时间回归分析法、数据统一归类法、根据数据相互关联规则、数据差异特征、数据相互变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。一般来说,系统分析是要对数据进行处理,目前使用最多的办法是时间序列分析法、移动平均模型、指数平滑模型、趋势预测、季节指数预测。
系统评估就是对处理数据经过分析和预测后得出的结论。目前应用最广泛的评估办法是系统自动仿真评估。
系统运行管理方面,首先要指定完善的系统运行管理制度,这样可以使系统能够安全可靠地运行下去,要明确各个位置、各方的职责,做好妥善的安排和规划布局。
总之,海量跨媒体数据智能分析系统的打造,需要庞大的资金、技术以及场地等,并非一朝一夕就可以实现,因此我们要进行跨媒体智能系统的研究,尽早打造一个可以进行数据分析、汇总,然后提出预警信息。可以预计,在不远的将来我们预计数据处理速度将会变得越来越快。一个典型方法是联机分析处理(OLAP)立方,本质上就是把数据转移到预计算缓存,从而加快数据处理的速度。
                        关键词:数据分析;跨媒体数;数据索引;索引优化;数据智能分析系统
随着市场经济和科学技术水平的不断发展以及互联网技术的不断更新,由海量多媒体信息形成的大数据急需一种更加高效灵活的处理方式,即大数据建模方法,跨媒体数据统一识别、数据关联推理、数据深度挖掘、信息综合搜索方式、数据内容集成整合等,都需要跨媒体数据研究向智能化、大型化深入发展。
1 跨媒体检索的含义和演进
麦格克早在1976年就告诉我们:人类对一个整体事物的一个概念性理解,需要人脑跨越和综合不同感官信息来判断和识别外界信息。跨媒体检索就是这样一个过程,就是常说的跨媒体信息检索。它适应当前信息检索的需要,受到国内外学术界的广泛关注,其检索特点是将相同内容、相同语言意义作为一个研究对象,是一种复杂类型的媒体信息检索技术。它识别检索的不仅仅是文字,还包括图像、音频等广义上的文件或者文件包,因此,需要一个内嵌的中央处理器(CPU)进行分析运算。
2 对跨媒体数据进行智能化处理的前提
首先要设计一种支持多模态检索的方法,实现从一种模态的媒体对象检索出另一种模态媒体对象的功能,这样才能有一个数据底层识别的标准。
跨媒体识别标准设立的意义。由于跨媒体内容形式多样,识别的难度自然加大,需要处理和分析汇总的运算能力就要高效、快速、精确,否则无法进行精准的识别。为了实现这个目标,对信息智能化处理的前提是需要打造一个支持多模态、高纬度的信息检索中心,运用多模检索、高纬度识别技术就可以实现检索目的。
其次应用高维索引技术,对数据信息进行检索分析。高维索引技术已经有20年的运用历史,在索引检索、归类、汇总上作用巨大。一般采用树形索引,利用空间分片、化区的办法进行归类索引,如Rtree及其变种是最常用的,但树形检索只适用于少维度的空间,对于多维度的检索需要首先进行数据降层转化,然后按层级处理。
再次是对原始向量采用近似的方法表示,如IQ-tree和VAfile之类向量就只能用近似模式来体现。这种检索方法可以加速按顺序检索数据信息,但也有很多弊端,由于模糊的方法在有的时候显示出来的效果会南辕北辙、答非所问,影响检索效果。
最后是如何对数据进行降层、降纬度处理的问题。当前使用最多的办法就是先对信息进行维度降低,把高维度的信息统统进行转化,通过将高维数据转化为一维数据进行高维查询,包括NB-Tree和Distance等。
总之,要形成一个衡量系统的标准体系,然后根据识别标准设计出合理的检索办法,对跨媒体数据进行数据检索、收集、汇总、分析。
3 数据检索引擎的建立
数据检索、收集、汇总、分析,根据跨媒体数据类型进行分类统一,然后进行建模,构建了跨媒体基元生成模型,还建立了跨媒体数据的局部特征和全局特征之间的映射机制,从多媒体数据表现出的底层特性出发,建立了相应的数据索引结构。经过一系列算法运算之后为图像内容相似度匹配模型,采用基于改进的语音识别算法实现了音频内容的模板匹配过程,完成了图像与音频的互检索,初步形成了从一种媒体类型检索到另一类媒体的设计过程,建立相应的跨媒体索引。整个系统运作过程就是一个数据分析引擎。
4 对跨媒体数据进行智能化处理的方法
通过分析不同模态的信息或者数据内容的特征以及它们各自在统计意义上的典型相关性,然后通过它们各自在二维空间跨媒体数据的各自维度,整合修正拓扑结构,解决了特征向量的异构性问题,从而结合相关反馈中的先验知识,提出数据分析模型。
4.1 数据查询与优化问题
首先会遇到几个难题:
(1)如何实现实时检索。实时检索可以使数据最大可能地表现真实性。
(2)查询会导致系统内存不足。内存是系统数据处理的仓库,频繁查询会加大系统运算所使用内存的容量。
(3)会产生数据冗余。数据冗余会导致数据库中数据的重复出现,占用大量的存储空间,在使用中导致不便,在系统设计中要尽可能降低数据冗余,达到数据的简洁、易用。
(4)数据替换速度如何解决?
(5)数据容错、纠错速度。容错就是当由于各种原因,假如在系统中出现了数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。容错有很多种形式,比较常用的有硬件容错、软件容错、整机容错、全线容错等,在容错技术中提高系统工作可靠性的方法主要有系统自检技术和冗余技术。
要解决上述一系列问题,首先需要组建数据分发服务器机群,包括多台数据分发服务器,用于将需要创建的数据拆分,并分发给创建数据索引服务器;创建数据索引服务器机群,包括多台创建数据索引服务器,接收数据分发服务器分发的数据并为数据创建索引;检索服务器机群,根据索引过程中需要完成的功能对服务器进行分配,避免抢资源。其次是建立一个数据库查询仓库。数据库索引如同翻阅书籍的目录一样,通过检索索引,就可以轻松查到所需的内容,提高数据库的查询速度,因此数据库查询仓库的建立是不可或缺的。4.2数据库设计完善和优化的方法 海量数据处理的一个热点是数据库(尤其是MySQL)性能优化方法。MySQL数据库优化需要完成以下方面设计。
首先,要千方百计地提升优化索引的性能办法,对数据库的写操作(插入、更新、删除等)尽量用短字节,查询逻辑越简单越好。
其次,充分发挥和利用配置缓存来降低数据库查询读取次数,这样可以大大缓解和释放数据库服务器的压力。
再次,日志分析要灵活使用。数据库长期运行会积累大量的LOG日志,其信息量巨大,我们通过日志分析就能找到系统性能的关键,从而进一步提出系统优化方案。
最后,要优化索引数据库模型。特别是聚集索引,用处更为卓越,具有两个最大的优势:以最快的速度缩小查询范围,时间就是效率,效率就是金钱;以最快的速度进行字段排序。
4.2 衡量海量跨媒体数据优化的标准
首先是数据要易于分析。如果数据查询仅仅看到结果是不够的,当管理决策者对结果有疑问时,要能从多个角度、多条路径去分析为什么会这样。只有这样,才能找到问题的原因,才能让管理决策者更有针对性地提出改善措施,从而提高管理决策水平。数据易于阅读。大数据的一个关键价值就是化繁为简,所以要将数据简化为几个关键的KPI,让管理决策者通过几个数字就能知道经营的情况。同时,数据的可视化也至关重要。一堆密密麻麻、信息量庞大的表格,是无法让管理决策者一眼就发现问题与趋势的,合理地利用仪表盘与图表,就可以让数据动起来。
其次生成的数据要易于获取。目前大家一般在电子表格中处理数据,电子表格EXCEL的功能虽然很强悍,能够熟练应用的人也很多很广泛,但电子表格EXCEL无法完成的一个功能是无法集成为一个完整的平台,无法让所有人通过一个平台去调取数据或者能够调取的也只能是一个个单一无法联通的数据。如果没有办法解决平台化的问题,即大家无法在一个平台上获取数据,而是一个个独立的EXCEL文件,这样管理决策者获得的信息是单一的,其结果还需要一个研发或者设计一个新的整合这些数据的软件,造成了数据无法体现其应有的价值。当前,随着移动互联技术越来越成熟,管理决策者越来越习惯在移动设备上办公,所以如何让管理决策者充分利用移动设备访问数据,是使数据发挥价值的重要原因。总之,数据获取的便捷、快速是衡量海量跨媒体数据智能分析系统优劣的一个重要指标。
最后是如何打造一个扁平化数据,但又不能让所处理数据的原有价值贬值。如果太过去扁平化处理数据,会毁掉原始结构中所表达的重要对应关系。很多用户希望数据呈现的状态可以和可视元素进行交互,从而很清晰明了地得到他们正在寻找的答案。如果数据扁平、过滤次数太多、数据失真,信息会失去原来的价值。这是一个两难的境地。海量跨媒体数据智能分析系统就需要在两难中艰难取舍。
5 大数据、云数据的处理
5.1 数据打包和转移
大数据很“大”,如果打包转移,负担太重。不能将数据提取出来,要将数据处理成一个个数据集市和数据立方,如果“提取”数据,就意味着转移数据,将给数据维护、系统网络性能附加处理器等造成一系列纷乱庞杂的问题,还会出现两个逻辑上相同的备份。解决这个问题,目前应用的最直接的解决办法是利用BI系统,先让BI深入更底层运行数据,做好数据的分析比对,这就是大数据萌发的最初动力。
5.2 数据安全防护问题
众所周知,数据泄露事件频繁发生,要保证数据的安全稳妥,就要选择能够利用现有安全模型的BI工具。依靠Ranger、Sentry、Knox等综合性安全系统,使云技术、大数据实现数据安全变得更加容易,现在就连Mongo数据库都有了令人惊叹的安全架构。所有那些模型都允许插入权限、将用户信息一路传播到应用层、实施可视化的授权和提供与该授权相关的数据志。请记住:数据安全就是服务,就是价值。
5.3 充分利用智能工具、智能软件、智能技术
要利用这些智能工具,我们可以从用户和数据与可视图的交互中获得大量实时信息,再通过现代智能工具整合、汇总、分析,然后得出结论,就可以轻松地让信息为我们服务。
如今的大数据系统因为预测分析能力而著称。相关性、预测和其他功能使企业用户比以往任何时候都能更便捷地进行高级分析,不需要编程经验就能处理大数据的可视化技术使分析师们如有神助,超越了基本分析的范畴。为了实现其真正的潜力,大数据不应该依赖于每个人都变成R预言程序员。人类非常善于处理可视化信息,我们必须更加努力地将可视化信息呈现在人们眼前。
6 打造跨媒体海量数据智能分析系统
打造海量跨媒体数据智能分析系统,要对系统分析、系统预测、系统评估、系统运行管理等整个流程进行一一梳理,对数据的发现、分析、识别、评价和预警等方面分别做出反应动作。
跨媒体海量数据智能分析对数据系统分析、预测和评估,是一个连贯的过程。利用数据挖掘进行数据分析常用的方法有数据分类法、时间回归分析法、数据统一归类法、根据数据相互关联规则、数据差异特征、数据相互变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。一般来说,系统分析是要对数据进行处理,目前使用最多的办法是时间序列分析法、移动平均模型、指数平滑模型、趋势预测、季节指数预测。
系统评估就是对处理数据经过分析和预测后得出的结论。目前应用最广泛的评估办法是系统自动仿真评估。
系统运行管理方面,首先要指定完善的系统运行管理制度,这样可以使系统能够安全可靠地运行下去,要明确各个位置、各方的职责,做好妥善的安排和规划布局。
总之,海量跨媒体数据智能分析系统的打造,需要庞大的资金、技术以及场地等,并非一朝一夕就可以实现,因此我们要进行跨媒体智能系统的研究,尽早打造一个可以进行数据分析、汇总,然后提出预警信息。可以预计,在不远的将来我们预计数据处理速度将会变得越来越快。一个典型方法是联机分析处理(OLAP)立方,本质上就是把数据转移到预计算缓存,从而加快数据处理的速度。