“大数据”是2012年排名第二的热词,本文试图从数据库研究者的视角来解读大数据,说明“大数据”这个概念的诞生、内涵和外延以及它和传统数据库的关系。将在现今语境下重新审视“数据库研究”,即如何理解“数据库”这个概念以及数据库研究的本质问题。还将讨论Hadoop与大数据的关系,“数据库研究”和“大数据研究”的关系。通过回顾Hadoop的起源和发展,从数据处理的角度说明Hadoop发展的偶然性和必然性,以及它所处的地位。基本观点是:“大数据”是个笼统的概念,对其进行分类有助于深入理解;大数据研究的显著特征是它与应用密切相关;Hadoop是数据管理研究回到文件系统这一原点后的一个有益探索; “大数据”和传统的数据库在研究理念和方法学上是一脉相承的。
大数据已成为目前学术界和工业界共同关注的热点问题,同时,闪存、相变存储器等新型存储技术也正在极大地影响着计算机系统的软硬件设计与应用。大数据管理面临着诸多的挑战,例如能耗、性能等,而新型存储介质则在I/O延迟、能耗等方面优于传统磁盘存储介质。面向新型存储技术的大数据管理旨在通过利用新型存储技术来解决大数据管理中的关键问题,但目前尚有许多问题还有待于进一步探讨。试图对面向新型存储技术的大数据管理的研究现状做一个梳理,理清几个问题,例如新型存储技术的快速发展对于大数据管理而言带来了哪些新的机遇和问题?引入新型存储后是否能够部分解决大数据管理中的挑战性问题?论文首先讨论了目前新型存储器的器件特点,总结了面向新型存储技术的大数据存储架构研究现状,对已经提出的主要核心算法进行了概述。最后,给出了基于新型存储技术的大数据管理的若干未来发展方向,以期能够对新型存储技术和大数据管理的未来研究提供新的线索。
一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。
针对社会网络中服务覆盖时存在的不可信节点和不可信服务问题,建立社会网络可信服务覆盖模型,通过对社会网络节点与服务间的关系进行建模,识别社会网络中的优势节点与普通节点,并借助优势节点加强社会网络中服务覆盖的可信性及最大化。设计并通过路径寻优算法来发现最优覆盖路径并确保节点间的连通性。以优势节点作为可信服务覆盖的源点,设计服务覆盖算法,实现对指定覆盖半径内的可信服务最大覆盖。在社会网络服务覆盖模型下对算法进行仿真实验,验证了算法的正确性和有效性。
在当今以用户贡献内容为核心的社交网络中,标签成为用户对资源进行标记和分类的重要依据。在新浪微博中,用户可以自由地给自己打上标签以表明自己的兴趣和特征等,用户标签在舆情分析与监测、广告推送和网络营销等应用中起到了非常重要的作用。针对新浪微博中绝大部分用户没有标签或标签较少的问题,提出了基于用户交互行为而产生的交互图的用户标签预测方法。在新浪微博用户量为1.4亿的真实数据集和大数据分析处理平台Hadoop上进行分析发现,本文提出的方法比当前常用的标签预测方法取得了更好的效果。关键词:
面对具有多源、多类、多维以及动态性等特征的海洋大数据,如何快速有效得出优化的质量检验方案并对其进行质量控制,是制约海洋数据快速应用的关键问题之一。将skyline思想引入海洋数据质量优化检验方案的选择;运用超几何分布模型给出各类海洋质量检验方案的残差集合;基于块嵌套循环算法,对各质量检验方案的残差集合进行检索比较,最终选出优化的海洋数据质量检验方案。最后通过对某海域监测站点的海洋数据质量检验,验证了该方法的可行性。
小文件作为信息传输、存储的重要方式,使用相当广泛,用户对其可靠性和速度的要求也在不断提高。针对目前小文件存储效率较低的问题,首先结合分布式存储系统HDFS的大文件存储优势和Redis缓存技术,提出快速合并小文件的存储方案。把小文件合并为Sequence File存储到HDFS上,采用多元线性回归分析确定负载系数进行负载均衡调节,并在获取文件时使用缓存保证效率。在实验上,搭建相应的文件平台,分别对上传、获取、删除以及内存占用和传统直接上传的方式进行对比分析。可以看出,与传统的直接上传文件到HDFS的方式相比,经过改进的小文件处理方式可以在保证文件可靠性的同时,更快速地处理小文件。
随着云计算的快速发展,越来越多的电子商务服务应用面临处理大数据的要求,例如电子商务物流服务中顾客通过社会媒体发布而产生的大量数据。为提高电子商务物流大数据的处理效率,基于Hadoop设计了一种称为ECLHadoop的有效电子商务物流大数据处理策略,通过将相关的数据块放入相同的数据节点,进而达到降低MapReduce I/O代价的目的,尤其是降低shuffling阶段的I/O代价。仿真实验结果显示,基于Hadoop的ECLHadoop大数据处理策略能够较好地进行电子商务物流服务中的数据密集型分析,提高电子商务物流大数据计算效率。
因云计算具有高可靠性、按需访问的特点,应用于软件测试过程中解决了其性能低、部署不便、代价高的问题。针对云测试体系架构在“软件即服务”层研究较少的问题,基于Hadoop云计算平台,采用测试即服务的服务模式和分层架构的思想,设计了云测试体系架构,并对负载均衡算法和小文件存储策略进行改进设计。以一个示例系统为例,搭建实验环境进行对比压力测试,实验结果表明,该体系架构在多用户并发时负载能力和页面响应时间相比有较好的改进。
云计算为大数据的关联规则挖掘与查询提供了平台。为防止隐私泄漏,大数据中往往包含人为添加的不确定因素,如何使用户对不确定数据的关联规则挖掘结果查询透明化是大数据挖掘结果查询亟待解决的问题。在用于共享的大数据中,不确定数据通过对精确数据的泛化处理来实现,具有均匀分布特性,这一特性不利于精确查询,但可为关联规则挖掘结果集的变粒度查询提供便利。首先,通过UFIDM算法进行挖掘并构建关联规则库,为提高查询效率,对泛化标识符和敏感属性分别构建Hilbert packed R树索引。在此基础上,提出了泛化值粒度转换方法和UARS查询算法。最后,通过理论分析和实验比对,展示了算法的可行性和有效性。
云中SaaS应用服务提供商通过共享数据库共享表模式来存储租户数据,以获取规模经济。此外,租户需要的资源空间随着时间动态变化。这种情况下可能出现热点数据导致数据节点过载,租户SLA得不到保障。有效的数据迁移能够大大减轻这种情况。不幸的是,传统的数据迁移技术缺乏良好的多租户特性。为此,首先提出了针对云中SaaS应用多租户数据动态迁移策略,该策略能够识别租户特性。其次,为了确保租户对源数据节点和目标数据节点连续访问,提出“单写双读”模式,使得租户SLA得到满足。最后,扩展了传统两阶段提交策略来保证源和目标数据节点的一致性。通过实验分析表明了该动态迁移策略的有效性。
云计算的出现将Web服务推上了更为广阔的平台。在云平台中,虚拟资源的动态分配,使得Web服务运行环境更加多变。当负载过重时,服务会由于资源不足而失效,甚至会导致系统崩溃。从系统安全及用户角度出发,资源状态成为服务选择过程中考虑的重要因素,这导致仅仅参考QoS难以选择到安全、合适的服务。为解决该问题,综合考虑了服务的QoS及虚拟机资源的状态信息。根据监测得到CPU占用、内存占用等资源状态信息,利用所提出的服务选择算法对服务进行选择。实验结果表明,考虑资源状态的服务选择算法能够得到相应状态下的最佳服务,并更快响应用户。
流媒体业务的应用越来越广泛, QoS指标和用户感知QoE对应关系的重要性也日益显现,然而现今的映射模型过于单一,不能综合有效地考虑各种QoS指标的影响,也未考虑业务使用时客观指标和主观感知的随机性和模糊性。将云模型引入到系统评价中,利用一维云模型对单个QoS指标进行多级描述,在此基础上,建立各级评语对应的多维标准云以及描述整体业务感知的多维指标云,比较实际云和标准云相似度得出评价结果。实例验证表明,该映射模型能够实现单个QoS指标到QoE的映射,并在此基础上实现多指标综合映射,直观准确地反映了各指标对用户感知的影响。
针对现有分布式环境下Topk查询算法的不足,提出了一种适用于海量分布式数据的Topk查询算法(ECHT)。该算法充分考虑了数据分布情况,提出了一种改进的限定误差直方图描述数据分布算法,避免了节点数据分布不均时Topk查询算法的低效性;另一方面,提高了Topk算法的阈值计算精度,从而进一步降低了网络带宽消耗。此外,提出了一种早裁剪思想,在大量数据传输之前提前进行数据裁剪,避免了大量无用数据的传输。实验表明,ECHT算法在网络带宽消耗和网络响应时间方面均优于同类算法。
服务Agent能够将多个服务管理起来向外界提供集成的、功能更强大的服务,因此有助于提高服务计算环境的智能处理能力。服务Agent的能力是建立在内部定义的一组服务规划的基础之上的,多个服务规划形成了规划库。规划库中存储哪些服务规划模型、如何进行服务规划模型的更新,将对服务Agent的运行效率和存储开销产生影响。基于服务规划模型的结构化树的表示,提出了一种基于后缀树的动态优化方案,给出了算法,并进行了分析和实验。实验表明,该方法能够有效获取和保存频繁使用的规划,提高了服务Agent的响应能力。
Hadoop作为开源的云计算平台,被广泛应用于自然语言处理、机器学习、大规模图像处理等领域。随着云计算与各行业广泛而深入的结合,多样化的服务对于时效性要求越来越高。现有的Hadoop调度器多关注于缩短响应时间,而非满足作业的时限要求。为了提高集群处理硬实时作业的性能,设计并实现了一种基于空闲时间的硬实时调度器LSS。在调度过程中,LSS动态估算作业的空闲时间,并据此实时更新作业队列中作业的优先级顺序。实验结果表明LSS能够有效地提高集群处理硬实时作业的成功率。
随着小企业大数据现象的涌现,复杂网络作为复杂系统的建模已很普遍,其中的社区检测是最重要的问题之一。大部分已有的社区检测算法是在社区不重叠情况下进行的,针对现实世界中重叠社区普通存在的现象,提出了一种基于人工鱼群算法的重叠社区检测算法—AFSCDA,初始种群时用标签传播算法对每条人工鱼的寻优变量编码进行调整,避免了非法社区的产生,用模块度Q函数的变形作为适应度函数,来衡量划分的重叠社区质量。在三种经典的已知社区结构的数据集上的测试表明,该算法不仅有效,而且有较高的准确率,能够快速地检测出网络中潜在的社区结构。
与传统分类方法相似,多标签学习同样面临着因数据高维引起的问题,如过拟合和维灾难等。虽然目前已经提出了一些多标签分类算法,但多标签数据的高维性问题并未得到普遍重视。针对这个问题,利用条件互信息度量特征与类别标签之间的相关性,依此实施特征选择操作,以发现重要特征。在此基础上,提出了一种新的多标签集成分类算法。模拟实验结果表明,与经典分类算法相比,本文提出的集成算法在大多数情况下取得了较优的分类效果。
通过将反折结构分解为奇、偶时间索引对应的操作,在不增加计算复杂度的前提下提出了一种内存需求更低且处理器负载均衡的即时DWT实现—分解反折结构DFS。以图像/视频压缩中常用的CDF 9/7小波滤波器组为例,DFS与提升结构LS及FS具有相同的计算复杂度,但是内存需求(单层变换)从6个存储单元下降为5个。实验结果表明,基于DFS的DWT分解相对于常规LS实现及实时 LS实现分别加速了44%和14%。
针对天河高性能计算机系统插件板12V供电结构进行软启动电路设计,采用最新的控制技术实现了全系统插件板大电流热插拔的功能,并对电路进行了实验测试。该设计技术最终应用在天河超级计算机全系统各类插件板上。
Cache设计中存在大量的全局互联连线,而三维集成电路技术可以有效地解决深亚微米芯片设计中互联延迟问题。目前已经提出了多种三维Cache结构。在已有的工作基础上,提出了一种新的三维Cache结构——Subcacheline,以及相关功耗延迟模拟工具——3D SCacti。3D SCacti通过遍历分割的子阵列设计空间,根据成本函数进行Cache设计优化。将已有的三维Cache模拟器同3D SCacti优化结果进行对比,实验结果表明,该模拟器可以有效地扩展三维Cache的设计空间。最后,分析了不同工艺条件下模拟器的优化结果。
多核下,末级Cache容量、组相联数不断增大,传统Cache替换算法LRU会出现Cache死块增多、Cache有效利用率下降等问题。Cache动态插入策略可以有效地避免LRU算法中出现的这些问题,因而受到了广泛的关注。但是,目前对Cache插入策略的研究只停留在策略水平上,缺乏定量的模型研究。针对此问题,提出了一个Cache插入策略的解析模型,该模型以应用的重用信息为输入,使用状态概率递归计算的方法,可预测不同插入策略下Cache的失效率。SPEC2006模拟验证表明,模型的精度较高,最大绝对误差为15.6%,平均绝对误差为3.1%。
近些年来,基于SMT的限界模型检测方法作为基于SAT的限界模型检测方法的一种改进,在对实时系统的检测上已经得到了一定发展。一直以来,限界模型检测多被用于检验存在性性质,而很少用于验证全局性性质,原因之一就是该方法受界限的限制,很难实现对全局性性质的有效编码。为此,通过对传统限界模型检测中的编码方式进行相应改变,在一定程度上解决了这一问题。同时,结合SMT,实现了对实时系统中某些全局性性质的验证。实验表明该方法比已有的方法效率更高。
CCSL定义的模型可对系统的时间属性进行建模, 基于Observer技术, 还可对CCSL模型的正确性进行分析。但与顺序图相比, CCSL模型不利于用户理解。利用形式化方法实现了顺序图到CCSL模型的转换并证明了两者的互模拟关系。这在一定程度上扩大了MARTE在软件设计中的应用范围和效率:用顺序图对系统的动态行为进行建模, 使用户和设计者对系统行为达成一致; 将顺序图转换成CCSL模型进行分析, 以保证模型的正确性。
基于Koch神经生物学框架和结构相似度理论,提出了一种新的视觉显著性检测方法。该方法利用结构相似度对人类视觉系统的高层次抽象,通过新的CenterSurround算子(自相似算子)对自然图像的显著程度进行度量,建立了多特征视觉显著性模型。该模型避免了对视觉系统建模时的复杂性问题,通过结构相似度的黑匣子效应对视觉系统进行抽象,同时利用Koch神经生物学框架的特征融合理论加强提取效果。实验结果表明,该方法可以有效检测自然图像的显著区域,提取的显著区域对比度较高,并且可以克服Itti方法中由于邻近插值导致的马赛克现象,在显著区域边缘提取和抗噪等方面性能也较好。
针对手指静脉图像评价速度与效果的要求,提出了一种基于区域列平均梯度特征与纹理粗糙度特征相结合的手指静脉图像质量快速评价方法。该方法首先定义区域列平均梯度特征,并依据此特征进行一次质量判决,满足要求则进入手指注册阶段;否则再利用纹理粗糙度特征进行二次质量判决,满足要求则进行手指注册,否则提示用户更换手指进行注册。仿真实验表明,本文方法评价效果好,速度快,能够满足手指静脉识别的要求。