设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于hadoop的重复数据删除系统的设计与实现 开题报告
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

毕 业 设 计(论 文)开 题 报 告

1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,每人撰写

2000字左右的文献综述

1.1选题背景及意义

近年来新兴的重复数据删除技术[1]就是减少存储空间的一种方式,它通过识别和消除数据环境中的冗余数据,确保只将单一的数据保存在存储介质中,从而节省了大量的存储空间,降低了存储成本。这意味着只需要更少的磁盘和更低频率的磁盘采购。更有效地利用磁盘空间,就能够延长磁盘保存期限,这样,提供了更好的恢复时间目标,更长的备份时间。同时,重复数据删除还可以缩减必须通过无线网络传送来实现远程备份、复制和灾难恢复的数据。这样不仅显著提高现有磁盘存储空间的有效容量,从而使保护数据所需的物理磁盘数量更少,还有助于企业对数据的维护管理。这便可以帮助企业减轻硬件投资和后期维护所带来的经济压力。

通过重复数据删除技术,所有到来的数据请求都要先进行检索,如果发现该数据已经存在,则只进行相关的计算处理,而不再重复存储。这样就可以保证没有重复数据,从而降低存储消耗,降低成本。

本课题的研究中,在基本的Hadoop平台中加入重复数据删除技术,数据存储之前先进行去重处理。为了弥补重复数据删除带来的性能损失,利用过滤技术对数据检索模块进行了优化,提高检索性能。

1.2国内外研究现状

最近几年来,重复数据删除成为存储行业最炙手可热的技术,大多数中小型数据中心都没有配备足够的IT人员,更别说备份专家了,IT经理很难弄清楚如何在自己的数据中心融入重复数据删除技术,如果需要考虑部署重复数据删除技术。

1、 重复数据删除现在是主流技术吗?

是的,重复数据删除设备现在已经从实验室走向产品化,并逐渐成为主流,分析师告诉我们,至少有30%的IT部门在部分数据上使用了重复数据删除技术,厂商也推出了换代产品,专门为简化和无破坏性部署做了优化,但这并不意味着每个解决方案都是一样的,大多数重复数据删除厂商都经过了一个学习曲线,无论是在经验,参考文档还是在技术支持方面都已经有了很大的积累。

2、 重复数据删除技术究竟能干什么?

一般来说,重复数据删除是在子文件级发现冗余数据的一种方法,它用一个指针代替重复的数据,这项技术可以有效减少磁盘存储空间需求,并降低数据传输的网络带宽需求。实现重复数据删除的方法不止一种,基于块级的重复数据删除方法是最常见的,但有些产品是在字节级发现文件集之间的差别,不同的技术实现手段其性能表现,需要的工作空间,对不同软件支持的难易程度,以及设置复制的难度也有所不同,具体采用哪种技术不重要,关键是看结果,只要能完美解决你现在面临的问题就可以解决。

3、 重复数据删除技术最擅长解决哪类问题?

首先想到的应该是备份,因为备份会产生大量的重复数据,大多数常见的办公数据,如电子邮件,数据库和平面文件备份都可以利用重复数据删除技术节省大量的备份空间。Quantum最近对其Dxi系列设备用户做了一项关于重复数据删除技术加入备份策略后的影响的调查,和传统存储系统相比,用户普遍反应在备份速度方面提高了125%,备份失败的次数降低了87%,在恢复方面更是发生了翻天覆地的变化,以前需要数小时或数天的恢复时间,使用重复数据删除技术后,现在只需要几分钟就搞定了,此外,成本也下降了,并且下降幅度很大,用户反应全部可移动媒体的成本几乎下降了一半,从异地磁带存储检索的成本也减少了97%,管理备份需要的时间减少了63%。使用远程复制技术进行灾难恢复保护的用户表示可以增加更多的恢复点,并实现自动化,可以消除分支机构的磁带机了。

4、它和我在使用的备份软件有关系吗?

大多数重复数据删除厂商都对不同的备份软件做了兼容性测试,有些厂商甚至专门针对多个备份软件做了数据存储优化,在评估重复数据删除厂商时,可以询问对方是否有专门备份软件做过优化,如果有,具体是哪些备份软件,你当前正在使用的备份软件是否也在列。请记住,一定要检查对特定备份软件接口的支持,例如,赛门特克专门开发了一个OpenStorage接口连接备份设备,提供了额外一层业务优势,它提供更好的了性能,更好的复制管理。此外,还应该询问重复数据删除设备厂商与备份软件厂商的战略关系,需要深入了解他们的合作关系,以及他们未来关于互操作性和集成的规划。

5、实现重复数据删除最简单的方法是什么?

大多数IT部门面临的选择是直接上重复数据删除设备,还是在现有备份软件中插入重复数据删除功能,究竟哪一种办法是最容易部署的没有一个统一的答案,但根据以往的经验,我们可以提供一些最基本的指导,目前最常见的是直接上重复数据删除专用设备,所有备份数据都要先发送到该设备,在保存到最终备份目标设备上时执行重复数据删除,这种方法对现有备份方法不会执行大的变动,因为重复数据删除操作是在专用设备上执行的,它不会增加备份客户端或媒体服务器的负荷,部署就象复制一样简单,作为最常用的方法,它也是最成熟的,这意味着它的部署速度将是最快的,需要的技术支持服务也会很少。

使用软件方法时,备份软件需要插入重复数据删除任务,要么在备份客户端上执行,要么在媒体服务器上执行,在发送到目标备份设备之前删除重复数据,在网络上传输的数据就会少一些,其思想和传输前执行压缩是一样的,但重复数据删除过程往往会包含数据压缩,由于重复数据删除是一个开销相对较高的操作,备份操作可能会随之变慢,因此通常需要增加新的服务器或专用存储,这会增加成本和集成的复杂度。

根据所处的特殊环境不同,每个方法都有其优缺点,为了找到一个最适合自己环境的方法,首先应该从系统现在的瓶颈出发进行衡量,如你现在的媒体服务器利用率如何,以及你需要一个什么样水平的集成环境等等。

6、我应该彻底淘汰磁带存储吗?

虽然大多数使用了重复数据删除技术的用户都减少了可移动媒体的使用,但只有很少一部分用户完全消除它们,这是有原因的,通常,用户对备份有三个层次的需要:每日备份和恢复,近期灾难恢复保护和长期数据保留,研究适用于每一层的技术,并和那些专注于技术的公司交流将会受益匪浅。每日备份和恢复:许多用户发现磁盘读写配置文件给他们的日常备份和恢复带来了许多好处,而重复数据删除技术则让数据能在磁盘上存储更长时间,越来越多的恢复方法也利用了这个配置。近期灾难恢复:重复数据删除让用户使用远程复制技术取代了可移动媒体,他们可以创建更多的恢复点,降低成本,将以前大部分手工操作全部实现自动化。

长时间保留:可移动媒体继续提供强大的经济和安全价值,磁带消耗的电力,需要的制冷量和占用的空间更少,因此它成为长时间保留数据的不二之选,磁带新技术,如加密和介质完整性分析,使得它更加安全和可靠。

参考文献

[1] J. Zhang, G. Wu, X. Hu and X. Wu, "A Distributed Cache for Hadoop Distributed File System in Real-Time Cloud Services," 2012 ACM/IEEE 13th International Conference on Grid Computing, Beijing, 2012, pp. 12-21, doi: 10.1109/Grid.2012.17.

[2] K. Shvachko, H. Kuang, S. Radia and R. Chansler, "The Hadoop Distributed File System," 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), Incline Village, NV, 2010, pp. 1-10, doi: 10.1109/MSST.2010.5496972.

[3] J. Shafer, S. Rixner and A. L. Cox, "The Hadoop distributed filesystem: Balancing portability and performance," 2010 IEEE International Symposium on Performance Analysis of Systems & Software (ISPASS), White Plains, NY, 2010, pp. 122-133, doi: 10.1109/ISPASS.2010.5452045.

[4] H. Liao, J. Han and J. Fang, "Multi-dimensional Index on Hadoop Distributed File System," 2010 IEEE Fifth International Conference on Networking, Architecture, and Storage, Macau, 2010, pp. 240-249, doi: 10.1109/NAS.2010.44.

[5] R. T. Kaushik, M. Bhandarkar and K. Nahrstedt, "Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System," 2010 IEEE Second International Conference on Cloud Computing Technology and Science, Indianapolis, IN, 2010, pp. 274-287, doi: 10.1109/CloudCom.2010.109.

[6] S. Chandrasekar, R. Dakshinamurthy, P. G. Seshakumar, B. Prabavathy and C. Babu, "A novel indexing scheme for efficient handling of small files in Hadoop Distributed File System," 2013 International Conference on Computer Communication and Informatics, Coimbatore, 2013, pp. 1-8, doi: 10.1109/ICCCI.2013.6466147.

[7] K. Dwivedi and S. K. Dubey, "Analytical review on Hadoop Distributed file system," 2014 5th International Conference - Confluence The Next Generation Information Technology Summit (Confluence), Noida, 2014, pp. 174-181, doi: 10.1109/CONFLUENCE.2014.6949336.

[8] G. Attebury et al., "Hadoop distributed file system for the Grid," 2009 IEEE Nuclear Science Symposium Conference Record (NSS/MIC), Orlando, FL, 2009, pp. 1056-1061, doi: 10.1109/NSSMIC.2009.5402426.

[9] H. Mahmoud, A. Hegazy and M. H. Khafagy, "An approach for big data security based on Hadoop distributed file system," 2018 International Conference on Innovative Trends in Computer Engineering (ITCE), Aswan, 2018, pp. 109-114, doi: 10.1109/ITCE.2018.8316608.

[10] M. Shahabinejad, M. Khabbazian and M. Ardakani, "An Efficient Binary Locally Repairable Code for Hadoop Distributed File System," in IEEE Communications Letters, vol. 18, no. 8, pp. 1287-1290, Aug. 2014, doi: 10.1109/LCOMM.2014.2332491.

[11] 陈静.基于Hadoop云计算平台的文本处理算法的研究与改进[J].天津科技,2016,43(01):52-55.

[12] 钱凯. 云存储中快速安全的数据去重方法[D].东华大学,2017.

[13] 陆浩,卢军,修榕康.密码字典数据去重算法研究[J].软件导刊,2017,16(02):57-59.

[14] 黄奇鹏. 基于MapReduce的海量关系数据处理技术设计与优化[D].武汉邮电科学研究院,2018.

[15] 陆浩,卢军,修榕康.密码字典数据去重算法研究[J].软件导刊,2017,16(02):57-59.

[16] 陶然. 基于Hadoop分布式平台的重复数据删除技术研究[D].厦门大学,2017.

[17] 周立康. 基于Hadoop的重复数据删除技术研究[D].电子科技大学,2020.

[18] 郭强.基于Hadoop的重复数据删除技术研究[J].现代信息科技,2019,3(03):142-144.

[19] 李振兴,刘波.基于Hadoop平台的XML文档重复数据检测[J].计算机系统应用,2013,22(11):195-199.

[20] 许文龙. 基于Hadoop分布式系统的重复数据检测技术研究与应用[D].湖南大学,2013.

俞善海. 基于Hadoop的重复数据删除技术研究[D].华东理工大学,2015.

毕 业 设 计(论 文)开 题 报 告

2.本课题要研究或解决的问题和拟采用的研究手段(途径)

2.1研究主要内容

本课题合理设计并掌握Hadoop的集群,Hadoop伪分布式平台搭建,Hadoop分布式文件系统HDFS,映射虚拟磁盘,MapReduce,NoSql数据库HBase,分布式数据仓库Hive,内存计算框架Spark等相关知识。数据去重最核心的是HDFS和MapReduce,采用分布式计算框架MapReduce,分布式文件系统HDFS,通过反复试验与总结,搭建合适的平台,使用不同的方法测试其中的优劣。在此基础上,完成系统测试工作。

2.2解决的问题

(1)重复数据删除技术的设计与实现。通过分析重复数据删除的一般流程,实现重复数据删除模块的基本功能,包括MapReduce计算框架的管理、计算以及索引表的建立与管理。

(2)重复数据删除中检索优化设计与实现。检索过程是重复数据删除技术中的一大瓶颈,本系统通过基于MapReduce算法的检索过滤技术的实现,极大的提高检索的性能。

2.3研究手段

第一对重复数据删除技术的相关背景知识做简单的介绍,对课题研究的目的、意义以及国内外研究发展状况做简要的描述。

第二详细介绍重复数据删除系统的总体设计。首先阐述重复数据删除技术的基本原理和系统的总体设计框架,然后对各个功能模块分别进行介绍,包括MapReduce计算框架、计算模块和检索模块。

第三描述重复数据删除系统的具体实现过程。首先分模块详述各个模块的实现方案,然后重点对检索优化算法部分的设计和实现进行了说明,最后分析系统的处理流程。

第四对重复数据删除系统各方面的性能进行测试。

第五总结目前所做的工作并展望未来的研究工作。

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
塑料储水装置及配套模具设计 任务 桨叶式搅拌机(破碎机)总体及部件 基于JavaSSM+MySQL的
基于JavaSSM+MySQL的 基于JavaSSM+MySQL的 炒茶机设计 答辩记录及成绩表
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!