设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于hadoop的重复数据删除系统的设计与实现 任务书
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

毕 业 设 计(论 文)任 务 书

1.本毕业设计(论文)课题应达到的目的:

通过本课题,拟达到如下目的:

1、提高学生查阅中英文资料及论文的写作能力,掌握科技论文的撰写方法、规范和要求。

2、合理设计并掌握Hadoop的集群,Hadoop伪分布式平台搭建,Hadoop分布式文件系统HDFS,映射虚拟磁盘,MapReduce,NoSql数据库HBase,分布式数据仓库Hive,内存计算框架Spark等相关知识。

3、利用毕业设计过程,进一步强化学生实践动手能力,全面提高学生综合运用所学基础理论、专业知识和基本技能分析解决实际问题的能力,培养学生从事科学研究的基本素养及初步从事科学研究的能力。

2.本毕业设计(论文)课题任务的内容和要求(包括原始数据、技术要求、工作要求等):

互联网的迅速发展,数据的产生和复制量以惊人的速度增长着。数据需要更多的存储容量、处理能力和网络带宽。数据在进行存储时,往往存在大量的冗余数据,不仅占用了大量的存储空间,而且降低了存储效率。针对这些问题,重复数据删除技术解决方案。对存储进行优化,减少对物理存储空间的浪费。

然而,重复数据删除技术会产生额外的开销和冗余,使存储和读取数据的性能降低。并且随着数据量的增大,指纹的检索速度会减缓,以致文件的存储变慢。基于数据块,基于内容,基于滑块的去重。

课题任务的内容:

1、学习课题相关理论知识

2、进行必要的调研和查阅相关的资料,撰写毕业设计开题报告;

3、对毕业设计题目进行需求分析,撰写需求分析说明书和操作手册;

4、对本系统进行系统设计,书写系统设计说明书;

5、在广泛查阅国内外文献的基础上,熟悉总结已有去重算法。

6、采用分布式计算框架MapReduce,分布式文件系统HDFS。

7、通过反复试验与总结,搭建合适的平台,使用不同的方法测试其中的优劣。

8、在此基础上,数据去重最核心的是HDFS和MapReduce。

9、完成系统测试工作;

10、撰写毕业设计说明书;

11、翻译计算机相关的英文资料;

12、工作要积极认真、努力。做到每周和老师见面1次。

13、比较、总结研究结果,为其他数据去重提供借鉴。

课题任务的要求:

1、所建立实验方法应恰当合理,能获得去重效果。

2、实验数据应当详实可靠,并有试验数据的统计学分析。


毕 业 设 计(论 文)任 务 书

3.对本毕业设计(论文)课题成果的要求〔包括毕业设计论文、图表、实物样品等〕:

1、通过检索专著、期刊、网络等相关资料,完成开题报告(包括文献综述、基本思路、初步方案、工作计划等)。

2、按格式要求,完成一份不少于 1 万字的论文。论文撰写要求思路清晰、数据分析正确、结论详实可靠、语言简洁明了,引文使用正确,符合科技论文写作要求。

3、翻译与课题相关的英文资料一篇,外文资料内容应不少于 3000 单词。

4.主要参考文献:

[1] J. Zhang, G. Wu, X. Hu and X. Wu, "A Distributed Cache for Hadoop Distributed File System in Real-Time Cloud Services," 2012 ACM/IEEE 13th International Conference on Grid Computing, Beijing, 2012, pp. 12-21, doi: 10.1109/Grid.2012.17.

[2] K. Shvachko, H. Kuang, S. Radia and R. Chansler, "The Hadoop Distributed File System," 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), Incline Village, NV, 2010, pp. 1-10, doi: 10.1109/MSST.2010.5496972.

[3] J. Shafer, S. Rixner and A. L. Cox, "The Hadoop distributed filesystem: Balancing portability and performance," 2010 IEEE International Symposium on Performance Analysis of Systems & Software (ISPASS), White Plains, NY, 2010, pp. 122-133, doi: 10.1109/ISPASS.2010.5452045.

[4] H. Liao, J. Han and J. Fang, "Multi-dimensional Index on Hadoop Distributed File System," 2010 IEEE Fifth International Conference on Networking, Architecture, and Storage, Macau, 2010, pp. 240-249, doi: 10.1109/NAS.2010.44.

[5] R. T. Kaushik, M. Bhandarkar and K. Nahrstedt, "Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System," 2010 IEEE Second International Conference on Cloud Computing Technology and Science, Indianapolis, IN, 2010, pp. 274-287, doi: 10.1109/CloudCom.2010.109.

[6] S. Chandrasekar, R. Dakshinamurthy, P. G. Seshakumar, B. Prabavathy and C. Babu, "A novel indexing scheme for efficient handling of small files in Hadoop Distributed File System," 2013 International Conference on Computer Communication and Informatics, Coimbatore, 2013, pp. 1-8, doi: 10.1109/ICCCI.2013.6466147.

[7] K. Dwivedi and S. K. Dubey, "Analytical review on Hadoop Distributed file system," 2014 5th International Conference - Confluence The Next Generation Information Technology Summit (Confluence), Noida, 2014, pp. 174-181, doi: 10.1109/CONFLUENCE.2014.6949336.

[8] G. Attebury et al., "Hadoop distributed file system for the Grid," 2009 IEEE Nuclear Science Symposium Conference Record (NSS/MIC), Orlando, FL, 2009, pp. 1056-1061, doi: 10.1109/NSSMIC.2009.5402426.

[9] H. Mahmoud, A. Hegazy and M. H. Khafagy, "An approach for big data security based on Hadoop distributed file system," 2018 International Conference on Innovative Trends in Computer Engineering (ITCE), Aswan, 2018, pp. 109-114, doi: 10.1109/ITCE.2018.8316608.

[10] M. Shahabinejad, M. Khabbazian and M. Ardakani, "An Efficient Binary Locally Repairable Code for Hadoop Distributed File System," in IEEE Communications Letters, vol. 18, no. 8, pp. 1287-1290, Aug. 2014, doi: 10.1109/LCOMM.2014.2332491.

[11] 陈静.基于Hadoop云计算平台的文本处理算法的研究与改进[J].天津科技,2016,43(01):52-55.

[12] 钱凯. 云存储中快速安全的数据去重方法[D].东华大学,2017.

[13] 陆浩,卢军,修榕康.密码字典数据去重算法研究[J].软件导刊,2017,16(02):57-59.

[14] 黄奇鹏. 基于MapReduce的海量关系数据处理技术设计与优化[D].武汉邮电科学研究院,2018.

[15] 陆浩,卢军,修榕康.密码字典数据去重算法研究[J].软件导刊,2017,16(02):57-59.

[16] 陶然. 基于Hadoop分布式平台的重复数据删除技术研究[D].厦门大学,2017.

[17] 周立康. 基于Hadoop的重复数据删除技术研究[D].电子科技大学,2020.

[18] 郭强.基于Hadoop的重复数据删除技术研究[J].现代信息科技,2019,3(03):142-144.

[19] 李振兴,刘波.基于Hadoop平台的XML文档重复数据检测[J].计算机系统应用,2013,22(11):195-199.

[20] 许文龙. 基于Hadoop分布式系统的重复数据检测技术研究与应用[D].湖南大学,2013.

[21] 俞善海. 基于Hadoop的重复数据删除技术研究[D].华东理工大学,2015.


毕 业 设 计(论 文)任 务 书

5.本毕业设计(论文)课题工作进度计划:

起 迄 日 期

工  作  内  容

第1周  ---  第2周

开题报告、外文翻译审查、开题答辩

第3周  ---  第4周

课题解决方案选择、系统总统设计

第5周  ---  第11周

系统详细设计、系统开发、调试测试

第12周 ---  第15周

系统修改完善、撰写毕业设计论文

第15周 ---  第16周

上交成果、论文定稿、毕业设计答辩

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Spring Boot的快递 河南水利与环境职业学院毕业论文撰 甘肃中医药大学经管学院毕业论文写
最新机械毕业设计选题推荐 基于Javaweb的自回归算法的 自动取料机械手 开题报告
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!