hadoop是什么？

2023-03-23 14:09:29 阅读（237） 评论（0）

　　hadoop应历史之潮流，随着理论探索、科学技术试验的不断开展，hadoop终于2006年问世，惊天地泣鬼神！

　　hadoop雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java实现的搜索引擎。它提供了运行搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

　　在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google File System，是google公司为了存储海量搜索数据而设计的专用文件系统。

　　2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。

　　2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。

　　2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。

　　2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo创建了一个独立的团队给Goug Cutting专门研究发展Hadoop。不得不说Google和Yahoo对Hadoop的贡献功不可没。

　　简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。其核心是HDFS和MapReduce。

　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序，一句话来概括的话：HDFS更加利于大量数据（一般在TB级别）的存取。MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是MapReduce做的事了，一句话来概括为：MapReduce方便大量数据的计算。

　　关于大数据的意义和价值，我认为最精炼的一句话总结：大数据可以直抵事件真相！互联网时代数据量逐渐增大，据说百度一天的搜索页面量都在TB级别。之前的Apache架构，虽然能够对数据进行计算和存储，但是远远不能满足现代量级，因此开发新的专门针对大数据处理的技术十分必要，这也是大数据相关技术，包括spark、hadoop等出现的背景条件。

　　hadoop技术发展到一定程度，可以建立立体化的分析系统，其对象可以为消费者或者网站或者app，能够多角度全方位的分析大量数据，从而得出关于对象的事件真相，可以举一个例子解释它的具体表现：未来，可能消费者不知道自己喜欢什么，但是大数据能够通过他的历史行为，告诉他应该喜欢什么。

未经允许不得转载，或转载时需注明出处

上一篇：什么是大数据？本文带你详细了解大数据下一篇：什么是云服务器？一文带你了解