简介:mapreduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。它通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
相关推荐
图书知识聚合
在3本书中找到答案
  • 《Hadoop大数据处理》
    章节第2章基于Hadoop的大数据处理架构
    MapReduce是一个编程模型和软件框架,用于在大规模计算机集群上编写对大数据进行快速处理的并行化程序。在实际应用环境中,Hadoop Common更多的是隐藏在幕后为架构提供基础支持,而HDFS和MapReduce的逻辑组件相互配合完成用户提交的大数据处理请求。图2.5展示了一个典型的Hadoop部署环境图及逻辑组件之间的交互,下面将结合此图对Hadoop的主要逻辑组件进行说明,并为大家建立一个简明的Hadoop原理和运行机制全景图。而关于MapReduce和HDFS的更多技术细节,将分别在第3章和第4章进行详细的阐述。图2.5显示的Hadoop基本运行环境中包含了HDFS和MapReduce两类组件,其功能分别如下。1.HDFS组件(1)NameNode。NameNode是HDFS系统中的管
    刘军
    人民邮电出版社
  • 《数据密集型计算和模型/大数据技术与应用》
    章节第4章 MapReduce模型
    是一种由香港科技大学与微软、新浪合作开发的基于GPUs的MapReduce实现。它的编程语言为C和C++,并且目前已经包含字符串匹配、矩阵乘法、倒排索引、字词统计、网页访问排名、网页访问计数、相似性评估和K均值等应用,能够在32位与64位的Linux平台下运行。它主要利用众多的GPU线程来完成Map和Reduce的工作,最大的缺点是若输入数据划分不均匀,易出现负载不均衡和写冲突。7)FPMRFPMR[16]是一种由清华大学和微软亚洲研究中心合作开发的应用于高性能计算的MapReduce实现,具有可重构性、高灵活性和严格遵守摩尔定律等特点。它主要在片上实现多个Map任务和Reduce任务,并利用动态调度策略实现较高的资源利用率和负载均衡,同时利用高效的数据获取策略解决带宽瓶颈。最大的缺点是不支持动态内存管理,需要进一步验证其效率和生产力,目前其模型仍不够成熟。8)UssopUssop[17]是一种由我国台湾地区成功大学和立德大学合作开发的基于公共资源网格环境的MapReduce实现,它根据网格节点的计算能力,自适应Map输入的粒度,使在广域网中传输中间数据的开销达到最小
    童维勤
    上海科学技术出版社
  • 《大数据算法》
    章节7.1.1 MapReduce 的基本模型
    上面已经大致介绍了 MapReduce 的概念,在不同的文献中,MapReduce 可以有不同的含义。首先,正如上面所介绍的,它可以指一种编程模型;其次,它可以指一种运行环境,执行用户编写的代码;最后,它可以指一种集成编程模型和运行环境的软件,比如开源的 Hadoop 以及 Google 自己的实现版本。当然,Hadoop 跟 Google 自己的实现版本是有区别的。
    王宏志
    北京华章图文信息有限公司
MapReduce2深入浅析
一、MapReduce2工作机制 1.1、MapReduce2的架构图 1.2、MapReduce2运作步骤 说在前头的话,上图中有一个...
mapreduce精选文章
关于MapReduce的理解?
回答:29浏览:14万+赞同:703
MapReduce真的推到了分层架构的本质?
什么是MapReduce分布式离线的计算框架,是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析...
6_大数据之MapReduce_1
MapReduce概述 1️⃣MapReduce定义 2️⃣MapReduce优缺点优点缺点 3️⃣MapReduce核心思想1)分布式的...
【干货】解密MapReduce
什么意思,我们一起来看看MapReduce做离线计算到底是怎么一回事儿!要理解这个过程,我们先请出一个秘密...
MapReduce和Spark的区别是什么?
回答:5浏览:1万+赞同:36
[最佳答案]由于 MapReduce 的框架限制,一个 MapReduce 任务只能包含一次 Map 和一次 Reduce,计算完成之后,...
下一页 网络不给力?刷新试试