当前位置: 首页 > news >正文

重庆公司网站建设价格cnzz统计

重庆公司网站建设价格,cnzz统计,浙江省住房和城乡建设局网站首页,大连住房和建设局网站MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。 从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。 …

MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。
从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。

map端:

1、map中的context.write方法,对外写出的时候,其实是写入到了一个环形缓冲区内(内存形式的),这个环形缓冲区大小是100M,可以通过参数设置。如果里面的数据大于80M,就开始溢写(从内存中将数据写入到磁盘上)。溢写的文件存放地址可以设置。


2、在溢写过程中,环形缓冲区不会停止工作,是会利用剩余的20%继续存入环形缓冲区的。除非是环形缓冲区的内存满了,map任务就被阻塞了。
在溢写出来的文件中,是排过序的,排序规则:快速排序算法。在排序之前,会根据分区的算法,对数据进行分区。在内存中,先分区,在每一个分区中再排序,接着溢写到磁盘上的。


3、溢写出来的小文件需要合并为一个大文件,因为每一个MapTask只能有一份数据。就将相同的分区文件合并,并且排序(此处是归并排序)。每次合并的时候是10个小文件合并为一个大文件,进行多次合并,最终每一个分区的文件只能有一份。
假如100个小文件,需要合并几次呢?
100  每10分合并一次,第一轮:100个文件合并为了10个文件,这10个文件又合并为一个大文件,总共合并了11次。

4、将内存中的数据,溢写到磁盘上,还可以指定是否需要压缩,以及压缩的算法是什么。

reduce端: 

1、reduce端根据不同的分区,拉取每个服务器上的相同的分区的数据。
reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,但这个默认值可以修改,设置mapreduce.reduce.shuffle. parallelcopies 属性即可。


2、如果map上的数据非常的小,该数据会拉取到reduce端的内存中,如果数据量比较大,直接拉取到reduce端的硬盘上。

http://www.hengruixuexiao.com/news/10554.html

相关文章:

  • 苍溪网站建设技术教程优化搜索引擎整站
  • 网站开发免责声明关键词推广优化app
  • 做网站会提供源代码百度站长平台注册
  • wordpress 无法处理图像.请返回重试.长沙网站seo报价
  • 免费网站定制南京网络营销服务
  • 苏州公司网站建设找哪家产品推广步骤
  • 网站的日历怎么做陕西seo公司
  • 苹果电脑适合网站开发人员h5下一页
  • b2c电商网站账户北京百度公司总部电话
  • 常州网站建站最新天气预报最新消息
  • 江西网站建设公司费用免费发广告的平台有哪些
  • 如何成立公司seo 优化技术难度大吗
  • aspnet新闻网站开发网站服务器查询
  • 盐城大丰建设局网站谷歌搜索官网
  • 上海 科技网站建设找文网客服联系方式
  • 自己搭建服务器做网站要多久惠州网络推广
  • 西宁专业网站建设站长工具权重查询
  • thinphp 做外贸网站电脑优化系统的软件哪个好
  • 沧州营销型网站建设什么是新媒体营销
  • 网站开发的app买卖友情链接
  • 电商创业怎么做宁波seo排名方案优化公司
  • 网站建设商业阶段普通话手抄报简单又漂亮
  • 莱芜网站开发代理抖音seo排名
  • 顶级设计网站网站流量分析的指标有哪些
  • 网站开发怎么兼容浏览器小说百度搜索风云榜
  • 龙岗疫情最新消息今天seo百度网站排名研究中心关键词首页优化
  • 传奇网站模块下载人际网络营销2900
  • 搭建公司内部网站chrome谷歌浏览器官方下载
  • 如何使用ftp上传网站网站广告投放价格表
  • 如何创建一个个人网页安徽网站seo