当前位置：首页 > news >正文

网站做301跳转邯郸网站优化

news 2025/7/3 10:13:39

网站做301跳转,邯郸网站优化,培训网站项目ppt怎么做,科技百科上一篇文章： 大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述-CSDN博客目录 12.1 针对MapReduce的设计构思 1. 如何对付大数据处理场景 2. 构建抽象编程模型 3. 统一架构、隐藏底层细节 12.2 分布式计算概念 12.3 MapReduce定义…

上一篇文章：

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述-CSDN博客

目录

12.1 针对MapReduce的设计构思

1. 如何对付大数据处理场景

2. 构建抽象编程模型

3. 统一架构、隐藏底层细节

12.2 分布式计算概念

12.3 MapReduce定义

12.4 MR的优点：

1）🥙MapReduce易于编程

2）🥙良好的扩展性

3）🥙高容错性

4）🥙适合海量数据计算（TB/PB)

12.5 MR的缺点

1) 🥙不擅长实时计算

2) 🥙不擅长流式计算

3）🥙不擅长DAG（有向无环图）计算

12.1 针对MapReduce的设计构思

1. 如何对付大数据处理场景

对相互间不具有计算依赖关系的大数据计算任务，实现并行最自然的办法就是采取MapReduce分而治之的策略。
首先Map阶段进行拆分，把大数据拆分成若干份小数据，多个程序同时并行计算产生中间结果；然后是Reduce聚合阶段，通过程序对并行的杰哥进行最终的汇总计算，得出最终的结果。
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算。

2. 构建抽象编程模型

MapReduce借鉴了函数式语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型。
- map:对一组数据元素进行某种重复式的处理。
- reduce:对Map的中间结果进行某种进一步的结果整理。

MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现：
- map:(k1;v1)->(k2,v2)
- reduce:(k2;[v2])->(k3,v3)

通过以上两个编程接口，大家可以看出MapReduce处理的数据类型是<key,value>键值对

3. 统一架构、隐藏底层细节

如何提供统一的计算框架，如果没有统一封装底层细节，那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节；为此，MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。
MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么（what need to do)与具体怎么做（how to do)分开了，为程序员提供了一个抽象和高层的编程接口和框架。
程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的业务程序代码。
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来，交给计算框架去处理；从分布代码的执行，到大到数千小到单个节点集群的自动调度使用。

12.2 分布式计算概念

分布式计算是一种计算方法，和集中式计算是相对的。

随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。

分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。

12.3 MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发”基于Hadoop的数据分析应用“的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。

12.4 MR的优点：

1）🥙MapReduce易于编程

它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。

2）🥙良好的扩展性

可以动态增加服务器，解决计算资源不够问题

3）🥙高容错性

任何一台机器挂掉，可以将任务转移到其他节点。

4）🥙适合海量数据计算（TB/PB)

可以实现上千台服务器集群并行工作，提供数据处理能力。

12.5 MR的缺点

1) 🥙不擅长实时计算

MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。

2) 🥙不擅长流式计算

流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。

后续会学到sparkstreaming、flink，这两个框架都是擅长流式计算的

3）🥙不擅长DAG（有向无环图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

Spark擅长DAG（有向无环图）计算

‘

http://www.hengruixuexiao.com/news/15526.html

相关文章：

做和别人一样的网站网站信息

php 开启gzip加速网站百度站长工具怎么用

表白网页生成助手驻马店百度seo

网站关键字优化合同百度平台我的订单

做博客和做网站湖北最新消息

h5做的网站网络优化

wordpress 充值系统seo免费优化工具

青岛商业网站建设网站怎么创建

如何优化公司的网站推广普通话的意义

机械行业营销型网站b2b平台营销

网站左侧广告代码写软文怎么接单子

巴州网站建设班级优化大师的功能

建设银行网银网站激活广东seo网站优化公司

怎么做网站超链接seo推荐

成都怎么成立网站免费网上申请注册

电视台网站模版seo网站内部优化方案

仿做静态网站多少钱湖南知名网络推广公司

成品网站管理系统2024年重大新闻简短

三大门户网站是什么seo优化外链平台

网站首页滚动图片百度广告代理商加盟

模板网站官网公司官网搭建

有了域名之后怎么做网站营销策略有哪些内容

做擦边网站服务器放在狗爹东莞seo顾问

无锡网站策划公司win7优化

广东网站建设开发怎样制作一个网页

发票网站建设单位网站制作策划书

app开发上传wordpress兰州seo

初创企业网站建设流程最近发生的新闻

中国建设人才服务信息网是不是正规网站整站优化包年

hexo和wordpress网站seo入门基础教程