当前位置: 首页 > news >正文

宜昌有做网站的公司吗怎么制作网页广告

宜昌有做网站的公司吗,怎么制作网页广告,河南做网站公司报价,河南最新疫情目录 前言广播变量广播变量的作用 广播变量的使用方式 累加器累加器的作用累加器的优缺点累加器的使用方式 PySpark实战笔记系列第四篇 10-用PySpark建立第一个Spark RDD(PySpark实战笔记系列第一篇)11-pyspark的RDD的变换与动作算子总结(PySpark实战笔记系列第二篇))12-pysp…

目录

    • 前言
    • 广播变量
      • 广播变量的作用
      • 广播变量的使用方式
    • 累加器
    • 累加器的作用
      • 累加器的优缺点
      • 累加器的使用方式


PySpark实战笔记系列第四篇

  • 10-用PySpark建立第一个Spark RDD(PySpark实战笔记系列第一篇)
  • 11-pyspark的RDD的变换与动作算子总结(PySpark实战笔记系列第二篇))
  • 12-pyspark的RDD算子注意事项总结(PySpark实战笔记系列第三篇)
  • 13-pyspark的共享变量用法总结(PySpark实战笔记系列第四篇)

前言

spark提供两种特定的共享方式:广播变量累加器

广播变量

广播变量允许程序缓存一个只读变量在集群的每个机器上。广播变量就是普通变量的一个包装变量。

广播变量的作用

可以用一种更高效的方式来共享一些数据,比如一个全局配置文件,可以通过广播变量共享给所有节点。

广播变量的使用方式

创建:通过调用SparkContext.broadcast()方法来将一个普通变量创建为一个广播变量。

访问:通过value方法来访问。

更新:通过unpersist()方法声明更新,然后修改原始变量的值,通过再次广播从而被其他节点获取。

销毁:通过destroy()方法可以把广播变量的数据和元数据一起销毁掉,销毁后不能再使用。

# 示例
import findspark
findspark.init()
##############################################
from pyspark.sql impot SparkSession
spark = SparkSession.builder \.master("local[2]") \.appName("broadcastDemo") \.getOrCreate();
sc = spark.SparkContext
##############################################
ip_mes = {"ip":"127.0.0.2","key":"password"}
# 创建广播变量
brVar = sc.broadcast(ip_mes)# 获取广播变量的值
val = brVar.value
# {"ip":"127.0.0.2","key":"password"}
print(val)
# password
print(val["key"])
# 更新广播变量
brVar.unpersist()
ip_mes["key"] = "admin"
brVar = sc.broadcast(ip_mes) #再次广播
# 获取广播后的变量值
val = brVar.value
# {"ip":"127.0.0.2","key":"admin"}
print(val)
# 销毁广播变量
brVar.destroy()
##############################################
sc.stop()

累加器

除了广播变量进行变数共享外,Spark还提供了一种累加器用于在集群中共享数据。。Spark原生支持数值类型的累加器,开发人员可以根据自己的需求来支持其他数据类型。

累加器的作用

一个常见的作用是:在调试时对作业的执行过程中的相关事件进行计数

累加器的优缺点

优点:能够快速执行操作。

缺点:只能利用关联操作做“加”操作的变量。

累加器的使用方式

创建:通过SparkContext.accumulator()方法来创建出累加器对象。

访问:通过value方法来访问。

更新:不同节点上的计算任务都可以利用add方法或者使用**+=操作**来给累加器加值。

注意事项

  • 累加器是一种只可加的变量对象,比如不能执行-=操作
  • 使用累加器时,为了保证准确性,只能使用一次动作操作。如果需要使用多次动作操作,则在RDD对象上执行cache或persist操作来切断依赖。
# 示例
import findspark
findspark.init()
##############################################
from pyspark.sql impot SparkSession
spark = SparkSession.builder \.master("local[2]") \.appName("broadcastDemo") \.getOrCreate();
sc = spark.SparkContext
##############################################
rdd = sc.range(1,101)
# 创建累加器,初始值0
acc = sc.accumulator(0)
def countEnve(x):global accif x%2 == 0:acc +=1 # 累加器更新
rdd_count = rdd.map(countEnve)
# 获取累加器值
# 0 因为未执行动作操作,即countEnve函数的逻辑还未执行
print(acc.value)
"""
保证多次正确获取累加器值,否则当我们再次执行rdd_count.count(),
累加器会再次执行。
rdd_counter.persist()切断了动作操作的链条,因此只会执行一次。
"""
rdd_count.persist()
# 100
print(rdd_count.count())
# 50
print(acc.value)# 100
print(rdd_count.count())
# 50
print(acc.value)
##############################################
sc.stop()

ps:上述示例代码,待实际反复运行!确认其运行过程。


参考文档:

  • https://spark.apache.org/docs/latest/api/python/reference/pyspark.html
  • 《Python大数据处理库PySpark实战》

博主写博文就是方便对自己所学所做的事做一备份记录或回顾总结。欢迎留言,沟通学习。

刚开始接触,请多指教,欢迎留言交流!

http://www.hengruixuexiao.com/news/27896.html

相关文章:

  • html5风格网站特色宁阳网站seo推广
  • 珠海做网站哪家好重庆网站seo推广公司
  • .com的网站需要备案吗市场调研表模板
  • 图片展示 网站做seo需要投入的成本
  • 天津大型网站建设风格东莞网络推广营销
  • 建设管理网站首页广州灰色优化网络公司
  • wordpress10款音乐插件广州seo网站公司
  • 奥派网站建设问答推广
  • 公司图标设计大全免费 logoseo海外推广
  • 好的免费博客网站百度网盘登录入口官网
  • 南京网站优化公司爱站网长尾挖掘工具
  • 你有网站 我做房东 只收佣金的网站怎么推广引流客户
  • 微信上做网站编辑seol英文啥意思
  • 网站建设维护多少钱百度电话查询
  • 彩票网站怎么做代理厦门人才网
  • 网站上的按钮怎么做百度客服电话是多少
  • 移动端网站如何做导出功能吗线上营销推广渠道
  • 开发网站公司的简介爱站网ip反查域名
  • 营销型网站建设服务品牌推广宣传词
  • 浙江省住房和城乡建设厅官方网站怎么seo网站排名
  • 顺德做网站公司哪家好seo网站结构优化
  • 一个人免费观看高清在线观看关键词优化师
  • 网站流量监控英文外链seo兼职
  • 做网站宝安制作网页用什么软件
  • 网上购物商城app宁波seo优化公司
  • 衡水做淘宝网站建设重庆seo扣费
  • 濮阳网站建设 公司名字杭州全网推广
  • 美国联邦建设部门网站关键词检索怎么弄
  • 官方网站下载拼多多app点击排名软件哪个好
  • 做企业网站所需要的资料广点通和腾讯朋友圈广告区别