当前位置: 首页 > news >正文

个人网站如何备案关键词小说

个人网站如何备案,关键词小说,网站设计中下拉列表怎么做,搜企业信息的网站Hive Sampling 抽样函数 文章目录Hive Sampling 抽样函数Random随机抽样Block 基于数据块抽样Bucket table 基于分桶表抽样语法在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。Random随机抽样 随机抽样使用rand()函数确保…

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.hengruixuexiao.com/news/6867.html

相关文章:

  • wordpress没有显示安装seo01
  • 镇江网站推广产品销售推广方案
  • 重庆网站建设023kw百度seo建议
  • 龙岩网站建设设计服务高级seo课程
  • 电商网站备案app推广注册接单平台
  • 电子商务专业有什么用无线网络优化工程师
  • 网站优化文档seo入门培训
  • 青岛网站建设兼职搜索引擎的四个组成部分及作用
  • 网站建设价格方案推广类软文
  • 网站顶部素材seo常用工具
  • 响应式网站是广告信息发布平台
  • 网页设计网站期末作业个人开发app可以上架吗
  • phpcms 怎么做视频网站首页外贸推广优化公司
  • 阿里巴巴网站工作流程b站推广网站2024年不用下载
  • wordpress单页留言板抖音搜索引擎优化
  • 做视频网站要什么主机四川省人民政府
  • 江西住房城乡建设网站产品推广文章
  • 全国疫情最新消息公布短视频seo优化
  • 起名字2023免费八字起名seo电商运营是什么意思
  • 免费的黄冈网站有哪些下载软件河北百度推广seo
  • 网站推广如何引流韩国比分预测
  • 浏览器怎么打开网站服务器设置广告联盟平台哪个好
  • 临沂网站排名汕头网站建设方案推广
  • 做网站的语俄罗斯搜索引擎yandex
  • wordpress回复显示插件星巴克seo网络推广
  • 做网站建设的公司排名网址域名ip解析
  • 网站建设系统亚马逊alexa
  • 怎么确认网站是什么语言做的企业管理培训课程
  • wordpress ezsql贵阳seo网站推广
  • wordpress woocommerce 主题seo关键词如何设置