当前位置: 首页 > news >正文

证券公司网站建设方案百度推广官方电话

证券公司网站建设方案,百度推广官方电话,免费建设网站c3sales,揭阳专业的网站建设价格Hive Sampling 抽样函数 文章目录Hive Sampling 抽样函数Random随机抽样Block 基于数据块抽样Bucket table 基于分桶表抽样语法在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。Random随机抽样 随机抽样使用rand()函数确保…

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.mnyf.cn/news/40504.html

相关文章:

  • 如何做网站页面免费的百度知道
  • 做网站用后缀好seo网站优化是什么
  • 清河网站建设公司查数据的网站有哪些
  • 西安做网站朋朋seo怎么弄
  • 提供网站建设方案ppt排名第一的手机清理软件
  • 免费网站推广软文发布百度网盘链接
  • 网站自助建设平台百度河北百度推广电话
  • 如何在网站做404页面广州最新发布最新
  • 做网站域名自己弄百度24小时人工客服电话
  • 企业平台网站制作什么是网站
  • 自助建站教程新媒体营销
  • 餐饮行业做微信网站有什么好处南京seo优化推广
  • 网站建设具体步骤温州seo优化公司
  • 高档手表网站网站关键词查询网址
  • 深圳网站建设方维常州谷歌优化
  • 嘉兴网站建设的前景提升神马关键词排名报价
  • 设计一个网站域名注册后怎么使用
  • 三只松鼠品牌案例分析网站seo分析案例
  • 企业做网站好处常见的网络营销工具
  • 日ip5000的网站怎么做网络推广中心
  • 做网站需要域名和什么阿里云域名查询和注册
  • asp网站报错信息威海seo优化公司
  • 怎样通过网站注册公司武汉seo公司哪家专业
  • 创新的企业网站制作google推广seo
  • 南京网站公司网站排行查询
  • 网站被做跳转怎么办市场调研方法
  • 扬中做网站的公司广告宣传网站
  • 手机网站开发费用淘宝关键词怎么选取
  • 做网站商昆明seo网站管理
  • 网站的原型图网络营销的四个步骤