-
hive性能优化
count(distinct hotel_seq) size(collect_set(hotel_seq)) 性能对比优化措施可使用 size(collect_set(hotel_seq)) 替换 count(distinct hotel_seq)注:size(collect_set()) 在去重统计字段量级很大时,可能会OOM执行计划对比count(distinct )需要进行两次shuffle,第一次去重,第二次统计去重数 size(collect_set())只需进行一次shuf...…
-
【数据仓库工具箱 维度建模权威指南】第四章 库存
库存模型库存周期快照半可加事实:对某些维度来说是可加的,但不是所有维度,如:库存水平可以按照产品或商店汇总,对日期来说是非可加的。库存事务仓库的库存事务可能包含一下各项: 接收产品 将产品放入检验区 将产品从检验区提出 若检验存在问题则将产品返回供应商 产品入库 从库中选择产品 包装产品 将产品运送给客户 从客户处接收产品 将客户返回的产品重新入库 从库存中删除产品库存累积快照累积快照事实表用于定义过程开始、结束以及期间的可区分的里程碑。事实表类型事实表主要包含三种基...…
-
【数据仓库工具箱 维度建模权威指南】第三章
维度模型设计的4步过程第1步:选择业务过程业务过程是有组织完成的微观活动,例如:获得订单、开具发票、接收付款、处理服务电话、注册学生、执行医疗程序、处理索赔等。业务过程包含一下公共特征: 业务过程通常用行为动词标识,因为他们通常标识业务执行的活动。 业务过程通常由某个操作型系统支持,例如:账单或购买系统。 业务过程建立或获取关键性能度量。有时这些度量是业务过程的直接结果,度量从其他时间获得。分析人员总是想通过过滤器和约束的不同组合,来审查和评估这些度量。 业务过程通常由输入激活,产...…
-
Explain执行计划详解
理论 本节将介绍explain的用法及参数介绍使用语法如下EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] queryexplain 后面可以跟以下可选参数,注意:这几个可选参数不是 hive 每个版本都支持的1.EXTENDED:加上 extended 可以输出有关计划的额外信息。这通常是物理信息,例如文件名。这些额外信息对我们用处不大2.CBO:输出由Calcite优化器生成...…
-
【推荐书单】
hive《Hive性能调优实战》《大数据之路:阿里巴巴大数据实践》《数据仓库工具箱 维度建模权威指南(第3版)》#…
-
【数据仓库工具箱 维度建模权威指南】第二章
4步骤维度设计过程1> 选择业务过程 2> 声明粒度 3> 确认维度4> 确认事实…
-
Github访问不了、不稳定?教你轻松解决
修改hosts文件先找到 hosts 文件的位置,不同操作系统,hosts 文件的存储位置也不同:Windows 系统:C:\Windows\System32\drivers\etc\hostsLinux 系统:/etc/hostsMac(苹果电脑)系统:/etc/hostsAndroid(安卓)系统:/system/etc/hostsiPhone(iOS)系统:/etc/hosts打开 hosts 文件,添加一行,将 xx 替换为你查询到的解析地址即可:# GitHub520 Host ...…
-
【已解决】OpenSSL SSL_connect Connection
OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443今天在使用git命令进行push和pull时,出现如下报错Git Pull Failed: unable to access 'https://github.com/jacky-wangjj/jacky-wangjj.github.io.git/': OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connectio...…
-
【已解决】Logon failed, use ctrl+c to cancel basic credential prompt
本地推送代码带Git仓库失败,报错Logon failed, use ctrl+c to cancel basic credential prompt.推送的时候弹出githup的登陆框,账号密码正确但是提示不正确解决方法:在网页上登陆你自己的githup账号,点击右上角头像–> setting –> Developer settings –> Personal access tokens页面点击新建 genrate new token新建完成,页面已经有一个新的tok...…
-
提效工具记录
hive sql相关常见错误hive msck repair table 报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask处理办法:set hive.msck.path.validation=ignore;msck repair table 库名.表名数据串列--临时表使用orc格式存储create table tmp_table stored as orc as sel...…
-
ubuntu安装配置navicat
下载压缩包文件navicat120_premium_cs_x64.tar.gz navicat-keygen-for-x64.tar.xz安装navicat 拷贝navicat120_premium_cs_x64.tar.gz至Ubuntu系统,并解压 建议使用root用户 修改start_navicat 启动./start_navicat 启动后会到注册界面,不要关,下面开始破解破解navicat 安装wi...…
-
大数据面试之Hive知识点
HiveSQL练习题Hive复杂数据类型 arrays: ARRAY maps: MAP<primitive_type, data_type> structs: STRUCT<col_name : data_type [COMMENT col_comment], …> union: UNIONTYPE<data_type, data_type, …>FIELDS TERMINATED BY表示字段与字段之间的分隔符 COLLECTION ITEM...…
-
大数据面试之Zookeeper知识点
zookeeper基础知识什么是zookeeperzookeeper是一套高吞吐的分布式协调系统。1) zookeeper的主要作用是为分布式系统提供协调服务,包括但不限于:分布式锁,统一命名服务,配置管理,负载均衡,主控服务器选举以及主从切换等。2) zookeeper是分布式服务,可提供高可用的特性。客户端通过tcp协议连接任意一个服务端节点请求zookeeper集群提供服务,而集群内部如何通信以及如何保持分布式数据一致性等细节对客户端透明。只要zookeeper集群中超过一半的节点存...…
-
SpringBoot开发相关注解
Spring注解参考链接: https://blog.csdn.net/weixin_39805338/article/details/80770472 https://www.cnblogs.com/xiaoxi/p/5935009.htmlJersey注解声明http请求的请求方式@GETGET请求(读取、列出、检索单个或资源集合)@POSTPOST请求(新建资源)@PUTPUT请求(更新现有资源或资源集合)@DELETEDELETE请求(删除资源或资源...…
-
Swagger使用指南
swagger简介swagger官网: https://swagger.io/ Swagger 是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。 maven依赖 <dependency> <groupId>io.springfox</groupId> <artifactId>springfox-swagger2</artifactId> <...…
-
Mysql常用操作
centos7安装mysql 配置yum源 在mysql官网下载yum源rpm安装包:http://dev.mysql.com/downloads/repo/yum/1) 下载mysql源安装包wget https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm2) 安装mysql源yum localinstall mysql80-community-release-el7-3.noarch.rpm可以修...…
-
idea永久破解及基本配置
idea下载与安装官网下载连接:https://www.jetbrains.com/idea/download/previous.html 2018.3.6 for Windows ZIP Archive (zip) 解压zip包到指定位置即可idea破解一般破解添加hosts配置 C -> Windows -> System32 -> drivers -> etc -> hosts 添加如下配置0.0.0.0 account.jetb...…
-
MongoDB安装与使用实例
MongoDB安装官网下载:https://www.mongodb.com/download-center 下载连接:https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz解压mongodb-linux-x86_64-4.0.9.tgz,配置环境变量tar -zxvf mongodb-linux-x86_64-4.0.9.tgzvim ~/.bashrc# 添加如下内容export MONGODB_HO...…
-
使用Scrapy进行舆情分析实例
舆情分析介绍舆情分析架构舆情分析实例…
-
本地文件系统支持大数据组件情况
hbase standalone模式hbase standalone运行在本地文件系统 官网详解hivehive必须使用hadoopzookeeper官网安装指导sparkspark run on standalone官网详解sqoopsqoop依赖Hadoop命令 You invoke Sqoop through the program launch capability provided by Hadoop. The sqoop command-line program ...…