搜索
前言在之前的大数据学习系列之七Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引
2022-11-19
前言在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。说明:遇到的
2022-11-19
一、Protobuf序列化原理简介11序列化序列化是将数据结构或对象转换成二进制字节流的过程。Protobuf对于不同的字段类型采用不同的编码方式和数据存储方式对消息字段进行序列化以确保得到高效紧凑的
2022-11-18
全量表全量表增量表数据包含到前一天的全量数据前一天的增量数据分区不分区ymd为当前日期但是也有按天全量设计的也叫全量表按照每一天分区保存每天所有的最新状态的数据。1全量表有无变化都要报2每次上报的数据
2022-11-13
一、什么是拉链表针对订单表、订单商品表流水表这些表中的数据是比较多的如果使用全量的方式会造成大量的数据冗余浪费磁盘空间。所以这种表一般使用增量的方式每日采集新增的数据。在这注意一点针对订单表如果单纯的
2022-11-13
hive里假设dws_store_install_ds为历史安装全量表dws_store_install_dm为天增量表如下逻辑是计算上月累积本月累积值的逻辑INSERTOVERWRITETABLEd
2022-11-13
在dwd层关联维度表时经常会遇到数据倾斜假如某app商店的曝光数据超百亿在关联app维度表表时排在前面的app肯定占了大部分数据如抖音微信肯定会遇到数据倾斜。这个时候该怎么解决呢mapjoin无疑是比
2022-11-13
在hive数据开发的过程中我们总是会遇到一些特殊日期获取的需求这个时候我们免不了要去百度参考别人的答案然后自己再来实践这里我把在工作中遇到的特殊日期的获取SQL开发积累整理下来并将会持续更新关注收藏不
2022-11-13
一、参考日期为当前日期以当前系统日期作为参考日期将其转换为统一的天维度yyyyMMdd数据格式。例如当前日期为20210129昨天方式一date_format(date_sub(current_dat
2022-11-12
1数据迁移hadoopdistcpDmapreducejobqueuenamehive2hdfs://ip1:8020/user/hive/warehouse/testdb/t1hdfs://ip2:
2022-11-12
一、DataX介绍DataX是阿里开源的一个异构数据源离线同步工具致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效
2022-11-12
目录一、相关技术链接:二、操作代码三、实现结果一、相关技术链接:Hadoop完全分布式环境搭建Python爬数据并传入Mysql二、操作代码cd/export/software进入sqoop安装包所在
2022-11-11
2022年全国职业院校技能大赛(高职组)目录2022年全国职业院校技能大赛(高职组)模块A大数据平台搭建容器环境15分任务一Hadoop完全分布式安装配置任务二SparkonYarn安装配置任务三Fl
2022-11-11
模块AHadoop平台及组件的部署管理15分环境说明编号主机名类型用户密码1master主节点rootpasswd2slave1从节点rootpasswd3slave2从节点rootpasswd补充说
2022-11-11
hadoop单机映射HowtosetthenumberofmappersandreducersofHadoopincommandline?如何在命令行中设置Hadoop的映射器和缩减器的数量Numbe
2022-11-10
1、创建表11、直接将一个表里的字段查出来放到新建的表中字段hive会自动建好。createtabletemp_tablestoredasrcfileasselectid,name,age,schoo
2022-11-09
1原数据全是null的情况能清空hive>select*fromtestNull;OKNULLNULLNULLTimetaken:008seconds,Fetched:3row(s)hive&g
2022-11-09
sql语句中的执行顺序:from>where>join>groupby>having>select>orderby>limitgroupby之后select语
2022-11-07
在hive上检测分区是否产生的方法很简单:showpartitionsdbtable数据库名表名即可当然也可以以如下的方式展开usedb;showparttionstable很多时候我们生成分区的程序
2022-11-06
在实际项目中修改原来的表结构增加一个交易类型字段作为组合分区由于是BI展示的表交易类型实际存储的是中文而且是已经投入使用的表不能重新修改表名。1查看表分区结构如下showpartitionsads_m
2022-11-06