搜索
上一篇为介绍完51事务整体架构和代码概览及“52事务并发控制”本篇将继续介绍“53锁机制”的精彩内容。53锁机制数据库对公共资源的并发控制是通过锁来实现的根据锁的用途不同通常可以分为3种自旋锁spin
2022-11-13
上一篇介绍了第八章AI技术中“81概述”及“82自调优”的相关内容本篇我们开启第八章AI技术中“83慢SQL发现”的相关精彩内容介绍。83慢SQL发现基于历史SQL语句信息进行模型训练并用训练好的模型
2022-11-13
写在前面先简单说明一下这几种表形态的定义全量表每天的所有写最新状态的数据1、有无变化都要报2、每次上报的数据都是所有的数据变化的没有变化的增量表新增的数据1、增量表只报变化量无变化不用报拉链表1、记录
2022-11-13
今天下午学习了数据仓库的基础知识1、全量保留每天全部最新的数据2、增量今天比昨天新增的数据3、快照保留历史到当前数据并存入不同的分区中4、拉链保留历史到当前的数据他和快照不同的是避免了保存重复数据的问
2022-11-13
一、什么是拉链表针对订单表、订单商品表流水表这些表中的数据是比较多的如果使用全量的方式会造成大量的数据冗余浪费磁盘空间。所以这种表一般使用增量的方式每日采集新增的数据。在这注意一点针对订单表如果单纯的
2022-11-13
企业数据架构的演进传统数据处理架构、大数据Lambda架构、流程处理架构。Flink是一种具有代表性的开源流处理架构它实现了GoogleDataflow流计算模型是一种兼具高吞吐、低延迟和高性能的实时
2022-11-12
经过很多年的发展hadoop生态圈不断的完善和完善除了核心HDFS和MapReduce以外Hadoop生态圈还包括zookeeper、HBaseHive、pig、Mahout、Sqoop、Flume、
2022-11-12
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的前世今生。伴随5G、大数据、AI、IoT的飞速发展,数据呈现大规模、多样性的极速增长,
2022-11-09
数据挖掘数据预处理是对原始数据进行处理消除噪声和缺失值建立数据仓库的过程即是数据预处理的过程。数据的重要性在大多数情况下都超过了算法的重要性质量欠佳的数据很难得到有用的分析结果因此数据预处理是数据分析
2022-11-09
目录1、维度表11维度表12维度表的特征2事实表21事实表的概念22事实表的特点23事实表的分类1、维度表11维度表维度表一般是对事实的描述信息每一张维度表对应现实世界中的一个对象或者一个概念。例如用
2022-11-07
1使用广播变量的使用步骤1声明广播变量valboardscboardcast(XX)2使用value获得广播变量的值3变量只会被发到各个节点一次且作为“只读变量”以下是广播变量的源代码向所有工作节点发
2022-11-07
目录建表数据存储主键和索引在查询中的表现主键的选择选择与排序键不同的主键索引和分区在查询中的应用部分单调主键的使用跳数索引可用的索引类型并发数据访问列和表的TTL列TTL表TTL删除数据使用多个块设备
2022-11-06
UDAFuserdefinedaggregationfunction自定义udaf函数self_count实现系统udafcount的功能in:outn:1,即输入N条数据返回一条处理结果即列转行。最
2022-11-06
想要更全面了解Spark内核和应用实战可以购买我的新书。《图解Spark大数据快速分析实战》(王磊)【摘要书评试读】京东图书https://itemjdcom/13613302htmlAQE1AQE的
2022-11-06
前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一
2022-11-01
前言当人们一提到全量表增量表拉链表流水表快照表等这些概念时大家第一反应想到的就是传统数据仓库的使用。那么本文将从数据仓库介入简单介绍一下openGauss设计中的全量表增量表拉链表流水表快照表等。主要
2022-10-31
电商分析之会员活跃度第1节需求分析会员数据是后期营销的很重要的数据。网店会专门针对会员进行一系列营销活动。电商会员一般门槛较低注册网站即可加入。有些电商平台的高级会员具有时效性需要购买VIP会员卡或一
2022-10-14
目录前言正文实战案例ORC数据格式Parquet数据格式TextFile数据格式总结前言什么是Hive?ApacheHive数据仓库软件便于使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结
2022-10-13
1什么不是数据仓库的一部分?A面向主题的B集成的C相对稳定的D反应当前变化的2哪一项不是系统数据库的特点?A反应当前值B访问频率高C大量的用户D大量的汇总宽表3下面拿一项不是HADOOP生态?AZOO
2022-10-03
文章目录第一章数据仓库与数据挖掘概述第二章数据仓库概述第三章联机分析处理(OLAP)第四章数据挖掘的基本概念第五章数据预处理第六章概念描述:特征化和比较习题答案第一章数据仓库与数据挖掘概述无习题第二章
2022-10-03