黑洞

这里藏着一些独特的想法

0%

什么是拉链表

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。
记录一个事物从开始,一直到当前状态的所有变化的信息。
Reference: https://cloud.tencent.com/developer/article/1752848

拉链表是一种维护缓慢渐变维的方式,可以让我们方便地查看某些维度在历史阶段的状态。

阅读全文 »

概念

什么是数据仓库

存储数据的仓库,主要是用于存储过去既定发生的历史数据,对这些数据进行数据分析的操作,从而对未来提供决策支持。

阅读全文 »

Hive发展至今,已支持大部分Mysql中的语法,基础语法在此不过多赘述。

本文重点记录一些特别的查询语句。

1
2
3
4
5
6
7
8
9
10
[WITH CommonTableExpression (, CommonTableExpression)*]
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT [offset,] rows]
阅读全文 »

load

load加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。若文件从本地文件系统加载,则将文件复制一份到HDFS的数据库目录中;若文件从HDFS中加载,则将文件从原位置移动到数据库目录下。

使用语法:

1
2
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO
TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]
阅读全文 »

关于生活

我真的很讨厌我妈帮我收拾东西,每次帮我收拾完我都不知道自己的东西放哪了,她也不跟我说。虽然把房间弄整洁是个好习惯,但是每个人都有每个人的生活方式,我这属于无序中有序,虽然乱了一些,但要找的时候都非常顺手。她把自己的习惯强加给我,实在不能接受。

原本消停的疫情又在上海严重了起来,同时也在不断向周边扩散。抖音上爆出各种传闻,有的真有的假。尽管有“官方”的“辟谣”,但我始终相信有些事不是空穴来风。我看到的是人民面对现实的无奈与愤怒;看到的是“某些人”不作为;看到的是“宁错杀,不放过”,毫无人性可言的规则。难以想象若真是生化危机,又有几个人能活下来,哪些人能活下来。他们终究是没有能力去制定一个完善的疾控政策,光凭一个漏洞百出的狗屁健康码,根本解决不了什么。

他们,恨不得人们把XX码当作狗牌挂在胸前。

阅读全文 »

配置文件的修改

官网文档:https://hadoop.apache.org/docs/r3.3.0/

  • 第一类 1个 hadoop-env.sh

  • 第二类 4个 core|hdfs|mapred|yarn-site.xml

    • site 表示的是用户定义的配置,会覆盖 default 中的默认配置。

    • core-site.xml 核心模块配置

    • hdfs-site.xml hdfs文件系统模块配置

    • mapred-site.xml MapReduce模块配置

    • yarn-site.xml yarn模块配置

  • 第三类 1个 workers

阅读全文 »

忽略异常

1
2
3
4
5
--如果不存在则创建表
create table if not exists t_1(id int, firstname string, ...);

--如果存在则删除表
drop table if exists t_1;
阅读全文 »

空值(NULL)

不能用 =
应该用 is nullis not null

使用 ifnull(col, default) 来处理空值

  • col : 列名
  • default : 默认值
阅读全文 »