标签:Hadoop

2019年7月

SQL on Hadoop在快手大数据平台的实践与优化

40

rwt 发布于 2019-07-11

一、SQL on Hadoop介绍 SQL on Hadoop,顾名思义它是基于Hadoop生态的一个SQL引擎架构,我们其实常常听到Hive、SparkSQL、Presto、Impala架构,接下来,我会简单的描述一下常用的架构情况。 1、HIVE HIVE,一个数据仓库系统。...

2019年4月

百 PB 级 Hadoop 集群存储空间治理

3

rwt 发布于 2019-04-29

现在这个世道,随便什么公司什么人都张嘴闭嘴大数据,连做个几十人的问卷都敢叫大数据调查分析。真是无知者无畏。 但也真有不少公司是真的有足够大的数据量的,也确实是在用心做大数据。这些公司通常规模不小,但盈利不一定理想。就算能稳定盈利,也一定有不小的成本压力。因为,大数据,如果真的够大...

2018年12月

Hadoop生态系统

13

rwt 发布于 2018-12-04

Hadoop是什么 Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。 Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境。 Hadoop生态系统的各组成部分详解 Hadoop...