project 项目总结数据采集项目 项目框架版本: hadoop 3.1.3 Hadoop本身不支持LZO压缩,需要下载并重新编译hadoop-lzo 在core-site.xml增加配置支持LZO压缩 创建LZO索引,LZO压缩文件可切片的特性依赖于其索引 flume 1.9 kafka 2.41 Zookeeper 3.5.7 hive 3.1.2 spark 2.1.1 项目架构 日志数据 2021-09-29 项目 项目
Spark SparkSpark入门 spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎。 spark内置模块 spark core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。 Spark SQL:是Spark用 2021-08-27 大数据 大数据 spark
Scala ScalaScala简介 Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方法的意思。有面向过程,面向对象,泛型,函数式四种程序设计方式。) class和object说明 object:从语法的角度上讲,上面的语法表示声明了一个伴生对象,但是还会生成一个伴生类。Scala是纯面向对象的,去除了java中的static关键字,通过伴生对象模拟static 2021-08-10 Scala Scala
warehouse-project 离线数仓项目数仓分层 为什么要分层 ODS层(Operation Data Store)原始数据层,将前端日志数据,后端业务数据直接导入,不做处理 DWD层 (Data Warehouse Detail) 明细数据层,对ODS层数据进行数据清洗,维度退化,脱敏等。 DWS层 (Data Warehouse Service)服务数据层,以DWD层为基础,按天进行轻度汇总。 DWT层 (Data 2021-07-29 项目 离线数仓搭建 数据仓库
project_logcollect 电商采集项目搭建流程自动生成数据脚本 生成用于测试的数据 数据采集模块Hadoop安装 在这里只说以下大致步骤以及容易出错的地方 配置集群之间分发数据的脚本,以及集群之间ssh免密登录 hadoop安装,解压就行,注意解压的目录。 核心文件配置: core-site.xml文件配置 hdfs-site.xml文件配置,因为是测试,在这里设置HDFS副本数量为1,防止存储不够,浪费存储。 2021-07-04 项目 电商数据采集项目 大数据 电商采集项目
hbase HBaseHBbse概述 HBase是一种分布式,可扩展,,支持海量数据存储的NoSQL数据库。 逻辑结构 row key类似于主键 region在行上的一个切分,几行分一个region 列族:Column Qualifier。 store:按照region和列族可以分为一个个store 物理结构 数据模型 1. Name Space 命名空间,类似于关系型数据库的DatabB 2021-06-27 大数据 flume
kafka kafkaKafka概述 kafaka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息队列一般分为两种模式: 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 发布/订阅模式(一对多,消费者消费数据之后不会清除消息) 基础架构 producer:消息生产者,向Kafka broker发消息的客户端 consumer:消息消费者,向Kafka 2021-06-24 大数据 Kafka 大数据 kafka
flume FlumeFlume概述 配置文档,自定义Source,Interceptor,sink就来看官方文档:官方文档 flume是一个高可用的,可靠的,分布式的海量日志采集,聚合,和传输的系统基于流式框架,灵活简单。 基础架构: Agent:是一个JVM进程,它以事件的形式将数据从源头送至目的 source负责接收数据到Flume agent 的组件。可以处理各种类型,格式的日志数据。例如:s 2021-06-21 大数据 flume 大数据 flume
Hive HiveHive基础知识 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 优点:1. 操作采用类SQL语法,提供快速开发的能力。 缺点: 1. 效率低 架构原理: 大致流程:Hive通过给用户提供的一系列交互接口, 2021-06-04 大数据 Hive 大数据
HA&ZooKeeper HA&ZooKeeperzookeeperzk概述 ZooKeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 设计模式:是一个基于观察者模式设计的分布式服务管理框架,它辅助存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Zookeeper特点, 2021-06-02 大数据 Hadoop zookeeper HA