Spark

Spark

SparkSpark入门 spark是一种基于内存的快速，通用，可扩展的大数据分析计算引擎。 spark内置模块 spark core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。 Spark SQL：是Spark用

2021-08-27

大数据

大数据 spark

Scala

Scala

ScalaScala简介 Scala是一门多范式的编程语言，Scala支持面向对象和函数式编程。（多范式，就是多种编程方法的意思。有面向过程，面向对象，泛型，函数式四种程序设计方式。） class和object说明 object：从语法的角度上讲，上面的语法表示声明了一个伴生对象，但是还会生成一个伴生类。Scala是纯面向对象的，去除了java中的static关键字，通过伴生对象模拟static

2021-08-10

Scala

Scala

hbase

hbase

HBaseHBbse概述 HBase是一种分布式，可扩展，，支持海量数据存储的NoSQL数据库。逻辑结构 row key类似于主键 region在行上的一个切分，几行分一个region 列族：Column Qualifier。 store：按照region和列族可以分为一个个store 物理结构数据模型 1. Name Space 命名空间，类似于关系型数据库的DatabB

2021-06-27

大数据 flume

kafka

kafka

kafkaKafka概述 kafaka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。消息队列一般分为两种模式：点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）发布/订阅模式（一对多，消费者消费数据之后不会清除消息）基础架构 producer:消息生产者，向Kafka broker发消息的客户端 consumer：消息消

2021-06-24

大数据 Kafka

大数据 kafka

flume

flume

FlumeFlume概述配置文档，自定义Source,Interceptor,sink就来看官方文档：官方文档 flume是一个高可用的，可靠的，分布式的海量日志采集，聚合，和传输的系统基于流式框架，灵活简单。基础架构： Agent:是一个JVM进程，它以事件的形式将数据从源头送至目的 source负责接收数据到Flume agent 的组件。可以处理各种类型，格式的日志数据。例如：s

2021-06-21

大数据 flume

大数据 flume

Hive

Hive

HiveHive基础知识 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序优点：1. 操作采用类SQL语法，提供快速开发的能力。缺点： 1. 效率低架构原理：大致流程：Hive通过给用户提供的一系列交互接口，

2021-06-04

大数据 Hive

大数据

HA&ZooKeeper

HA&ZooKeeper

HA&ZooKeeperzookeeperzk概述 ZooKeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。设计模式：是一个基于观察者模式设计的分布式服务管理框架，它辅助存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Zookeeper特点，

2021-06-02

大数据 Hadoop

zookeeper HA

Hadoop重要知识点

Hadoop重要知识点

Hadoop重要知识点理解Hadoop核心组件 MapReduce（计算框架） yarn （资源调度） HDFS（hadoop的分布式文件系统，主要用于数据存储） Common(辅助工具，包含一些依赖，jar包) 常用端口号分类应用端口namenode

2021-05-26

大数据 Hadoop

Hadoop

JavaWeb

JavaWeb

JavaWeb网页的组成结构（HTML) 超文本标记语言网页的主要内容通过html来实现用来写网页的语言表现（CSS) 层叠样式表网页的字体颜色、背景色、背景图片等通过它来实现用来美化网页行为（JavaScript/jQuery）用来实现网页上的一下动态的效果一个良好的网页要求结构、表现、行为三者分离 HTML 常用的标签标题标签一共六个（h1到h

2021-05-26

Java

Java

Linux

Linux

Linuxvim的三种模式一般模式以vi/vim编辑器打开一个文件就进入了一般默认，是默认的默认在一般模式中可以对文件进行复制、粘贴、删除、撤销常用的命令 yy 复制一行 y数字y 复制多行 dd 删除一行 d数字d 删除多行 p 粘贴 u 撤销 ^ 回到行头 $ 回到行尾 gg或1+G 回到页头 G 回到页尾数字+G 回到某一行

2021-05-11

大数据

Linux