Spark SparkSpark入门 spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎。 spark内置模块 spark core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。 Spark SQL:是Spark用 2021-08-27 大数据 大数据 spark
Scala ScalaScala简介 Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方法的意思。有面向过程,面向对象,泛型,函数式四种程序设计方式。) class和object说明 object:从语法的角度上讲,上面的语法表示声明了一个伴生对象,但是还会生成一个伴生类。Scala是纯面向对象的,去除了java中的static关键字,通过伴生对象模拟static 2021-08-10 Scala Scala
hbase HBaseHBbse概述 HBase是一种分布式,可扩展,,支持海量数据存储的NoSQL数据库。 逻辑结构 row key类似于主键 region在行上的一个切分,几行分一个region 列族:Column Qualifier。 store:按照region和列族可以分为一个个store 物理结构 数据模型 1. Name Space 命名空间,类似于关系型数据库的DatabB 2021-06-27 大数据 flume
kafka kafkaKafka概述 kafaka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息队列一般分为两种模式: 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 发布/订阅模式(一对多,消费者消费数据之后不会清除消息) 基础架构 producer:消息生产者,向Kafka broker发消息的客户端 consumer:消息消 2021-06-24 大数据 Kafka 大数据 kafka
flume FlumeFlume概述 配置文档,自定义Source,Interceptor,sink就来看官方文档:官方文档 flume是一个高可用的,可靠的,分布式的海量日志采集,聚合,和传输的系统基于流式框架,灵活简单。 基础架构: Agent:是一个JVM进程,它以事件的形式将数据从源头送至目的 source负责接收数据到Flume agent 的组件。可以处理各种类型,格式的日志数据。例如:s 2021-06-21 大数据 flume 大数据 flume
Hive HiveHive基础知识 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 优点:1. 操作采用类SQL语法,提供快速开发的能力。 缺点: 1. 效率低 架构原理: 大致流程:Hive通过给用户提供的一系列交互接口, 2021-06-04 大数据 Hive 大数据
HA&ZooKeeper HA&ZooKeeperzookeeperzk概述 ZooKeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 设计模式:是一个基于观察者模式设计的分布式服务管理框架,它辅助存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。 Zookeeper特点, 2021-06-02 大数据 Hadoop zookeeper HA
Hadoop重要知识点 Hadoop重要知识点理解Hadoop核心组件 MapReduce(计算框架) yarn (资源调度) HDFS(hadoop的分布式文件系统,主要用于数据存储) Common(辅助工具,包含一些依赖,jar包) 常用端口号 分类 应用 端口namenode 2021-05-26 大数据 Hadoop Hadoop
JavaWeb JavaWeb网页的组成 结构(HTML) 超文本标记语言 网页的主要内容通过html来实现 用来写网页的语言 表现(CSS) 层叠样式表 网页的字体颜色、背景色、背景图片等通过它来实现 用来美化网页 行为(JavaScript/jQuery) 用来实现网页上的一下动态的效果 一个良好的网页要求结构、表现、行为三者分离 HTML 常用的标签 标题标签 一共六个(h1到h 2021-05-26 Java Java
Linux Linuxvim的三种模式一般模式 以vi/vim编辑器打开一个文件就进入了一般默认,是默认的默认 在一般模式中可以对文件进行复制、粘贴、删除、撤销 常用的命令 yy 复制一行 y数字y 复制多行 dd 删除一行 d数字d 删除多行 p 粘贴 u 撤销 ^ 回到行头 $ 回到行尾 gg或1+G 回到页头 G 回到页尾 数字+G 回到某一行 2021-05-11 大数据 Linux