Elasticsearch_learning Elasticsearch Elaticsearch,简称为es,es是一个开源的高扩展的分布式全文检索引擎 ,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性,从而让全文搜索变得简单。近实时搜 2024-04-15 大数据 大数据
alibaba_big_data_road 《大数据之路》 阿里巴巴出品的经典书籍,这里是一些笔记。推荐阅读原版书籍 数据模型篇第8章:大数据领域建模综述 数据仓库是一个面向主题的、集成的、 非易失的且随时间变化的数据集合,用来支持管理人员的决策。 好的数据建模会从以下几个方面带来提升: 性能:良好的数据模型可以快速查询数据,减少I/O 成本:减少非必要的数据冗余,计算结果的复用,降低大数据系统中的存储和计算成本 效率:提升使用数据的 2024-02-27 大数据 书籍
StarRocks StarRocks基础介绍 社区还是很活跃的,贴一下官方文档:StarRocks官方文档 官方描述:StarRocks 是一款高性能分析型数据库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协 2024-01-03 大数据 大数据
Git Git简介 git学习网站(参考该教程学习并写的博客) 分布式版本控制系统 Linux之父Linus Torvalds两周用C写了一个分布式版本控制系统,一个月内Linux 系统的源码已经由Git管理了。这就是鸡欧帝的实力吗?亏贼! 集中式版本控制系统和分布式版本控制系统的区别 本质区别:你的本地是否有完整的版本库历史。 假设SVN服务器消失了,你失去了所有的历史信息,因为你的本地只有当前版本 2023-11-16 git git
Hive_WindowFunction 窗口函数partition by 子句 窗口函数 窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库进行实时分析处理。 基本语法: 12<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>) 语法中< 2022-02-25 大数据 Hive Hive 窗口函数
flink FlinkFlink简介 Apache Flink是为分布式,高性能,随时可用以及准确的流处理应用程序打造的开源流处理框架。 流处理架构的演变 lambda 架构(批处理+流处理 ,由twitter提出) flink 流批统一(同时保证低延迟和结果正确) 特点 Flink的重要特点: 事件型驱动(Event-driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流 2021-10-31 大数据 Flink 大数据 Flink
shuju_qiinxie 数据倾斜数据倾斜描述 正常的数据分布理论上都是倾斜的,就是常说的2-8原则。不同的数据字段可能的数据倾斜一般有两种情况: 唯一值非常少 唯一值比较多 数据倾斜产生的原因 数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算 2021-10-22 大数据 数据倾斜
Computer_Fundamentals 计算机基础计算机网络 计算机网络体系结构 应用层 应用层用来规定应用进程在通信时所遵循的协议,应用层的许多协议都是基于客户服务器方式。 涉及到的协议: 域名系统DNS:将域名和IP地址相互映射的一个分布式数据库,能够使人更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。 HTTP协议:超文本传输协议,所有的万维网文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收H 2021-10-13 计算机基础 计算机网络 计算机基础
algorithm 算法动态规划 首先,动态规划问题一般形式就是求最值,求解动态规划的核心问题是穷举。 由于动态规划这类问题基本存在重叠子问题,如果暴力求解的话效率会很低,所以需要备忘录或者DP table来优化穷举过程。 动态规划问题一定会具备最优子结构,这样就能通过子问题求解原问题。要符合最优子结构,子问题之间必须相互独立。 正确的状态转移方程才能正确的求解。 求解动态规划的一般办法: 确定基础案例,也就是最简单 2021-10-04 算法 算法
conclusion 重点知识点总结Linux linux常用命令 序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写情况,要root权限 4 iotop -o 直接查看比较高的磁盘读写程序 5 netstat -tunlp | grep 端口号 查看端口占用情况 6 uptime 查看报告系统运行时长及平均负载 7 ps 2021-09-29 大数据 Hadoop Hive Flume Kafka