project_logcollect

本文最后更新于:2023年11月16日 下午

电商采集项目搭建流程

自动生成数据脚本

  • 生成用于测试的数据

数据采集模块

Hadoop安装

  • 在这里只说以下大致步骤以及容易出错的地方

  • 配置集群之间分发数据的脚本,以及集群之间ssh免密登录

  • hadoop安装,解压就行,注意解压的目录。

  • 核心文件配置:

    • core-site.xml文件配置
    • hdfs-site.xml文件配置,因为是测试,在这里设置HDFS副本数量为1,防止存储不够,浪费存储。
    • yran-site.xml文件配置
    • mapred-site.xml文件
    • workers文件配置,注意不用多打空格等输入错误,里面配置hadoop的datanode节点的主机名。
  • 第一次启动注意要先格式化namenode。bin/hdfs namenode -format

  • 常见web客户端:

    • hadoop100:9870。HDFS的Web界面
    • yarn的web界面:hadoop101:8088
    • 历史服务器hadoop102:19888
  • 单点启动关闭命令

    1
    2
    3
    4
    5
    6
    #HDFS组件
    hdfs --daemon start/stop namenode/datanode/secondarynamenode
    #Yarn
    yarn --daemon start/stop resourcemanager/nodemanager
    #历史服务器
    mapred --daemon start historyserver
  • 配置历史服务器

  • 配置日志的聚集

  • 集群时间同步

  • 配置一下压缩

  • 可以测试一下集群基础性能

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14

    读写性能测试
    #读取HDFS集群的10个128M文件
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
    #删除测试数据
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

    运算速度测试
    #使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data
    #执行排序程序
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data
    #验证数据是否排序成功
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data

RWzQ8f.png

ZooKeeper安装

  • 在/zookeeper-3.5.7/这个目录下创建zkData

  • 在/zookeeper-3.5.7/zkData目录下创建一个myid的文件,myid唯一。

  • 重命名/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg

  • 修改数据存储路径:dataDir=/opt/module/zookeeper-3.5.7/zkData

  • cluster下增加集群配置

Kafka

  • Kafka遇到的坑:– Error while fetching metadata with correlation id : {LEADER_NOT_AVAILABLE}

    • 原因:无法识别Kafka hostname

    • 解决:修改kafka/config/server.properties配置

    • 配置llisteners=PLAINTEXT://hadoop100:9092

    • 配置advertised.listeners=PLAINTEXT://hadoop100:9092

  • Kafka压力测试

项目基础架构

  • W5gHcF.png

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!