免费注册
帮助文档(华北一、二)

  • 1、集群创建好后,我该怎么使用?

    如果已购买同一可用区下带有外网IP的ECS,可登陆ECS,再通过ssh方式连接集群任一节点的内网IP。

    将集群的master节点绑定外网IP,ssh连接此外网IP。集群节点上可直接使用hdfs、hive、hbase、spark相关命令。

    2、提交的任务跑失败了,我需要怎样查看任务日志?

    A. 通过浏览器连接绑定在master1/master2上的外网IP的23188端口查看任务详情(需将所绑定的外网防火墙开放23188端口)

    B. 通过Hue页面查看任务详情

    C.任务的日志默认存储在hdfs的/var/log/hadoop-yarn/apps/[submintuser]/logs(submituser为提交任务的用户名),可通过web方式查看hdfs文件,或通过hdfs命令将相应Job日志下载到本地查看

    3、客户端提交任务时,提示UnkownHostException,如何处理?

    集群节点间默认使用Hostname的方式通信,需要将master1的/etc/hosts中关于hadoop节点的host拷贝到其它节点本地的/etc/hosts中

    4、我收到了磁盘告警通知,磁盘使用率大于95%,该怎么处理?

    首先确认是系统盘还是数据盘告警。系统盘告警的请在/目录下执行 du --max-depth=1 -h,数据盘告警请在/data目录下执行,可深入一层层查看具体哪个文件占用了空间,做下清除即可。

    5、HDFS满了,我收到了HDFS使用告警通知,HDFS使用率大于80%,该怎么处理?

    首先登录master1节点,切换到hadoop用户,执行 hadoop fs -du -h / 查看哪个目录占用较大。

    如果是/var目录,可继续执行hadoop fs -du -h /var/log 查看;若查看是 /var/log/hadoop-yarn/, 可以根据自己的需求在控制台修改这两个参数,需要重启集群

     
    yarn.log-aggregation.retain-seconds    (保存时长,建议值:2592000, 即30天) 
    yarn.log-aggregation.retain-check-interval-seconds (检查周期:86400,即1天)

    如果是/var/log/spark目录,一般是spark任务日志堆积,暂未能自动清理,可通过以下方式解决:

    在/etc/cron.daily/下创建clear-spark-logs.sh文件,并给设置权限 chmod 777 /etc/cron.daily/clear-spark-logs.sh

    第一次可通过执行 sh /etc/cron.daily/clear-spark-logs.sh手动清理,后面每天会自动

     
    #!/bin/bash 
    # 删除过期数据(默认30天)   
    days=30 
    old_file_list=$(hadoop fs -ls /var/log/spark/ | awk 
    'BEGIN{ days_ago=strftime("%F", systime()-
    "'$days'"*24*3600) }{ split($8,arr,"/"); if(arr[7]<days_ago){printf "%s\n", $8} }') 
    arr=(${old_file_list// / }) 
    for file in ${arr[@]} 
    do     
        su -s /bin/bash hadoop -c "hadoop fs -rm -r $file" 
    done

    6、我收到了节点内存告警通知,内存使用率大于95%,该怎么处理?

    1. 首先确认是Master节点,还是Core节点告警。

    若是Master节点,可以登录到该节点,通过ps命令找到内存占用较高的进程,如果确认该进程为自己业务启动的且不需要的,可以直接kill掉。如果是hadoop集群相关进程,建议升级Master节点来彻底解决。

    2. 若是Core节点,如果未自行安装服务,一般为DataNode、HBase-Regionserver和Yarn使用内存较多。可通过下列步骤解决:

    – 若不使用HBase,可通过inspurcloud管理控制台Hadoop下的“集群服务管理”页面关闭不使用服务;

    – 若关闭后未恢复,可通过修改Hadoop的yarn.nodemanager.resource.memory-mb参数来降低节点分配给Yarn的内存(可通过inspurcloud管理控制台Hadoop下的Hadoop Tab下的“参数配置”功能修改);

    – 若业务上需求更多内存资源,可适当添加Core/Task节点

    – 若是单节点CPU、MEM不足,可参考集群单个节点配置不够,如CPU,MEM或者磁盘,需要怎么升级

    7、集群单个节点配置不够,如CPU,MEM或者磁盘,需要怎么升级?

    升级Master:请通过工单形式,需提供(集群ID,原Master机型,待升级Master机型,可以执行操作时间),我们目前支持非标升级,且须同时升级2个Master,升级过程中Master节点需要重启,停止服务大概1分钟之内,注意需要保证集群不欠费,且账户内有足够余额满足升级费用。

    若为Core节点,默认不支持单个节点纵向升级,如果需要扩充资源,可以横向添加节点;如果遇到内存或其它单个节点的资源瓶颈,可以联系我们提供后台升级,升级是通过用高配节点替换低配节点完成,期间需要迁移大量数据,可能影响到集群业务,数据量大集群不建议此操作。

    8、我想关闭某台机器上的某个服务,或者关闭服务开机启动,怎么办?

    ● 停止服务:

    通常情况下,可使用 “service 服务名称 stop” 命令停止正在运行的服务进程。如服务无法停止,可在无任务时使用kill命令进行强制停止服务进程。

    ● 关闭服务自动拉起:

    将/etc/default/static_conf.json里startmonitor的值修改为0即可。

    ● 关闭服务并关闭开机自启:

    执行以上动作,并备份/etc/default/services。备份后,在原文件中删除掉相关服务字段内容即可。


文档是否已解决您的问题?

  已解决   未解决

如您有其它疑问,您也可以与我们技术专家联系探讨。

联系技术专家