免费注册
帮助文档(华北一、二)

  • 使用hadoop自带的hadoop-example.jar的teragen生成200GB数据。从10GB开始,每次增加10GB数据作为测试数据源,测试terasort排序时间。生成数据和测试代码如下:

    terasort生成数据和测试代码

     
    #!/bin/bash 
    /home/hadoop/bin/hadoop jar /home/hadoop/hadoop-examples.jar teragen -
    Dmapred.map.tasks=200 10737418240 /terasort/200G-input   
    ${HADOOP_HOME}/bin/hadoop fs -mkdir -p /terasort/in/ 
    ${HADOOP_HOME}/bin/hadoop fs -mv /terasort/in/* /terasort/200G-input/ 
    for i in {1..20} 
    do         
      for f in `${HADOOP_HOME}/bin/hadoop fs -ls /terasort/200G-input/ | 
    grep part | awk '{print $NF}' | head -n 10`         
      do                 
        ${HADOOP_HOME}/bin/hadoop fs -mv $f /terasort/in/         
      done         
      ${HADOOP_HOME}/bin/hadoop fs -rmr /terasort/output         
      echo -n "file count = "         
      ${HADOOP_HOME}/bin/hadoop fs -ls /terasort/in/ | grep part | wc –l         
      echo ""         
      time ${HADOOP_HOME}/bin/hadoop jar /home/hadoop/hadoop-examples.jar 
    terasort -Dmapred.reduce.tasks=50 /terasort/in /terasort/output 
    done

    对4个集群的测试结果如下:

    表3.1 yarn集群terasort测试结果

    耗时(s)

    处理速度(MB/s)

    B2

    B2-x

    D1

    D1-x

    B2

    B2-x

    D1

    D1-x

    10G

    263

    135

    261

    146

    38.94

    75.85

    39.23

    70.14

    20G

    440

    218

    473

    275

    46.55

    93.94

    43.30

    74.47

    30G

    685

    368

    721

    440

    44.85

    83.48

    42.61

    69.82

    40G

    834

    483

    1001

    627

    49.11

    84.80

    40.92

    65.33

    50G

    1103

    594

    1251

    824

    46.42

    86.20

    40.93

    62.14

    60G

    1352

    796

    1523

    1036

    45.44

    77.19

    40.34

    59.31

    70G

    1635

    948

    1851

    1144

    43.84

    75.61

    38.73

    62.66

    80G

    1851

    1077

    2092

    1389

    44.26

    76.06

    39.16

    58.98

    90G

    2177

    1357

    2377

    1589

    42.33

    67.91

    38.77

    58.00

    100G

    2500

    1478

    2603

    1906

    40.96

    69.28

    39.34

    53.73

    110G

    2784

    1536

    2977

    1990

    40.46

    73.33

    37.84

    56.60

    120G

    3075

    1769

    3158

    2149

    39.96

    69.46

    38.91

    57.18

    130G

    3163

    1874

    3579

    2425

    42.09

    71.04

    37.19

    54.89

    140G

    3423

    2234

    3817

    2767

    41.88

    64.17

    37.56

    51.81

    150G

    3950

    2058

    4082

    2828

    38.89

    74.64

    37.63

    54.31

    160G

    4336

    2411

    4428

    3131

    37.79

    67.96

    37.00

    52.33

    170G

    4461

    2573

    4652

    3249

    39.02

    67.66

    37.42

    53.58

    180G

    4842

    2711

    5077

    3733

    38.07

    67.99

    36.30

    49.38

    190G

    4945

    2826

    5394

    4001

    39.34

    68.85

    36.07

    48.63

    200G

    5306

    3132

    5778

    4240

    38.60

    65.39

    35.44

    48.30

    图3.1 yarn集群terasort处理耗时

    图3.2 yarn集群terasort处理速度

    terasort算法简介参见:

    http://dongxicheng.org/mapreduce/hadoop-terasort-analyse/


文档是否已解决您的问题?

  已解决   未解决

如您有其它疑问,您也可以与我们技术专家联系探讨。

联系技术专家