华为云对象存储OBSSpark对接OBS_云淘科技

10 月 08, 2022

139 0

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。

已安装Hadoop，具体请参见Hadoop对接OBS。

为了减少日志输出，在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置：

log4j.logger.com.obs= ERROR

以Spark2.3.3为例。

下载spark-2.3.3-bin-without-hadoop.tgz，并解压到/opt/spark-2.3.3。
在/etc/profile文件中增加配置内容：

export SPARK_HOME=/opt/spark-2.3.3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

配置spark。

重命名/opt/spark-2.3.3/conf/spark-env.sh.template为spark-env.sh并增加配置：

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

更多配置内容请参见Apache Hadoop。

重命名/opt/spark-2.3.3/conf/log4j.properties.template为log4j.properties。

执行以下命令，验证是否对接成功。

$SPARK_HOME/bin/run-example org.apache.spark.examples.JavaWordCount obs://obs-bucket/input/test.txt

父主题： 对接大数据组件

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

分类