Apache Sparkをとりあえず動かしてみる

はじめに

Apache Spark 1.0.0 をとりあえず動かしてみる。
スタンドアローン環境でHello World! 的なSparkの初めの一歩を実行する。

前提条件

Javaがインストールされていること。

$ java -version 
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)
ダウンロード

こちらから

解凍
$ tar zxvf spark-1.0.0.tgz
$ cd spark-1.0.0
インストール

Scalaのインストールなど必要なモジュールを導入。

$ ./sbt/sbt assembly
動作確認

Sparkを対話モードで起動する。

$ ./bin/spark-shell

無事に起動したら、READMEファイルを読み取って色々操作してみる。

scala> val textFile = sc.textFile("README.md")  //ファイル読み取り
textFile: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12

scala> textFile.count()  //ファイルの行数を数える
res0: Long = 127

scala> textFile.first()  //ファイルの最初の行
res1: String = # Apache Spark
まとめ

Apache SparkのHello World! 的なことは簡単にできた!