Apache Spark クイックスタート：初めてのデータパイプライン

ビッグデータ 2026.02.10 12:00 12 min read Techsfree Engineering

はじめに

Apache Sparkは大規模データ処理のための統合分析エンジンです。

前提条件

Python 3.8+
Java 11 または 17

ステップ1: PySparkのインストール

pip install pyspark
python -c "import pyspark; print(pyspark.__version__)"

ステップ2: SparkSessionの作成

from pyspark.sql import SparkSession
spark = SparkSession.builder \
    .appName("MyFirstPipeline") \
    .master("local[*]") \
    .getOrCreate()

ステップ3: データの読み込みと探索

data = [
    ("Alice", "Engineering", 85000),
    ("Bob", "Marketing", 72000),
]
df = spark.createDataFrame(data, ["name", "department", "salary"])
df.show()

ステップ4: データの変換

from pyspark.sql import functions as F
avg_salary = df.groupBy("department").agg(F.avg("salary").alias("avg_salary"))
avg_salary.show()

パフォーマンスのコツ

頻繁にアクセスするDataFrameはcache()を使用
大規模データにはCSVよりParquetを推奨
Spark UIで監視: http://localhost:4040

まとめ

初めてのSparkデータパイプラインが完成しました！

Apache Spark クイックスタート：初めてのデータパイプライン

はじめに

前提条件

ステップ1: PySparkのインストール

ステップ2: SparkSessionの作成

ステップ3: データの読み込みと探索

ステップ4: データの変換

パフォーマンスのコツ

まとめ

関連記事

使用Apache Airflow构建生产级数据管道：完整教程

使用Apache Flink和Kafka进行实时流处理：生产级完整教程

使用dbt和PostgreSQL构建数据转换管道：实战教程