はじめに

Apache Sparkは大規模データ処理のための統合分析エンジンです。

前提条件

  • Python 3.8+
  • Java 11 または 17
  • ステップ1: PySparkのインストール

    pip install pyspark
    

    python -c "import pyspark; print(pyspark.__version__)"

    ステップ2: SparkSessionの作成

    from pyspark.sql import SparkSession
    

    spark = SparkSession.builder \

    .appName("MyFirstPipeline") \

    .master("local[*]") \

    .getOrCreate()

    ステップ3: データの読み込みと探索

    data = [
    

    ("Alice", "Engineering", 85000),

    ("Bob", "Marketing", 72000),

    ]

    df = spark.createDataFrame(data, ["name", "department", "salary"])

    df.show()

    ステップ4: データの変換

    from pyspark.sql import functions as F
    

    avg_salary = df.groupBy("department").agg(F.avg("salary").alias("avg_salary"))

    avg_salary.show()

    パフォーマンスのコツ

  • 頻繁にアクセスするDataFrameはcache()を使用
  • 大規模データにはCSVよりParquetを推奨
  • Spark UIで監視: http://localhost:4040

まとめ

初めてのSparkデータパイプラインが完成しました!