はじめに
Apache Sparkは大規模データ処理のための統合分析エンジンです。
前提条件
- Python 3.8+
- Java 11 または 17
ステップ1: PySparkのインストール
pip install pyspark
python -c "import pyspark; print(pyspark.__version__)"
ステップ2: SparkSessionの作成
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MyFirstPipeline") \
.master("local[*]") \
.getOrCreate()
ステップ3: データの読み込みと探索
data = [
("Alice", "Engineering", 85000),
("Bob", "Marketing", 72000),
]
df = spark.createDataFrame(data, ["name", "department", "salary"])
df.show()
ステップ4: データの変換
from pyspark.sql import functions as F
avg_salary = df.groupBy("department").agg(F.avg("salary").alias("avg_salary"))
avg_salary.show()
パフォーマンスのコツ
cache()を使用http://localhost:4040まとめ
初めてのSparkデータパイプラインが完成しました!