简介
Apache Spark是大规模数据处理的统一分析引擎。
前提条件
- Python 3.8+
- Java 11 或 17
步骤1: 安装PySpark
pip install pyspark
python -c "import pyspark; print(pyspark.__version__)"
步骤2: 创建SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("MyFirstPipeline") \
.master("local[*]") \
.getOrCreate()
步骤3: 加载和探索数据
data = [
("Alice", "Engineering", 85000),
("Bob", "Marketing", 72000),
]
df = spark.createDataFrame(data, ["name", "department", "salary"])
df.show()
步骤4: 数据转换
from pyspark.sql import functions as F
avg_salary = df.groupBy("department").agg(F.avg("salary").alias("avg_salary"))
avg_salary.show()
性能提示
cache()http://localhost:4040总结
你已经构建了第一个Spark数据管道!