简介

Apache Spark是大规模数据处理的统一分析引擎。

前提条件

  • Python 3.8+
  • Java 11 或 17
  • 步骤1: 安装PySpark

    pip install pyspark
    

    python -c "import pyspark; print(pyspark.__version__)"

    步骤2: 创建SparkSession

    from pyspark.sql import SparkSession
    

    spark = SparkSession.builder \

    .appName("MyFirstPipeline") \

    .master("local[*]") \

    .getOrCreate()

    步骤3: 加载和探索数据

    data = [
    

    ("Alice", "Engineering", 85000),

    ("Bob", "Marketing", 72000),

    ]

    df = spark.createDataFrame(data, ["name", "department", "salary"])

    df.show()

    步骤4: 数据转换

    from pyspark.sql import functions as F
    

    avg_salary = df.groupBy("department").agg(F.avg("salary").alias("avg_salary"))

    avg_salary.show()

    性能提示

  • 频繁访问的DataFrame使用cache()
  • 大数据集优先使用Parquet
  • 通过Spark UI监控: http://localhost:4040

总结

你已经构建了第一个Spark数据管道!