pySpark(파일(csv)에서 PostgreSQL로)

개발 서버에서 Spark를 사용하여 위의 파이프라인 데모를 구성했습니다.

Spark(PySpark)를 통해 특정 파일 확장자(CSV, JSON 등)를 RDB에 저장합니다.

> 샘플 파일

'추천 관련글,

Postgresql_to_MariaDB

import pyspark
from pyspark.sql import SparkSession
ip = "10.65.41.141"
port = 5432
user = "isharkk"
passwd = "rplinux"
db = "testt"
sp = pyspark.sql.SparkSession \
     .builder \
     .config("spark.driver.extraClassPath", "/root/spark-3.2.2-bin-hadoop3/jars/postgresql-42.5.4.jar") \
     .getOrCreate()
query = sp.read.format("jdbc")\
          .option("url","jdbc:postgresql://10.65.41.141:5432/testt") \
          .option("driver", "org.postgresql.Driver") \
          .option("dbtable", "ishark.fps") \
          .option("user", "isharkk") \
          .option("password", "rplinux") \
          .load()
query.show()
query1 = query.write.format("jdbc")\
          .option("url","jdbc:mariadb://10.65.41.140:3306/test") \
          .option("driver", "org.mariadb.jdbc.Driver") \
          .option("dbtable", "post_spark") \
          .option("user", "root") \
          .option("password", " ") \
          .save()

> PostgreSQL 테이블

>MariaDB 테이블

Postgresql 테이블 데이터가 정상적으로 수신되었는지 확인할 수 있습니다.