Spark adalah mesin yang digunakan untuk analisis dan pemrosesan data dalam skala besar Pada dasarnya, Spark bukanlah versi modifikasi dari Hadoop dan tidak bergantung pada Hadoop karena memiliki manajemen cluster sendiri. Hadoop hanyalah salah satu cara untuk mengimplementasikan Spark. Spark menggunakan Hadoop dalam dua cara - penyimpanan dan kedua adalah pemrosesan. Karena Spark memiliki komputasi manajemen klasternya sendiri, ia menggunakan Hadoop hanya untuk tujuan penyimpanan.
Spark SQL
Modul apache spark yang digunakan untuk mengerjakan data terstruktur.
Arsitektur Spark SQL
Language API
Spark support beberapa bahasa yaitu sql, python, scala, java, HQL. Setiap language API dapat diakses menggunakan CLI. Menjalankan spark bisa menggunakan beberapa command command
Bash
Copy
# Spark menggunakan scala & java
spark-shell
# Spark menggunakan sql
spark-sql
# Spark menggunakan python
pyspark
# Spark menggunakan R
sparkR
Ada 3 Komponen Fundamental yaitu
Spark Context dapat diakses menggunakan command `sc`
Spark Session (kumpulan dari spark context, hive context dan sql context). Baru ada di Spark2. Dapat diakses menggunakan command `spark`
Spark UI dapat di akses di http://localhost:4040
Schema RDD
Di spark ada beberapa jenis data
RDD (Resilient Distributed Dataset)
Bersifat immutable dan type safe.
RDD memiliki beberapa sifat contohnya Transformation (map, flatMap, sortby, filter, dsb) dan Action (reduce, agregate, take, foreach, dsb).
RDD mengoptimize pekerjaan sampai program melakukan Action jadi pekerjaan-pekerjaan lain yang tidak berkaitan tidak akan dikerjakan.
DataFrame
Bersifat immutable dan tidak type safe.
Dapat melakukan pemrosesan dengan lebih mudah dibanding RDD karena DataFrame menyimpan data dalam bentuk tabel dan memiliki beberapa API untuk membantu pengolahannya.
DataFrame bersifat tidak Type Safe sehingga pada beberapa kasus developer yang lupa tipe datanya melakukan kesalahan dan menyebabkan program error.
Dataset
Penyimpanan data yang menggabungkan keunggulan DataFrame dan RDD. Menyimpan data dalam bentuk tabel, memiliki beberapa API untuk memudahkan pemrosesan, dan bersifat Type Safe.
Data Sources
Spark sql support Parquet file, JSON document, HIVE tables, and Cassandra database.
Catalyze Optimizer
Mekanisme optimasi based on scala dengan tujuan untuk solving data besar dan mempermudah developer untuk custom function terkait optimizer.
FLOW
Analisis
Analisis dilakukan oleh 2 cara
SQL Parser membentuk AST (Abstract Syntax Tree).
DataFrame dari Spark SQL API
Logical Optimization
Rules untuk optimasi di set di logical plan.
Rules juga dapat ditambahkan.
Physical Planning
Dari Logical plan dan menggenerate 1 / banyak physical plan menggunakan physical operator sesuai spark execution engine. Plan akan dipilih berdasarkan cost based model (Perbandingan model cost tiap plan).
Code Generation
Generate Java Bytecode.
Contoh Catalyst Optimizer
Query →
Bash
Copy
// Business object
case class Persona(id: String, nombre: String, edad: Int)
// The dataset to query
val peopleDataset = Seq(
Persona("001", "Bob", 28),
Persona("002", "Joe", 34)).toDS
// The query to execute
val query = peopleDataset.groupBy("nombre").count().as("total")
// Get Catalyst optimization plan
query.explain(extended = true)
Java Bytecode →
Bash
Copy
== Analyzed Logical Plan ==
nombre: string, count: bigint
SubqueryAlias total
+- Aggregate [nombre#4], [nombre#4, count(1) AS count#11L]
+- LocalRelation [id#3, nombre#4, edad#5]
== Optimized Logical Plan ==
Aggregate [nombre#4], [nombre#4, count(1) AS count#11L]
+- LocalRelation [nombre#4]
== Physical Plan ==
*(2) HashAggregate(keys=[nombre#4], functions=[count(1)], output=[nombre#4, count#11L])
+- Exchange hashpartitioning(nombre#4, 200)
+- *(1) HashAggregate(keys=[nombre#4], functions=[partial_count(1)], output=[nombre#4, count#17L])
+- LocalTableScan [nombre#4]