Untuk Setup sebuah Apache Spark Cluster , kita perlu mengetahui dua hal : Setup master node. Siapkan simpul pekerja. Jalankan langkah-langkah berikut pada semua node, yang Anda inginkan sebagai node pekerja.
- Arahkan ke Direktori Konfigurasi Spark .
- Edit file spark -env.sh – Atur SPARK_MASTER_HOST.
- Mulai percikan sebagai budak.
Lalu, bagaimana cara menambahkan percikan ke klaster benang?
Untuk menginstal Spark pada YARN (Hadoop 2), jalankan perintah berikut sebagai root atau menggunakan sudo:
- Verifikasi bahwa JDK 1.7 atau yang lebih baru diinstal pada node tempat Anda ingin menginstal Spark.
- Buat direktori /apps/spark pada sistem file MapR, dan atur izin yang benar pada direktori:
- Instal paket:
Selain di atas, bagaimana Anda memulai percikan? Jalankan Spark dari Spark Shell
- Arahkan ke direktori instalasi Spark-on-YARN, dan masukkan versi Spark Anda ke dalam perintah. cd /opt/mapr/spark/spark-<versi>/
- Keluarkan perintah berikut untuk menjalankan Spark dari Spark shell: Pada Spark 2.0.1 dan yang lebih baru: ./bin/spark-shell –master yarn –deploy-mode client.
Selain itu, bagaimana cara kerja spark cluster?
Apache Spark adalah open source, mesin komputasi terdistribusi tujuan umum yang digunakan untuk memproses dan menganalisis sejumlah besar data. Sama seperti Hadoop MapReduce, ia juga bekerja dengan sistem untuk mendistribusikan data ke seluruh cluster dan memproses data secara paralel. Setiap pelaksana adalah proses java yang terpisah.
Bagaimana Anda bisa menjalankan spark shell menggunakan spark cluster?
Untuk menjalankan aplikasi di Spark cluster , cukup berikan spark ://IP:PORT URL master ke konstruktor SparkContext. Anda juga dapat memberikan opsi –total-executor-cores <numCores> untuk mengontrol jumlah inti yang digunakan spark – shell di cluster .