• Real-world Python workloads on Spark: Standalone clusters

    Real-world Python workloads on Spark: Standalone clusters

    প্রবণতা এআই নিবন্ধ:

    নমুনা পাইথন অ্যাপ্লিকেশন

    project.py 
    data / 
        data_source.py 
        data_source.ini
    [spark]
    app_name = My PySpark App
    master_url = spark://sparkmaster:707
    from pyspark import SparkConf, SparkContext
    from pyspark.sql import SparkSession
    from pyspark.sql.types import StructType, StructField, FloatTypeimport pandas as pd
    import numpy as np
    import configparser
    ক্লাস ডেটাসোর্স: 
        def __init __ (স্ব):         config = configparser.conffigParser () 
            config.read ('./ data / data_source.ini') 
            master_url = config ['spark'] ['master_url'] 
            app_name = config ['spark' ] ['app_name']         conf = SparkConf ()। setAppName (app_name) \ 
                              .setmaster (master_url)         self.sc = স্পার্ককন্টেস্ট (conf = conf) 
            self.spark = SparkSession.builder \ 
                                     .config (conf = conf) \ 
                                     .getOrCreate ()
    class DataSource:
        def __init__(self):        config = configparser.ConfigParser()
            config.read('./data/data_source.ini')
            master_url = config['spark']['master_url']
            app_name = config['spark']['app_name']        conf = SparkConf().setAppName(app_name) \
                              .setMaster(master_url)        self.sc = SparkContext(conf=conf)
            self.spark = SparkSession.builder \
                                     .config(conf=conf) \
                                     .getOrCreate()
    data.data_source থেকে ডেটাসোর্স ডিফ মুখ্য (): 
        src = 
        ডেটাসোর্স () df = src.get_data (num_elements = 100000) 
        মুদ্রণ করুন (f "{df.size} উপাদানের সাথে পান্ডাস ডেটাফ্রেম পেয়েছেন") 
        মুদ্রণ করুন (df.head (10) ) প্রধান ()

    স্পার্ক জমা, ক্লায়েন্ট এবং ক্লাস্টার মোড


    # 1: স্পার্কে সরাসরি সংযোগ করুন (ক্লায়েন্ট মোড, কোন স্পার্ক জমা দিন)

    স্পার্ক স্ট্যান্ডলোন বিরুদ্ধে ক্লায়েন্ট মোডে পাইথন অ্যাপ্লিকেশন
    conf = SparkConf ()। setAppName ("আমার পাইস্পার্ক অ্যাপ") \ 
                      .setMaster ("spark: //192.168.1.10: 7077") sc = SparkContext (conf = conf) spark = SparkSession.builder \ 
                        .config (conf = conf ) \ 
                        .getOrCreate ()
    sudo yum install python36 পিপ ইনস্টল pyspark [sql]pip install pyspark==2.3.1 
    pip install numpy pandas msgpack sklearn
    pip install --no-cache-dir pyspark==2.3.1
    $ পিপ শো পিস্পার্ক নাম: পিস্পার্ক 
    সংস্করণ: 2.3.1 
    সারসংক্ষেপ: অ্যাপাচি স্পার্ক পাইথন API 
    হোম পৃষ্ঠা: https://github.com/apache/spark/tree/master/python
     লেখক: স্পার্ক ডেভেলপারদের 
    লেখক-ইমেল: dev @ spark .apache.org
     লাইসেন্স: http://www.apache.org/licenses/LICENSE-2.0
     অবস্থান: /opt/anaconda/lib/python3.6/site-packages
     প্রয়োজনীয়: py4j $ export SPARK_HOME = / opt / anaconda / lib /python3.6/site-packages

    এটা চলমান

    $ cd my-project-dir / 
    $ python3 project.py
    স্লেভ নোড উপর Python প্রসেস

    # 2: কনটেইনারাইজড অ্যাপ্লিকেশন (ক্লায়েন্ট মোড, কোন স্পার্ক জমা দিন)

    স্পার্ক স্ট্যান্ডলোন বিরুদ্ধে ক্লায়েন্ট মোডে কনটেইনারাইজড পাইথন অ্যাপ্লিকেশন
    spark.driver.host : host_ip_address (e.g. 192.168.1.10)
    spark.driver.port : static_port (e.g. 51400)
    spark.driver.bindAddress : container_internal_ip (e.g. 10.192.6.81)
    spark.driver.blockManagerPort : static_port (e.g. 51500)

    এটা চলমান

    ডকার রান-পি 51400: 51400-পি 51500: 51500 

    # 3: স্পার্ক-জমা (ক্লায়েন্ট মোড) এর মাধ্যমে পাইথন অ্যাপ্লিকেশন

    $ cd my-project-dir / 
    $ ls -l rwxrwxr-x। 3 সেন্ট শত শত 70 ফেব্রুয়ারী ২5 02:11 তথ্য 
    -আরডব্লু-রউ-র--। 1 সেন্টস সেন্ট্রো 220 ফেব্রুয়ারী 25 01:09 project.py $ spark-submit project.py
    $ spark-submit --master spark: // sparkcas1: 7077 --deploy-mode ক্লায়েন্ট project.py
    $ spark-submit --master spark: // sparkcas1: 7077 --deploy-mode cluster project.py ত্রুটি: ক্লাস্টার স্থাপনের মোড বর্তমানে স্ট্যান্ডলোন ক্লাস্টারগুলিতে পাইথন অ্যাপ্লিকেশনগুলির জন্য সমর্থিত নয়।

    Takeaways- স্পার্ক একক ক্লাস্টার উপর পাইথন:










  • 0 comments:

    Post a Comment

    New Research

    Attention Mechanism Based Multi Feature Fusion Forest for Hyperspectral Image Classification.

    CBS-GAN: A Band Selection Based Generative Adversarial Net for Hyperspectral Sample Generation.

    Multi-feature Fusion based Deep Forest for Hyperspectral Image Classification.

    ADDRESS

    388 Lumo Rd, Hongshan, Wuhan, Hubei, China

    EMAIL

    contact-m.zamanb@yahoo.com
    mostofa.zaman@cug.edu.cn

    TELEPHONE

    #
    #

    MOBILE

    +8615527370302,
    +8807171546477