विषयसूची:

पायस्पार्क इकट्ठा क्या है?
पायस्पार्क इकट्ठा क्या है?

वीडियो: पायस्पार्क इकट्ठा क्या है?

वीडियो: पायस्पार्क इकट्ठा क्या है?
वीडियो: Large-Scale Recommendation System with Python and Spark 2024, मई
Anonim

कलेक्ट (कार्रवाई) - डेटासेट के सभी तत्वों को ड्राइवर प्रोग्राम में एक सरणी के रूप में लौटाएं। यह आमतौर पर फ़िल्टर या अन्य ऑपरेशन के बाद उपयोगी होता है जो डेटा का पर्याप्त रूप से छोटा सबसेट देता है।

ऐसे में PySpark क्या है?

पायस्पार्क प्रोग्रामिंग। पायस्पार्क अपाचे स्पार्क और पायथन का सहयोग है। अपाचे स्पार्क एक ओपन-सोर्स क्लस्टर-कंप्यूटिंग फ्रेमवर्क है, जो गति, उपयोग में आसानी और स्ट्रीमिंग एनालिटिक्स के आसपास बनाया गया है, जबकि पायथन एक सामान्य-उद्देश्य, उच्च-स्तरीय प्रोग्रामिंग भाषा है।

इसके अलावा, PySpark में नक्शा क्या है? स्पार्क नक्शा परिवर्तन। ए नक्शा अपाचे स्पार्क में एक परिवर्तन ऑपरेशन है। यह RDD के प्रत्येक तत्व पर लागू होता है और यह परिणाम को नए RDD के रूप में लौटाता है। नक्शा लंबाई N के RDD को लंबाई N के दूसरे RDD में बदल देता है। इनपुट और आउटपुट RDD में आमतौर पर रिकॉर्ड की संख्या समान होगी।

इस तरह, PySpark में SparkContext क्या है?

पायस्पार्क - स्पार्क कॉन्टेक्स्ट . विज्ञापन। स्पार्क कॉन्टेक्स्ट किसी के लिए प्रवेश बिंदु है स्पार्क कार्यक्षमता। जब हम कोई चलाते हैं स्पार्क एप्लिकेशन, एक ड्राइवर प्रोग्राम शुरू होता है, जिसमें मुख्य कार्य होता है और आपका स्पार्क कॉन्टेक्स्ट यहां पहल की जाती है। ड्राइवर प्रोग्राम तब एक्ज़ीक्यूटर्स के अंदर वर्कर नोड्स पर ऑपरेशन चलाता है।

मैं PySpark संस्करण की जांच कैसे करूं?

2 उत्तर

  1. स्पार्क शेल टर्मिनल खोलें और कमांड दर्ज करें।
  2. sc.version या चिंगारी-सबमिट --version.
  3. कमांड लाइन में "स्पार्क-शेल" लॉन्च करने का सबसे आसान तरीका है। यह प्रदर्शित करेगा.
  4. स्पार्क का वर्तमान सक्रिय संस्करण।

सिफारिश की: