विषयसूची:

मैं एक सूची से एक PySpark DataFrame कैसे बना सकता हूं?
मैं एक सूची से एक PySpark DataFrame कैसे बना सकता हूं?

वीडियो: मैं एक सूची से एक PySpark DataFrame कैसे बना सकता हूं?

वीडियो: मैं एक सूची से एक PySpark DataFrame कैसे बना सकता हूं?
वीडियो: पायस्पार्क ट्यूटोरियल 5: पायस्पार्क डेटाफ़्रेम बनाएं | पायथन के साथ पायस्पार्क 2024, नवंबर
Anonim

मैं टुपल्स की सूची से डेटाफ़्रेम बनाने के लिए इन चरणों का पालन कर रहा हूँ:

  1. बनाएं ए सूची टुपल्स की। प्रत्येक टपल में उम्र के साथ एक व्यक्ति का नाम होता है।
  2. बनाएं से एक RDD सूची ऊपर।
  3. धर्मांतरित प्रत्येक टपल एक पंक्ति में।
  4. बनाएं ए डेटा ढांचा sqlContext की मदद से RDD पर createDataFrame लागू करके।

इसे ध्यान में रखते हुए, आप डेटाफ्रेम को पायथन में एक सूची में कैसे परिवर्तित करते हैं?

  1. चरण 1: DataFrame.to_numpy() का उपयोग करके डेटाफ़्रेम को नेस्टेड Numpy सरणी में बदलें, अर्थात,
  2. चरण 2: 2D Numpy सरणी को सूचियों की सूची में बदलें।
  3. चरण 1: पंक्तियों के रूप में पंक्तियों और स्तंभों को पंक्तियों के रूप में परिवर्तित करने के लिए डेटाफ़्रेम को स्थानांतरित करें।
  4. चरण 2: DataFrame.to_numpy() का उपयोग करके डेटाफ़्रेम को नेस्टेड Numpy सरणी में बदलें

इसके अतिरिक्त, स्पार्क डेटाफ़्रेम क्या है? ए स्पार्क डेटाफ़्रेम नामित स्तंभों में व्यवस्थित डेटा का एक वितरित संग्रह है जो फ़िल्टर, समूह या गणना समुच्चय को संचालन प्रदान करता है, और इसके साथ उपयोग किया जा सकता है स्पार्क एसक्यूएल। डेटाफ़्रेम संरचित डेटा फ़ाइलों, मौजूदा आरडीडी, हाइव में टेबल या बाहरी डेटाबेस से बनाया जा सकता है।

यह भी जानिए, PySpark SQL क्या है?

स्पार्क एसक्यूएल एक है स्पार्क संरचित डेटा प्रोसेसिंग के लिए मॉड्यूल। यह डेटाफ़्रेम नामक एक प्रोग्रामिंग अमूर्तता प्रदान करता है और वितरित के रूप में भी कार्य कर सकता है एसक्यूएल क्वेरी इंजन। यह अनमॉडिफाइड Hadoop Hive क्वेश्चन को मौजूदा डिप्लॉयमेंट और डेटा पर 100x तेजी से चलाने में सक्षम बनाता है।

क्या स्पार्क डेटाफ़्रेम अपरिवर्तनीय हैं?

में स्पार्क आप नहीं कर सकते - डेटाफ़्रेम हैं अडिग . आपको उपयोग करना चाहिए ।

सिफारिश की: