Hadoop में छोटी फ़ाइलों में क्या समस्या है?
Hadoop में छोटी फ़ाइलों में क्या समस्या है?

वीडियो: Hadoop में छोटी फ़ाइलों में क्या समस्या है?

वीडियो: Hadoop में छोटी फ़ाइलों में क्या समस्या है?
वीडियो: Solution for Small File Issue | Hadoop Interview questions 2024, नवंबर
Anonim

1) छोटी फ़ाइल समस्या में एचडीएफएस : बहुत सारे का भंडारण छोटी फाइलें जो बेहद छोटे ब्लॉक आकार की तुलना में कुशलतापूर्वक नियंत्रित नहीं किया जा सकता है एचडीएफएस . के माध्यम से पढ़ना छोटी फाइलें डेटा नोड से डेटा नोड के बीच बहुत सी तलाशें और बहुत सारे होपिंग शामिल हैं, जो बदले में अक्षम डेटा प्रोसेसिंग है।

इसके अलावा, हडूप में कौन सी फाइलें छोटी फाइल समस्याओं से निपटती हैं?

1) हर ( हडूप संग्रह) फ़ाइलें से पेश किया गया है छोटी फ़ाइल समस्या से निपटें . HAR ने के ऊपर एक परत पेश की है एचडीएफएस , जो इंटरफ़ेस प्रदान करते हैं फ़ाइल पहुँचना का उपयोग करते हुए हडूप आर्काइव कमांड, HAR फ़ाइलें बनाए जाते हैं, जो चलता है a मानचित्र छोटा करना पैक करने के लिए नौकरी फ़ाइलें में संग्रहीत किया जा रहा है छोटे की संख्या एचडीएफएस फाइलें.

इसके अलावा, क्या मेरे पास एचडीएफएस में कई फाइलें विभिन्न ब्लॉक आकारों का उपयोग कर सकती हैं? चूक जाना आकार का खंड मैथा 64 एमबी है। आप कर सकते हैं अपनी आवश्यकता के आधार पर इसे बदलें। आपके प्रश्न पर आ रहा है हाँ आप कई फाइलें बना सकते हैं अलग-अलग करके ब्लॉक आकार लेकिन रीयल-टाइम में यह मर्जी उत्पादन के पक्ष में नहीं है।

इसके अलावा, एचडीएफएस छोटी फाइलों को बेहतर तरीके से क्यों नहीं संभालता है?

के साथ समस्याएं छोटी फाइलें तथा एचडीएफएस प्रत्येक फ़ाइल , निर्देशिका और ब्लॉक में एचडीएफएस है नामेनोड की स्मृति में एक वस्तु के रूप में प्रतिनिधित्व किया जाता है, जिनमें से प्रत्येक अंगूठे के नियम के रूप में 150 बाइट्स पर कब्जा कर लेता है। इसके अलावा, एचडीएफएस नहीं है कुशलता से पहुँचने के लिए तैयार छोटी फाइलें : यह है मुख्य रूप से बड़े. की स्ट्रीमिंग एक्सेस के लिए डिज़ाइन किया गया फ़ाइलें.

हडोप धीमा क्यों है?

धीरे प्रसंस्करण गति इस डिस्क की तलाश में समय लगता है जिससे पूरी प्रक्रिया बहुत हो जाती है धीरे . अगर हडूप छोटी मात्रा में डेटा को संसाधित करता है, यह बहुत है धीरे तुलनात्मक रूप से। यह बड़े डेटा सेट के लिए आदर्श है। जैसा हडूप कोर में बैच प्रोसेसिंग इंजन है, रीयल-टाइम प्रोसेसिंग के लिए इसकी गति कम है।

सिफारिश की: