विषयसूची:

डेटा विश्लेषण में आउटलेयर क्या हैं?
डेटा विश्लेषण में आउटलेयर क्या हैं?

वीडियो: डेटा विश्लेषण में आउटलेयर क्या हैं?

वीडियो: डेटा विश्लेषण में आउटलेयर क्या हैं?
वीडियो: Data Analysis and Visualization with Python - Outlier, IQR, Box Plot 2024, नवंबर
Anonim

आंकड़ों में, एक ग़ैर एक है आंकड़े बिंदु जो अन्य अवलोकनों से काफी भिन्न है। एक ग़ैर माप में परिवर्तनशीलता के कारण हो सकता है या यह प्रयोगात्मक त्रुटि का संकेत दे सकता है; बाद वाले को कभी-कभी इससे बाहर रखा जाता है आंकड़े सेट। एक ग़ैर में गंभीर समस्या पैदा कर सकता है सांख्यिकीय आंकड़े.

इसे ध्यान में रखते हुए, आप डेटा में आउटलेयर कैसे ढूंढते हैं?

एक बिंदु जो के बाहर पड़ता है आंकड़े सेट की आंतरिकता को नाबालिग के रूप में वर्गीकृत किया गया है ग़ैर , जबकि बाहरी बाड़ के बाहर गिरने वाले को एक प्रमुख के रूप में वर्गीकृत किया जाता है ग़ैर . अपने लिए आंतरिक बाड़ खोजने के लिए आंकड़े पहले सेट करें, इंटरक्वेर्टाइल रेंज को 1.5 से गुणा करें। फिर, परिणाम को Q3 में जोड़ें और Q1 से घटाएं।

उपरोक्त के अलावा, क्या मुझे अपने डेटा से आउटलेर्स को हटाना चाहिए? के लिये NS अधिकांश भाग, यदि आपका डेटा इन चरम मामलों से प्रभावित है, आप कर सकते हैं बाध्य NS के एक ऐतिहासिक प्रतिनिधि को इनपुट आपका डेटा इसमें शामिल नहीं है बाहरी कारकों के कारण . मामला-दर-मामला आधार पर निर्धारित करें कि क्या NS का प्रभाव बाहरी लोग था। और वहां से तय करें कि क्या आप करना चाहते हैं हटाना , बदलें, या रखें बाहरी मूल्य।

इस संबंध में, डेटा विश्लेषण आउटलेर्स से कैसे निपटता है?

यहाँ चार दृष्टिकोण हैं:

  1. बाहरी रिकॉर्ड ड्रॉप करें। बिल गेट्स के मामले में, या किसी अन्य सच में, कभी-कभी उस रिकॉर्ड को अपने डेटासेट से पूरी तरह से हटा देना सबसे अच्छा होता है ताकि उस व्यक्ति या घटना को आपके विश्लेषण को तिरछा करने से रोका जा सके।
  2. अपने आउटलेर्स डेटा को कैप करें।
  3. एक नया मान असाइन करें।
  4. एक परिवर्तन का प्रयास करें।

एक बाहरी का उदाहरण क्या है?

ग़ैर . अधिक एक मान जो "बाहर स्थित है" (इससे बहुत छोटा या बड़ा) डेटा के एक सेट में अधिकांश अन्य मान। के लिये उदाहरण अंकों में 25, 29, 3, 32, 85, 33, 27, 28 दोनों3 और 85 हैं" बाहरी कारकों के कारण ".

सिफारिश की: