अपग्रेड एचडोप का उपयोग भविष्यवाणी विश्लेषिकी के लिए कैसे करें

भविष्यवाणियों के लिए अपाचे Hadoop का उपयोग कैसे करें - डमीज

अपाचे Hadoop एक फ्री, ओपन सोर्स सॉफ्टवेयर प्लेटफार्म है जो प्रोग्रामिंग और चलने वाले अनुप्रयोग हैं जो अनुमानित विश्लेषिकी के लिए बड़ी मात्रा में डेटा की प्रक्रिया करते हैं। यह विभिन्न स्रोतों से उत्पन्न बड़े डेटासेट के वितरित समानांतर प्रसंस्करण को सक्षम करता है। मूल रूप से, यह बड़े डेटा को संचय करने और प्रसंस्करण के लिए एक शक्तिशाली उपकरण है।

हडोप विभिन्न स्रोतों से किसी भी प्रकार के डेटा, संरचित या असंरचित रूप से भंडारित करता है - और उसके बाद डेटा को लगभग किसी भी तरह से आप चाहते हैं। Hadoop वितरित समानांतर प्रसंस्करण का उपयोग करके विषम डेटा को संभालता है - जो इसे बड़े डेटा से संबंधित विश्लेषणात्मक सॉफ़्टवेयर में उपयोग करने के लिए एक बहुत ही कुशल ढांचा बनाता है। इसमें कोई आश्चर्य नहीं है कि कुछ बड़ी कंपनियां फेसबुक, याहू सहित हडोप अपन कर रही हैं! , Google, आईबीएम, ट्विटर, और लिंक्डइन।

हडोप से पहले, कंपनियां बड़े डेटा का लाभ उठाने में असमर्थ थीं, जिनका विश्लेषण नहीं किया गया और लगभग बेकार था। मालिकाना संबंधपरक डेटाबेस में उस डेटा को संग्रहित करने के लिए लागत और इसके चारों ओर एक संरचित प्रारूप बनाने के लिए उस डेटा का विश्लेषण करने और उसका उपयोग करने के लाभों का औचित्य नहीं किया गया।

दूसरी तरफ, हडोप, यह काम निर्बाध बना रहा है - लागत के एक अंश पर - कंपनियों को जो प्रचुर मात्रा में डेटा प्राप्त कर लिया गया है और वे जमा कर रहे हैं उनमें मूल्यवान अंतर्दृष्टि प्राप्त करने की इजाजत देता है।

हडोप की शक्ति विभिन्न प्रकारों से निपटने में निहित है - वास्तव में, किसी प्रकार के डेटा: पाठ, भाषण, ईमेल, फोटो, पोस्ट, ट्वीट्स, आप इसका नाम देते हैं। Hadoop इस डेटा को अपने सभी किस्मों में एकत्रित करने का ध्यान रखता है, और आपको अपनी सुविधा के सभी डेटा को क्वेरी करने की क्षमता प्रदान करता है।

इससे पहले कि आप अपना डेटा समझ सकें, आपको एक स्कीमा बनाने की ज़रूरत नहीं है; हडोप आपको उस डेटा को अपने मूल स्वरूप में पूछताछ करने की अनुमति देता है।

विविध डेटा की बड़ी मात्रा में निपटने के अलावा, हडोप गलती-सहिष्णु है, जो सरल कार्यक्रमों का उपयोग करता है जो कई मशीनों पर वितरित प्रसंस्करण के शेड्यूलिंग को संभालता है। ये प्रोग्राम हार्डवेयर विफलता का पता लगा सकते हैं और कार्य को दूसरी चलने वाली मशीन पर ले जा सकते हैं। यह व्यवस्था हार्डवेयर की विफलता की परवाह किए बिना उच्च उपलब्धता देने के लिए हडोप को सक्षम बनाता है।

हडोप अपना काम करने के लिए दो मुख्य घटकों (सब प्रोजेक्ट्स) का उपयोग करता है: मैपराडुस और हडोप वितरित फाइल सिस्टम। दोनों घटक सहकारी कार्य करते हैं:

  • MapReduce : MapReduce के Hadoop के कार्यान्वयन कार्य के छोटे ब्लॉकों में विभाजित करके बड़े डेटासेट को संसाधित करने के लिए प्रोग्रामिंग मॉडल पर Google के शोध पर आधारित है। मानचित्ररडस बड़े डेटासेट को संसाधित करने के लिए क्लस्टर में कंप्यूटरों के समूह पर वितरित एल्गोरिदम का उपयोग करता है।इसमें दो फ़ंक्शन होते हैं:

    • मानचित्र () फ़ंक्शन जो मास्टर नोड (नेटवर्क वाला कंप्यूटर) पर रहता है। यह इनपुट क्वेरी या कार्य को छोटे उप-टास्क में विभाजित करता है, जो इसे तब कार्यकर्ता नोड्स के लिए वितरित करता है जो छोटे कार्यों की प्रक्रिया करता है और जवाब वापस मास्टर नोड में देता है। उपकार्य कई कंप्यूटरों पर समानांतर में चलाए जा रहे हैं।

    • कम करें () फ़ंक्शन सभी उप-टेक्स के परिणाम एकत्रित करता है और उन्हें एकत्रित अंतिम परिणाम तैयार करने के लिए जोड़ता है - जो इसे मूल बड़ी क्वेरी के उत्तर के रूप में देता है। हडोप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफएस)

  • : एचडीएफएस आपके डेटा सेंटर (विश्वसनीयता सुनिश्चित करने के लिए) में अन्य कंप्यूटरों पर मौजूद डेटा ब्लॉक का प्रतिकृति करता है और आपके वितरित सिस्टम के विभिन्न भागों में डेटा के हस्तांतरण को प्रबंधित करता है। दो अरब लोगों के एक डेटाबेस पर विचार करें, और मान लें कि आप श्री एक्स के सामाजिक मित्रों की संख्या की गणना करना चाहते हैं और उनके भौगोलिक स्थानों के अनुसार उन्हें व्यवस्थित करना चाहते हैं। यह एक लंबा आदेश है

दो अरब लोगों का डेटा व्यापक रूप से अलग-अलग स्रोतों जैसे सोशल नेटवर्क, ई-मेल संपर्क पता सूचियों, पोस्ट, ट्वीट्स, ब्राउज़िंग इतिहास में उत्पन्न हो सकता है - और यह सिर्फ ओपनर्स के लिए है Hadoop इस विशाल, विविध जन डेटा को जोड़ सकता है ताकि आप इसे एक साधारण क्वेरी के साथ जांच कर सकें।

आप इस क्वेरी को हल करने के लिए प्रोग्रामिंग क्षमताओं को मानचित्रित करना चाहते हैं। मैप को परिभाषित करना और प्रक्रियाओं को कम करना भी इस बड़े डेटासेट का प्रबंध करता है। टूल जो हडोप फ्रेमवर्क ऑफर करता है, आप एक MapReduce कार्यान्वयन बना सकते हैं जो गणना को दो उप-टास्क के रूप में करेंगे:

श्री एक्स के सामाजिक मित्रों की औसत संख्या की गणना करें।

  • भौगोलिक स्थिति से श्री एक्स के दोस्तों को व्यवस्थित करें ।

  • आपका नक्शा सुधार कार्यान्वयन कार्यक्रम समानांतर में इन सबटास्क को चलाएगा, सबटास्क के बीच संचार का प्रबंधन करेगा, और परिणामों को इकट्ठा करेगा दो अरब लोगों में, आप जान लेंगे कि श्री एक्स के ऑनलाइन दोस्त कौन हैं

हडोप मैप प्रोसेसर की एक सीमा प्रदान करता है; जो आप चुनते हैं वह आपके बुनियादी ढांचे पर निर्भर करेगा।

आपके प्रत्येक प्रोसेसर एक निश्चित संख्या के रिकॉर्ड को संभाल लेंगे। मान लीजिए कि प्रत्येक प्रोसेसर एक लाख डेटा रिकॉर्ड को संभाला है। प्रत्येक प्रोसेसर एक नक्शा प्रक्रिया को निष्पादित करता है जो कुंजी-मान जोड़े के कई रिकॉर्ड तैयार करता है, जहां

जी (कुंजी) भौगोलिक स्थान एक व्यक्ति (देश) और N (मान) की संख्या है व्यक्ति के संपर्क में है मान लें कि प्रत्येक मैप प्रोसेसर फॉर्म के कई जोड़े उत्पन्न करता है, जैसे निम्न:

प्रोसेसर मानचित्र # 1:

प्रोसेसर मानचित्र # 2:

प्रोसेसर मानचित्र # 3:

प्रोसेसर मानचित्र # 4 :

प्रोसेसर नक्शा # 5:

प्रोसेसर मानचित्र # 6:

कम चरण में, हडोप एक निश्चित संख्या में प्रोसेसर को कार्य सौंपता है: कम करने की प्रक्रिया निष्पादित करें जो कि उत्पादन के लिए एक ही कुंजी के मानों को जोड़ती है एक अंतिम परिणाम इस उदाहरण के लिए कम करें क्रियान्वयन प्रत्येक कुंजी के लिए मूल्यों की गिनती - भौगोलिक स्थिति इसलिए, मानचित्र चरण के बाद, कम करें चरण निम्न पैदा करता है:

----------

 स्पष्ट रूप से, मिस्टर।एक्स एक लोकप्रिय आदमी है - लेकिन यह एक बहुत सरल उदाहरण था कि कैसे MapReduce उपयोग किया जा सकता है कल्पना कीजिए कि आप बड़े डेटासेट के साथ काम कर रहे हैं जहां आप जटिल परिचालन करना चाहते हैं जैसे कि अरबों दस्तावेजों को क्लस्टर करना जहां ऑपरेशन और डेटा एक ही मशीन को संभालने के लिए बहुत बड़ा है। Hadoop विचार करने के लिए उपकरण है