Skip to main content

डेटा खनन में वर्गीकरण का उपयोग

Classification of Animal Kingdom (जंतु जगत का वर्गीकरण) Biology 5 || Basis of classification (जून 2026)

Classification of Animal Kingdom (जंतु जगत का वर्गीकरण) Biology 5 || Basis of classification (जून 2026)
Anonim

वर्गीकरण एक डेटा खनन तकनीक है जो अधिक सटीक भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा संग्रह के लिए श्रेणियां निर्दिष्ट करती है। इसे कभी-कभी कहा जाता है निर्णय वृक्ष , वर्गीकरण कई बड़े तरीकों में से एक है जिसका उद्देश्य बहुत बड़े डेटासेट का विश्लेषण प्रभावी है।

वर्गीकरण क्यों?

आज के दुनिया में बहुत बड़े डेटाबेस आदर्श बन रहे हैं बड़ा डाटा । डेटा के एकाधिक टेराबाइट वाले डेटाबेस की कल्पना करें - एक टेराबाइट एक है खरब डेटा के बाइट्स।

अकेले फेसबुक हर दिन 600 टेराबाइट नए डेटा को क्रंच करता है (2014 तक, आखिरी बार इन चश्मे की सूचना दी गई थी)। बड़े डेटा की प्राथमिक चुनौती यह है कि इसे कैसे समझें।

और सरासर मात्रा एकमात्र समस्या नहीं है: बड़ा डेटा भी विविध, असंगठित और तेज़ी से बदलता रहता है। ऑडियो और वीडियो डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा या भू-स्थानिक डेटा पर विचार करें। इस प्रकार का डेटा आसानी से वर्गीकृत या संगठित नहीं किया जाता है।

इस चुनौती को पूरा करने के लिए, उपयोगी जानकारी निकालने के लिए स्वचालित तरीकों की एक श्रृंखला विकसित की गई है वर्गीकरण .

वर्गीकरण कैसे काम करता है

तकनीकी बोलने में बहुत दूर जाने के खतरे में, चलिए चर्चा करते हैं कि वर्गीकरण कैसे काम करता है। लक्ष्य वर्गीकरण नियमों का एक सेट बनाना है जो एक प्रश्न का उत्तर देंगे, निर्णय लेंगे या व्यवहार की भविष्यवाणी करेंगे। शुरू करने के लिए, प्रशिक्षण डेटा का एक सेट विकसित किया गया है जिसमें विशेषताओं के एक निश्चित सेट के साथ-साथ संभावित परिणाम भी शामिल हैं।

वर्गीकरण एल्गोरिदम का काम यह पता लगाने के लिए है कि गुणों का सेट इसके निष्कर्ष तक कैसे पहुंचता है।

परिदृश्य: शायद एक क्रेडिट कार्ड कंपनी यह निर्धारित करने की कोशिश कर रही है कि कौन सी संभावनाएं क्रेडिट कार्ड ऑफर प्राप्त करनी चाहिए।

यह प्रशिक्षण डेटा का सेट हो सकता है:

प्रशिक्षण जानकारी
नामआयुलिंगवार्षिक आयक्रेडिट कार्ड प्रस्ताव
जॉन डो25एम$39,500नहीं
जेन डोए56एफ$125,000हाँ

"Predictor" कॉलम आयु , लिंग , तथा वार्षिक आय "predictor विशेषता" का मान निर्धारित करें क्रेडिट कार्ड प्रस्ताव । एक प्रशिक्षण सेट में, भविष्यवाणी विशेषता ज्ञात है। वर्गीकरण एल्गोरिदम तब यह निर्धारित करने का प्रयास करता है कि भविष्यवाणियों की विशेषता का मूल्य कैसे पहुंचा: भविष्यवाणियों और निर्णय के बीच क्या संबंध मौजूद हैं? यह पूर्वानुमान नियमों का एक सेट विकसित करेगा, आमतौर पर एक IF / THEN कथन, उदाहरण के लिए:

अगर (आयु> 18 या आयु <75) और वार्षिक आय> 40,000 फिर क्रेडिट कार्ड ऑफ़र = हाँ

जाहिर है, यह एक साधारण उदाहरण है, और एल्गोरिदम को यहां दिखाए गए दो रिकॉर्डों की तुलना में कहीं अधिक डेटा नमूनाकरण की आवश्यकता होगी। इसके अलावा, पूर्वानुमान विवरण कैप्चर करने के लिए उप-नियमों सहित पूर्वानुमान नियम अधिक जटिल होने की संभावना है।

इसके बाद, एल्गोरिदम को विश्लेषण के लिए डेटा का "पूर्वानुमान सेट" दिया जाता है, लेकिन इस सेट में भविष्यवाणी विशेषता (या निर्णय) की कमी है:

भविष्यवाणी डेटा
नामआयुलिंगवार्षिक आयक्रेडिट कार्ड प्रस्ताव
जैक फ्रॉस्ट42एम$88,000
मैरी मरे16एफ$0

यह भविष्यवाणक डेटा पूर्वानुमान नियमों की सटीकता का अनुमान लगाने में मदद करता है, और नियम तब तक tweaked किए जाते हैं जब तक कि डेवलपर भविष्यवाणियों को प्रभावी और उपयोगी मानता है।

वर्गीकरण के दिन के दिन के उदाहरण

वर्गीकरण, और अन्य डेटा खनन तकनीक, उपभोक्ताओं के रूप में हमारे दैनिक अनुभव के पीछे है।

मौसम की भविष्यवाणियां यह रिपोर्ट करने के लिए वर्गीकरण का उपयोग कर सकती हैं कि दिन बरसात, धूप या बादल छाएगा। मेडिकल पेशे चिकित्सा परिणामों की भविष्यवाणी करने के लिए स्वास्थ्य की स्थिति का विश्लेषण कर सकते हैं। एक प्रकार की वर्गीकरण विधि, बेवकूफ बेयसियन, स्पैम ईमेल को वर्गीकृत करने के लिए सशर्त संभावना का उपयोग करती है। धोखाधड़ी का पता लगाने से उत्पाद ऑफ़र तक, प्रतिदिन डेटा का विश्लेषण करने और भविष्यवाणियों का उत्पादन करने के दृश्यों के पीछे वर्गीकरण होता है।