डेटा खनन में वर्गीकरण का उपयोग

Classification of Animal Kingdom (जंतु जगत का वर्गीकरण) Biology 5 || Basis of classification (जून 2026)

:

वर्गीकरण क्यों?
वर्गीकरण कैसे काम करता है
वर्गीकरण के दिन के दिन के उदाहरण

वर्गीकरण एक डेटा खनन तकनीक है जो अधिक सटीक भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा संग्रह के लिए श्रेणियां निर्दिष्ट करती है। इसे कभी-कभी कहा जाता है निर्णय वृक्ष , वर्गीकरण कई बड़े तरीकों में से एक है जिसका उद्देश्य बहुत बड़े डेटासेट का विश्लेषण प्रभावी है।

वर्गीकरण क्यों?

आज के दुनिया में बहुत बड़े डेटाबेस आदर्श बन रहे हैं बड़ा डाटा । डेटा के एकाधिक टेराबाइट वाले डेटाबेस की कल्पना करें - एक टेराबाइट एक है खरब डेटा के बाइट्स।

अकेले फेसबुक हर दिन 600 टेराबाइट नए डेटा को क्रंच करता है (2014 तक, आखिरी बार इन चश्मे की सूचना दी गई थी)। बड़े डेटा की प्राथमिक चुनौती यह है कि इसे कैसे समझें।

और सरासर मात्रा एकमात्र समस्या नहीं है: बड़ा डेटा भी विविध, असंगठित और तेज़ी से बदलता रहता है। ऑडियो और वीडियो डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा या भू-स्थानिक डेटा पर विचार करें। इस प्रकार का डेटा आसानी से वर्गीकृत या संगठित नहीं किया जाता है।

इस चुनौती को पूरा करने के लिए, उपयोगी जानकारी निकालने के लिए स्वचालित तरीकों की एक श्रृंखला विकसित की गई है वर्गीकरण .

वर्गीकरण कैसे काम करता है

तकनीकी बोलने में बहुत दूर जाने के खतरे में, चलिए चर्चा करते हैं कि वर्गीकरण कैसे काम करता है। लक्ष्य वर्गीकरण नियमों का एक सेट बनाना है जो एक प्रश्न का उत्तर देंगे, निर्णय लेंगे या व्यवहार की भविष्यवाणी करेंगे। शुरू करने के लिए, प्रशिक्षण डेटा का एक सेट विकसित किया गया है जिसमें विशेषताओं के एक निश्चित सेट के साथ-साथ संभावित परिणाम भी शामिल हैं।

वर्गीकरण एल्गोरिदम का काम यह पता लगाने के लिए है कि गुणों का सेट इसके निष्कर्ष तक कैसे पहुंचता है।

परिदृश्य: शायद एक क्रेडिट कार्ड कंपनी यह निर्धारित करने की कोशिश कर रही है कि कौन सी संभावनाएं क्रेडिट कार्ड ऑफर प्राप्त करनी चाहिए।

यह प्रशिक्षण डेटा का सेट हो सकता है:

**प्रशिक्षण जानकारी**

नाम	आयु	लिंग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जॉन डो	25	एम	$39,500	नहीं
जेन डोए	56	एफ	$125,000	हाँ

"Predictor" कॉलम आयु , लिंग , तथा वार्षिक आय "predictor विशेषता" का मान निर्धारित करें क्रेडिट कार्ड प्रस्ताव । एक प्रशिक्षण सेट में, भविष्यवाणी विशेषता ज्ञात है। वर्गीकरण एल्गोरिदम तब यह निर्धारित करने का प्रयास करता है कि भविष्यवाणियों की विशेषता का मूल्य कैसे पहुंचा: भविष्यवाणियों और निर्णय के बीच क्या संबंध मौजूद हैं? यह पूर्वानुमान नियमों का एक सेट विकसित करेगा, आमतौर पर एक IF / THEN कथन, उदाहरण के लिए:

अगर (आयु> 18 या आयु <75) और वार्षिक आय> 40,000 फिर क्रेडिट कार्ड ऑफ़र = हाँ

जाहिर है, यह एक साधारण उदाहरण है, और एल्गोरिदम को यहां दिखाए गए दो रिकॉर्डों की तुलना में कहीं अधिक डेटा नमूनाकरण की आवश्यकता होगी। इसके अलावा, पूर्वानुमान विवरण कैप्चर करने के लिए उप-नियमों सहित पूर्वानुमान नियम अधिक जटिल होने की संभावना है।

इसके बाद, एल्गोरिदम को विश्लेषण के लिए डेटा का "पूर्वानुमान सेट" दिया जाता है, लेकिन इस सेट में भविष्यवाणी विशेषता (या निर्णय) की कमी है:

**भविष्यवाणी डेटा**

नाम	आयु	लिंग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जैक फ्रॉस्ट	42	एम	$88,000
मैरी मरे	16	एफ	$0

यह भविष्यवाणक डेटा पूर्वानुमान नियमों की सटीकता का अनुमान लगाने में मदद करता है, और नियम तब तक tweaked किए जाते हैं जब तक कि डेवलपर भविष्यवाणियों को प्रभावी और उपयोगी मानता है।

वर्गीकरण के दिन के दिन के उदाहरण

वर्गीकरण, और अन्य डेटा खनन तकनीक, उपभोक्ताओं के रूप में हमारे दैनिक अनुभव के पीछे है।

मौसम की भविष्यवाणियां यह रिपोर्ट करने के लिए वर्गीकरण का उपयोग कर सकती हैं कि दिन बरसात, धूप या बादल छाएगा। मेडिकल पेशे चिकित्सा परिणामों की भविष्यवाणी करने के लिए स्वास्थ्य की स्थिति का विश्लेषण कर सकते हैं। एक प्रकार की वर्गीकरण विधि, बेवकूफ बेयसियन, स्पैम ईमेल को वर्गीकृत करने के लिए सशर्त संभावना का उपयोग करती है। धोखाधड़ी का पता लगाने से उत्पाद ऑफ़र तक, प्रतिदिन डेटा का विश्लेषण करने और भविष्यवाणियों का उत्पादन करने के दृश्यों के पीछे वर्गीकरण होता है।