Machine Learning या Data Mining मे जब हमे माडल को Develop करना होता है तो हमे उसके लिये Data कि जरुरत होती है। फिर इस Data set को मुख्य रुप से तीन कामो के लिये उपयोग किया जाता है।
  1. Training Data set
  2. Validation Data set
  3. Testing Data set
आमतौर पर, जब किसी डेटा सेट को Training सेट और Testing सेट में अलग करते हैं, तो उसमे से अधिकतर डेटा का उपयोग Training के लिए किया जाता है, और उस डेटा का एक छोटा हिस्सा Testing के लिए उपयोग किया जाता है।
Training and Testing Data

जब माडल को Training Data कि मदद से Train कर लिया जाता है तो फिर उसे Testing Data कि मदद से Test किया जाता है। ओर जब हम माडल को कुछ नया Input देते है तो वह जो Result, Predict करता है तो इससे हमे यह निर्धारित करना आसान होता है कि क्या मॉडल का अनुमान सही है। क्योंकि Training सेट में मौजूद डेटा में उसके लिए पहले से ही Values शामिल हैं जिनके लिये आप भविष्यवाणी करना चाहते हैं

जब किसी एक डेटा सेट को Training ओर Testing डेटासेट मे विभाजित किया जाता है तो इसके लिये दो चीजो का ध्यान रखना होता है कि
Data Set इतना बडा होना चाहिये कि जिससे सही Results मिल सके।
दोनो Dataset (Training & Testing) एक Complete Dataset को represent करना चाहिये मतलब Testing डेटा के characteristics; Training Dataset से अलग नही होना चाहिये।