सभी तरह के Data Sets ओर Resources मे किसी न किसी प्रकार कि Error या गलत डाटा होता है जिसे हटाया जाना जरुरी है तो इसी के लिये Data Cleaning की जाती है। तो Data Cleaning एक प्रोसेस है जिसके जरिये Data कि सफाई की जाती है।

Data Science मे Data Cleaning एक प्रोसेस है जिसमे Records Sets, Tables, या Databases मे से Corrupt ओर Inaccurate Data को ढुंढ्ना, उसे बदलना या हटाने का काम जाता है।

तो Data Cleaning कि प्रोसेस मे मुख्य रुप से तीन काम होते है
1. Identification : Data के अंदर Error या Inaccurate चिजो को ढुंढ्ना
2. Validation : जिन error डाटा को ढुंढा गया है उनकी पुष्टी करना
3. Imputation : उन डाटा को Replace या Remove करना।

Data Cleaning कि Process एक Cycle के रुप मे काम करती है जिसमे कई Steps को Follow किया जाता है।


1. Import Data
2. Merge Data
3. Rebuilding missing data
4. Standardization
5. Normalization
6. De-duplication
7. Verification & Enrichment
8. Export Data

मुझे लगता है कि आप को इन नामो से पुरी प्रोसेस समझ आ गयी होगी लेकिन अगर आप इन सभी steps के बारे मे ओर जानना चाहते है तो बस आप हमे एक Comment किजिये।