सभी तरह के Data Sets ओर Resources मे किसी न किसी प्रकार कि Error या गलत डाटा होता है जिसे हटाया जाना जरुरी है तो इसी के लिये Data Cleaning की जाती है। तो Data Cleaning एक प्रोसेस है जिसके जरिये Data कि सफाई की जाती है।
Data Science मे Data Cleaning एक प्रोसेस है जिसमे Records Sets, Tables, या Databases मे से Corrupt ओर Inaccurate Data को ढुंढ्ना, उसे बदलना या हटाने का काम जाता है।
तो Data Cleaning कि प्रोसेस मे मुख्य रुप से तीन काम होते है
1. Identification : Data के अंदर Error या Inaccurate चिजो को ढुंढ्ना
2. Validation : जिन error डाटा को ढुंढा गया है उनकी पुष्टी करना
3. Imputation : उन डाटा को Replace या Remove करना।
Data Cleaning कि Process एक Cycle के रुप मे काम करती है जिसमे कई Steps को Follow किया जाता है।
1. Import Data
2. Merge Data
3. Rebuilding missing data
4. Standardization
5. Normalization
6. De-duplication
7. Verification & Enrichment
8. Export Data
मुझे लगता है कि आप को इन नामो से पुरी प्रोसेस समझ आ गयी होगी लेकिन अगर आप इन सभी steps के बारे मे ओर जानना चाहते है तो बस आप हमे एक Comment किजिये।
एक टिप्पणी भेजें
5 टिप्पणियाँ
Good Work Sir.
जवाब देंहटाएंPlease provide all hadoop and deep learning articles in hindi
Yes mujhe ye Abhi steps Ko detailee smjhna h
जवाब देंहटाएंYes I want read next step
जवाब देंहटाएंI want to read next step
जवाब देंहटाएंI want to read next step
जवाब देंहटाएं