پاکسازی موثر داده ها بخش مهمی از فرآیند تجزیه و تحلیل داده ها است. اما آن چیست، چرا مهم است و چگونه آن را انجام می دهید؟ بخوانید تا متوجه شوید.
بهداشت خوب داده ها برای تجارت بسیار مهم است. برای شروع، تمرین خوبی است که اطلاعات خود را بالا نگه دارید و از دقیق و به روز بودن آنها اطمینان حاصل کنید. با این حال، تمیز کردن داده ها نیز بخشی حیاتی از فرآیند تجزیه و تحلیل داده ها است. اگر داده های شما دارای تناقض یا خطا هستند، می توانید شرط بندی کنید که نتایج شما نیز ناقص خواهد بود. و هنگامی که بر اساس این بینش ها تصمیمات تجاری می گیرید، تشخیص اینکه چه چیزی ممکن است اشتباه باشد نیازی به نبوغ ندارد.
در زمینه ای مانند بازاریابی، بینش بد می تواند به معنای هدر دادن پول برای کمپین های هدفمند ضعیف باشد. مانند مراقبت های بهداشتی یا علوم، به معنای واقعی کلمه می تواند تفاوت بین زندگی و مرگ باشد.
در این پست، دقیقاً بررسی خواهیم کرد که پاکسازی داده چیست و چرا انجام صحیح آن بسیار حیاتی است. همچنین مروری بر مراحل کلیدی که باید هنگام تمیز کردن دادههای خود بردارید، ارائه خواهیم کرد.
۱- پاکسازی داده ها چیست؟
پاکسازی داده ها (گاهی اوقات به عنوان پاکسازی داده یا کشمکش داده نیز شناخته می شود) یک مرحله اولیه مهم در فرآیند تجزیه و تحلیل داده است. این تمرین حیاتی، که شامل آماده سازی و اعتبارسنجی داده ها است، معمولاً قبل از تجزیه و تحلیل اصلی شما انجام می شود. پاکسازی داده ها فقط یک مورد حذف داده های اشتباه نیست، اگرچه این اغلب بخشی از آن است. اکثر کارها به شناسایی دادههای نادرست و (در صورت امکان) تصحیح آن میپردازد.
«دادههای سرکش» شامل مواردی مانند دادههای ناقص، نادرست، نامربوط، خراب یا قالببندی نادرست است. این فرآیند همچنین شامل کپی برداری یا «دفریب کردن» است. این به معنای ادغام یا حذف نقاط داده یکسان است.
اما چرا اصلاح این نوع خطاها بسیار مهم است؟
پاسخ به اندازه کافی ساده است: اگر این کار را نکنید، نتایج تحلیل شما را تحت تاثیر قرار خواهند داد. از آنجایی که تجزیه و تحلیل داده ها معمولاً برای اطلاع رسانی تصمیمات تجاری استفاده می شود، نتایج باید دقیق باشند. در این مورد، ممکن است به سادگی حذف داده های ناقص یا ناقص ایمن تر به نظر برسد.
اما این مشکلات نیز ایجاد می کند: یک مجموعه داده ناقص نیز بر نتایج تجزیه و تحلیل شما تأثیر می گذارد. به همین دلیل است که یکی از اهداف اصلی پاکسازی داده ها، دست نخورده نگه داشتن هرچه بیشتر مجموعه داده است. این به بهبود قابلیت اطمینان بینش شما کمک می کند.
پاکسازی داده ها تنها برای تجزیه و تحلیل داده ها مهم نیست. همچنین برای خانه داری عمومی مشاغل (یا «حاکمیت داده ها») مهم است. منابع کلان داده پویا و دائما در حال تغییر هستند. بنابراین، نگهداری منظم پایگاههای داده به شما کمک میکند تا از همه چیز مطلع باشید. این چندین مزیت اضافی دارد که در بخش بعدی به آنها خواهیم پرداخت.
آیا می خواهید دست خود را در تمیز کردن مجموعه داده امتحان کنید؟ این آموزش پاکسازی داده را امتحان کنید که در آن نحوه حذف موارد تکراری و مدیریت داده های از دست رفته در یک مجموعه داده واقعی را خواهید آموخت.
۲- چرا پاکسازی داده ها مهم است؟
جملات رایجی که در دنیای تجزیه و تحلیل داده ها می شنوید این است: “زباله داخل، زباله بیرون”. این اصل، که اغلب توسط تحلیلگران داده استفاده می شود، حتی مخفف خود را دارد … GIGO. اما این یعنی چه؟ در اصل، GIGO به این معنی است که اگر کیفیت دادههای شما پایینتر از حد باشد، نتایج هر تحلیلی با استفاده از آن دادهها نیز ناقص خواهد بود. حتی اگر تمام مراحل دیگر از فرآیند تجزیه و تحلیل داده ها را به طور کامل دنبال کنید، اگر داده های شما به هم ریخته باشد، تفاوتی ایجاد نخواهد کرد.
به همین دلیل، اهمیت تمیز کردن صحیح داده ها را نمی توان نادیده گرفت. این مانند ایجاد یک پایه برای یک ساختمان است: این کار را درست انجام دهید و می توانید چیزی قوی و بادوام بسازید. اشتباه انجام دهید، ساختمان شما به زودی فرو خواهد ریخت.
این طرز فکر به همین دلیل است که تحلیلگران خوب داده بین 60 تا 80 درصد از زمان خود را صرف انجام فعالیت های پاکسازی داده می کنند. فراتر از تجزیه و تحلیل داده ها، بهداشت خوب داده ها چندین مزیت دیگر نیز دارد. اکنون به آنها نگاه کنیم.
←برای کرک Tableau با تمام ویژگی ها کلیک کنید
مزایای کلیدی پاکسازی داده ها
همانطور که پوشش دادهایم، تجزیه و تحلیل دادهها برای تولید بینشهای دقیق و قابل اعتماد به دادههای بهطور مؤثری نیاز دارد. اما داده های پاک دارای طیف وسیعی از مزایای دیگر نیز هستند:
1- سازماندهی ماندن: کسب و کارهای امروزی اطلاعات زیادی را از مشتریان، مشتریان، کاربران محصول و غیره جمع آوری می کنند. این جزئیات شامل همه چیز از آدرس و شماره تلفن گرفته تا جزئیات بانک و موارد دیگر است. تمیز کردن مرتب این داده ها به معنای مرتب نگه داشتن آن است. سپس می توان آن را به طور موثرتر و ایمن ذخیره کرد.
2- اجتناب از اشتباهات: داده های کثیف فقط برای تجزیه و تحلیل داده ها مشکل ایجاد نمی کند. همچنین بر عملیات روزانه تأثیر می گذارد. به عنوان مثال، تیم های بازاریابی معمولا یک پایگاه داده مشتری دارند. اگر آن پایگاه داده در نظم خوبی باشد، آنها به اطلاعات مفید و دقیق دسترسی خواهند داشت. اگر بهم ریخته باشد، اشتباهاتی رخ می دهد، مانند استفاده از نام اشتباه در ایمیل های شخصی.
3- بهبود بهرهوری: تمیز کردن و بهروزرسانی منظم دادهها به این معنی است که اطلاعات سرکش به سرعت پاک میشوند. این امر باعث میشود تیمها مجبور نباشند در پایگاههای داده یا اسناد قدیمی برای یافتن آنچه به دنبال آن هستند قدم بزنند.
کرک تبلو
4- اجتناب از هزینه های غیر ضروری: تصمیم گیری های تجاری با داده های بد می تواند منجر به اشتباهات گران قیمت شود. اما دادههای بد میتوانند هزینههای دیگری را نیز به همراه داشته باشند. چیزهای ساده، مانند خطاهای پردازش، می توانند به سرعت به مشکلات بزرگتری تبدیل شوند. بررسی منظم دادهها به شما امکان میدهد زودتر لکهها را تشخیص دهید. این به شما فرصتی میدهد تا قبل از اینکه نیاز به تعمیر زمانبر (و پرهزینهتر) داشته باشند، آنها را اصلاح کنید.
5- نقشه برداری بهبود یافته: سازمان ها به طور فزاینده ای به دنبال بهبود زیرساخت های داده داخلی خود هستند. برای این کار، آنها اغلب تحلیلگران داده را برای انجام مدلسازی دادهها و ساخت برنامههای کاربردی جدید استخدام میکنند. داشتن دادههای تمیز از همان ابتدا، جمعبندی و نقشهبرداری را بسیار آسانتر میکند، به این معنی که یک طرح بهداشتی دادههای جامد یک اقدام معقول است.
کلید پاکسازی داده ها مفهوم کیفیت داده است. کیفیت داده، تناسب عینی و ذهنی هر مجموعه داده برای هدف مورد نظر را اندازه گیری می کند. تعدادی ویژگی وجود دارد که بر کیفیت داده ها تأثیر می گذارد، از جمله دقت، کامل بودن، سازگاری، به موقع بودن، اعتبار و منحصر به فرد بودن. در این پست می توانید اطلاعات بیشتری در مورد کیفیت داده ها کسب کنید.
۳- چگونه داده های خود را پاک کنیم
تا اینجا، ما توضیح دادهایم که پاکسازی داده چیست و چرا مهم است. در این بخش، جنبه های عملی پاکسازی موثر داده ها را بررسی خواهیم کرد. از آنجایی که چندین رویکرد وجود دارد که می توانید برای تکمیل هر یک از این وظایف استفاده کنید، ما در عوض روی فعالیت های سطح بالا تمرکز می کنیم.
مرحله 1: از شر مشاهدات ناخواسته خلاص شوید
اولین مرحله در هر فرآیند پاکسازی داده، حذف مشاهدات (یا نقاط داده) است که نمی خواهید. این شامل مشاهدات نامربوط است، یعنی مشاهداتی که با مشکلی که میخواهید حل کنید، مناسب نیستند. به عنوان مثال، اگر ما در حال انجام یک تجزیه و تحلیل در مورد عادات غذایی گیاهخواری بودیم، می توانستیم هر مشاهدات مربوط به گوشت را از مجموعه داده های خود حذف کنیم.
این مرحله از فرآیند همچنین شامل حذف داده های تکراری است. دادههای تکراری معمولاً زمانی اتفاق میافتد که چندین مجموعه داده را ترکیب میکنید، دادهها را به صورت آنلاین خراش میدهید یا آنها را از منابع شخص ثالث دریافت میکنید.
مرحله 2: رفع خطاهای ساختاری
خطاهای ساختاری معمولاً در نتیجه نگهداری ضعیف داده ها ظاهر می شوند. آنها شامل مواردی مانند اشتباهات تایپی و حروف بزرگ متناقض هستند که اغلب در هنگام ورود دستی داده ها رخ می دهد. فرض کنید مجموعه داده ای دارید که خواص فلزات مختلف را پوشش می دهد. «آهن» (حروف بزرگ) و «آهن» (حروف کوچک) ممکن است به عنوان کلاسها (یا دستههای جداگانه) ظاهر شوند.
اطمینان از اینکه حروف بزرگ یکنواخت است، استفاده از آن داده ها را بسیار تمیزتر و آسان تر می کند. همچنین باید دستههای دارای برچسب اشتباه را بررسی کنید. به عنوان مثال، “آهن” و “آهن” (نماد شیمیایی آهن) ممکن است به عنوان کلاس های جداگانه برچسب گذاری شوند، حتی اگر یکسان باشند. موارد دیگری که باید به آنها توجه کنید استفاده از زیرخط، خط تیره و سایر علائم نگارشی سرکش است!
مرحله 3: داده های خود را استاندارد کنید
استانداردسازی داده های شما ارتباط نزدیکی با رفع خطاهای ساختاری دارد، اما این کار را یک گام فراتر می برد. تصحیح اشتباهات تایپی مهم است، اما شما همچنین باید اطمینان حاصل کنید که هر نوع سلول از قوانین یکسانی پیروی می کند.
به عنوان مثال، شما باید تصمیم بگیرید که آیا مقادیر باید تمام حروف کوچک یا بزرگ باشند و این را در کل مجموعه داده خود ثابت نگه دارید. استانداردسازی همچنین به معنای اطمینان از این است که چیزهایی مانند داده های عددی از واحد اندازه گیری یکسانی استفاده می کنند. به عنوان مثال، ترکیب مایل ها و کیلومترها در مجموعه داده های مشابه مشکلاتی را ایجاد می کند.
حتی تاریخ ها قراردادهای متفاوتی دارند، به طوری که ایالات متحده ماه را قبل از روز قرار می دهد و اروپا روز را قبل از ماه قرار می دهد. چشمان خود را باز نگه دارید؛ شما تعجب خواهید کرد که چه چیزی از بین می رود.
مرحله 4: نقاط پرت ناخواسته را حذف کنید
نقاط پرت، نقاط داده ای هستند که به طور چشمگیری با سایر نقاط مجموعه تفاوت دارند. آنها می توانند با انواع خاصی از مدل های داده و تجزیه و تحلیل مشکل ایجاد کنند. برای مثال، در حالی که الگوریتمهای درخت تصمیم به طور کلی پذیرفته شدهاند که نسبت به موارد پرت کاملاً قوی هستند.
الگوریتمهای پرت میتوانند به راحتی مدل رگرسیون خطی را تغییر دهند. در حالی که نقاط پرت می توانند بر نتایج یک تجزیه و تحلیل تأثیر بگذارند، همیشه باید با احتیاط آنها را حذف کنید. فقط در صورتی که بتوانید اشتباه بودن آن را ثابت کنید، حذف کنید، به عنوان مثال. اگر بدیهی است که به دلیل ورود داده نادرست باشد، یا اگر با مجموعه داده مقایسه ای «استاندارد طلایی» مطابقت نداشته باشد.
مرحله 5: خطاهای داده های متناقض را برطرف کنید
خطاهای داده های متناقض (یا مجموعه ای متقابل) یکی دیگر از مشکلات رایج است که باید به دنبال آن باشید. خطاهای متناقض جایی هستند که شما یک رکورد کامل حاوی داده های متناقض یا ناسازگار دارید.
کرک تبلو
یک مثال می تواند گزارش زمان مسابقه ورزشکاران باشد. اگر ستونی که کل مدت زمان دویدن را نشان می دهد با مجموع زمان مسابقه برابر نیست، یک خطای متقاطع دارید. مثال دیگر ممکن است ارتباط نمرات یک دانش آموز با رشته ای باشد که فقط گزینه هایی را برای «گذراندن» و «شکست» اجازه می دهد، یا اینکه مالیات یک کارمند بیشتر از کل حقوق آنها باشد.
مرحله 6: خطاهای تبدیل و نحو را تایپ کنید
هنگامی که ناهماهنگی های دیگر را برطرف کردید، محتوای صفحه گسترده یا مجموعه داده شما ممکن است خوب به نظر برسد. با این حال، باید بررسی کنید که همه چیز در پشت صحنه نیز مرتب باشد. تبدیل نوع به دسته های داده ای که در مجموعه داده خود دارید اشاره دارد.
یک مثال ساده این است که اعداد داده های عددی هستند، در حالی که ارز از یک مقدار ارز استفاده می کند. باید اطمینان حاصل کنید که اعداد بهعنوان دادههای عددی، متن بهعنوان ورودی متن، تاریخها بهعنوان اشیا و غیره بهطور مناسب ذخیره میشوند. اگر بخشی از مرحله دو را از دست دادید، باید خطاهای نحوی/فضای سفید (شکاف های اشتباه قبل، وسط یا بین کلمات) را نیز حذف کنید.
مرحله 7: با داده های از دست رفته مقابله کنید
وقتی داده ها از دست رفته است، چه کار می کنید؟ سه رویکرد رایج برای این مشکل وجود دارد. اولین مورد حذف ورودی های مرتبط با داده های از دست رفته است.
دوم این است که داده های از دست رفته را بر اساس داده های مشابه دیگر نسبت دهیم (یا حدس بزنیم). با این حال، در بیشتر موارد، هر دوی این گزینهها به روشهای دیگری بر مجموعه داده شما تأثیر منفی میگذارند. حذف داده ها اغلب به معنای از دست دادن اطلاعات مهم دیگر است. حدس زدن داده ها ممکن است الگوهای موجود را تقویت کند، که ممکن است اشتباه باشد.
گزینه سوم (و اغلب بهترین) این است که داده ها را به عنوان گمشده علامت گذاری کنید. برای انجام این کار، مطمئن شوید که فیلدهای خالی دارای همان مقدار هستند، به عنوان مثال. «فقدان» یا «0» (اگر یک فیلد عددی باشد). سپس، هنگامی که تجزیه و تحلیل خود را انجام می دهید، حداقل در نظر می گیرید که داده ها از دست رفته است، که به خودی خود می تواند آموزنده باشد.
مرحله 8: مجموعه داده خود را اعتبارسنجی کنید
هنگامی که مجموعه داده خود را تمیز کردید، آخرین مرحله اعتبارسنجی آن است. اعتبارسنجی داده ها به معنای بررسی کامل بودن فرآیند اصلاح، حذف، استانداردسازی (و غیره) است. این اغلب شامل استفاده از اسکریپتهایی است که بررسی میکنند آیا مجموعه داده با قوانین اعتبارسنجی (یا «روالهای بررسی») که از پیش تعریف کردهاید مطابقت دارد یا خیر. همچنین میتوانید اعتبارسنجی را در برابر مجموعه دادههای «استاندارد طلایی» موجود انجام دهید.
همه اینها کمی فنی به نظر می رسد، اما تنها چیزی که واقعاً باید در این مرحله بدانید این است که اعتبارسنجی به این معنی است که بررسی داده ها برای تجزیه و تحلیل آماده است. اگر هنوز خطاهایی وجود دارد (که معمولاً وجود خواهد داشت) باید به عقب برگردید و آنها را برطرف کنید … دلیلی وجود دارد که چرا تحلیلگران داده زمان زیادی را صرف تمیز کردن داده ها می کنند.
۴- ابزار پاکسازی داده ها
اکنون مراحل فرآیند پاکسازی داده ها را پوشش داده ایم، واضح است که این یک کار دستی نیست. بنابراین، چه ابزارهایی ممکن است کمک کنند؟ پاسخ به عواملی مانند داده هایی که با آنها کار می کنید و سیستم هایی که استفاده می کنید بستگی دارد. اما در اینجا برخی از ابزارهای پایه برای دستیابی به آنها وجود دارد.
مایکروسافت اکسل
MS Excel از زمان راهاندازی خود در سال 1985 یکی از اجزای اصلی محاسبات بوده است. آن را دوست داشته باشید یا از آن متنفر باشید. اکسل با بسیاری از توابع داخلی برای خودکارسازی فرآیند پاکسازی داده ها، از حذف تا جایگزینی اعداد و متن، شکل دادن به ستون ها و ردیف ها، یا ترکیب داده ها از سلول های متعدد ارائه می شود. همچنین یادگیری آن نسبتاً آسان است، و آن را به اولین درگاه تماس برای اکثر تحلیلگران جدید داده تبدیل می کند.
زبانهای برنامه نویسی
اغلب، پاکسازی داده ها با استفاده از اسکریپت هایی انجام می شود که فرآیند را خودکار می کند. این در اصل کاری است که اکسل با استفاده از توابع از قبل موجود می تواند انجام دهد. با این حال، انجام پردازش دسته ای خاص (اجرای وظایف بدون تعامل کاربر نهایی) روی مجموعه داده های بزرگ و پیچیده اغلب به معنای نوشتن اسکریپت ها توسط خودتان است.
این کار معمولاً با زبانهای برنامهنویسی مانند Python، Ruby، SQL یا -اگر شما یک برنامهنویس واقعی هستید- R (که پیچیدهتر است، اما همهکارهتر است) انجام میشود. در حالی که تحلیلگران داده با تجربه تر ممکن است این اسکریپت ها را از ابتدا کدگذاری کنند، بسیاری از کتابخانه های آماده وجود دارند. به طور خاص پایتون دارای تعداد زیادی کتابخانه برای تمیز کردن داده ها است که می تواند روند را برای شما سرعت بخشد، مانند پانداها و NumPy.
تجسم ها
استفاده از تجسم داده ها می تواند راهی عالی برای تشخیص خطاها در مجموعه داده شما باشد. به عنوان مثال، نمودار میلهای برای تجسم مقادیر منحصر به فرد بسیار عالی است و ممکن است به شما کمک کند دستهای را که به روشهای مختلف برچسبگذاری شدهاند را شناسایی کنید (مانند مثال قبلی «آهن» و «Fe»). به همین ترتیب، نمودارهای پراکنده می توانند به شناسایی نقاط پرت کمک کنند تا بتوانید آنها را دقیق تر بررسی کنید (و در صورت نیاز آنها را حذف کنید).
نرم افزار اختصاصی
بسیاری از شرکتها با نرمافزار اختصاصی از رونق تجزیه و تحلیل دادهها سود میبرند. بسیاری از این نرم افزار با هدف ساده تر کردن پاک کردن داده ها برای کاربرانی است که اطلاعات را ندارند. از آنجایی که هزاران برنامه کاربردی وجود دارد (بسیاری از آنها برای صنایع و وظایف مختلف طراحی شده اند)، ما آنها را در اینجا لیست نمی کنیم. اما ما شما را تشویق می کنیم که بروید و ببینید چه چیزی در دسترس است. برای شروع، با برخی از ابزارهای رایگان و منبع باز بازی کنید. محبوبترین آنها عبارتند از OpenRefine و Trifacta.
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
حتما بخوانید : معرفی ۱۰ بهترین ابزار داده کاوی در سال ۲۰۲۲