داده های طبقه بندی شده (Categorical Data) چیست و چه ویژگی هایی دارد
دادههای طبقهبندی یا Categorical Data به شکلی از اطلاعات اشاره دارد که میتوان آنها را بر اساس نام یا برچسبهایشان ذخیره و شناسایی کرد. این یک نوع داده کیفی است که به جای اندازهگیری عددی، میتوان آنها را در دستههایی دستهبندی کرد.
این نوع داده از متغیرهای طبقهبندی تشکیل شده است که مواردی مانند جنسیت، شهر و غیره را نشان میدهد. اندازهگیریهای مقولهای به اعداد داده نمیشوند، بلکه در توصیف زبان طبیعی هستند.
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
اعداد گاهی اوقات می توانند آن را نشان دهند، اما این اعداد از نظر ریاضی هیچ معنایی ندارند. در زیر چند نمونه از این نوع داده آورده شده است:
- تاریخ تولد
- ورزش مورد علاقه
- رنگ مو
در مثال بالا، هم تاریخ تولد و هم کدپستی از اعداد تشکیل شده اند. به عنوان داده های طبقه بندی شده در نظر گرفته می شود حتی اگر شامل اعداد باشد. محاسبه میانگین یک راه ساده برای تعیین دسته بندی یا عددی بودن داده های ارائه شده است.
اگر بتوانید میانگین را بفهمید، داده های عددی در نظر گرفته می شود. اگر نمی توانید میانگین را بفهمید، داده های طبقه بندی شده در نظر گرفته می شود.
نمونههای متنوع دادههای کیفی در آموزش را از طریق مقاله اخیر ما کشف کنید، نمونههایی را بررسی میکنیم که درک عمیقتری از محیطهای یادگیری و تجربیات دانشآموزان را آشکار میکنند.
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
انواع داده های طبقه بندی شده Categorical Data
داده های طبقه بندی اغلب شامل مقادیر و مشاهداتی است که می توان آنها را دسته بندی یا گروه بندی کرد. نمودارهای میله ای و نمودارهای دایره ای بهترین راه برای نشان دادن این داده ها هستند. به طور خاص، دو نوع داده طبقه بندی وجود دارد:
۱- داده های اسمی
داده های اسمی نوعی داده است که از دسته هایی تشکیل شده است که نمی توان آنها را مرتب کرد یا رتبه بندی کرد. به آن مقیاس اسمی نیز می گویند. داده های اسمی را نمی توان به هیچ وجه رتبه بندی یا اندازه گیری کرد. با این حال، دادههای اسمی میتوانند در مواقعی هم کیفی و هم کمی باشند.
برخی از نمونههای دادههای اسمی نمادها، کلمات، حروف و جنسیت یک شخص هستند.
۲- داده های ترتیبی
داده های ترتیبی دسته ای از داده ها هستند که دارای نظم طبیعی هستند. اغلب در نظرسنجی ها، پرسشنامه ها و زمینه های مالی و اقتصاد استفاده می شود. دادههای ترتیبی از آنجایی که تمایز بین مقادیر داده غیرممکن است، برجسته است.
اندازههای لباس یکی از نمونههای این نوع دادهها هستند (کوچک، متوسط و بزرگ تفاوتهای قابل اندازهگیری نیستند، اما به وضوح برای نشان دادن مقایسه اندازهها مرتب شدهاند).
ویژگی های داده های طبقه بندی شده (Categorical Data)
می تواند فقط چند مقدار داشته باشد که هر کدام نشان دهنده یک دسته یا گروه متفاوت است. برخی از ویژگی های اصلی عبارتند از:
دسته بندی ها
دو نوع داده طبقه بندی وجود دارد: داده های اسمی و داده های ترتیبی. دادههای اسمی که به آن دادههای نامگذاری شده نیز گفته میشود، نوع دادهای است که برای نامگذاری متغیرها استفاده میشود، در حالی که دادههای ترتیبی دارای مقیاس یا ترتیبی برای آن هستند.
کیفی بودن
کیفی است. به عبارت دیگر، از یک رشته کلمات به جای اعداد برای توصیف یک رویداد استفاده می کند.
طبیعی
بسته به ماهیت آن، داده های طبقه بندی را می توان به دو دسته باینری و غیر باینری نیز تقسیم کرد. یک سوال باینری دارای دو پاسخ ممکن است، مانند بله یا خیر، در حالی که یک سوال غیر باینری بیش از دو پاسخ، مانند شاید، دارد.
مقادیر عددی
این کیفی است، اما اغلب شامل مقادیر عددی است. با این حال، این مقادیر هیچ ویژگی کمی ندارند. آنها را نمی توان در توابع حسابی استفاده کرد.
تحلیل گرافیکی
نمودار دایره ای و نمودار میله ای هر دو می توانند برای تجزیه و تحلیل بصری آن استفاده شوند. نمودار میله ای برای تعیین اینکه چند وقت یکبار اتفاق می افتد استفاده می شود، در حالی که نمودار دایره ای برای تعیین درصد استفاده می شود. پس از گروه بندی در جدول انجام می شود.
تحلیل و بررسی
ابزار حالت و میانه برای تجزیه و تحلیل داده های طبقه بندی شده استفاده می شود. ابزار حالت برای تجزیه و تحلیل داده های اسمی و هر دو برای تجزیه و تحلیل داده های ترتیبی استفاده می شود. داده های ترتیبی را می توان با استفاده از آمار تک متغیره نیز تجزیه و تحلیل کرد. آمار دو متغیره، کاربردهای تحلیل رگرسیون، روندهای خطی و روش های طبقه بندی نیز برای تجزیه و تحلیل داده های ترتیبی استفاده می شود.
نمونه هایی از داده های طبقه بندی شده
فرض کنید در حال برگزاری یک مهمانی هستید و می خواهید مطمئن شوید که همه قهوه برای نوشیدن دارند. بنابراین یک نظرسنجی ارسال میکنید و از مردم میپرسید که قهوه مورد علاقهشان چیست، و پاسخها را در جدولی مانند شکل زیر قرار میدهید:
قهوه مورد علاقه | تعداد |
Latte | 04 |
Espresso | 15 |
Cappuccino | 02 |
Black Coffee | 10 |
این داده های طبقه بندی شده است زیرا به گروه هایی مانند قهوه مورد علاقه تقسیم می شود.
نتیجه
داده های طبقه بندی شده (Categorical Data) اغلب در آزمون های آماری غیر پارامتریک استفاده می شود. در تجزیه و تحلیل آماری، تمایز بین دادههای طبقهبندی و دادههای عددی ضروری است، زیرا دادههای طبقهبندی شامل دستهها یا برچسبهای مجزایی است، در حالی که دادههای عددی شامل مقادیر قابل اندازهگیری است. هر کسی که با داده ها کار می کند یا تحقیق می کند باید بتواند آن را درک کرده و استفاده کند.
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
مقاله های مرتبط:
1-تحلیل داده های کسب و کار با هوش تجاری
2-تحلیل داده های کسب و کار با هوش تجاری
3-هوش تجاری (BI) در مقابل تجزیه و تحلیل تجاری (Business Analytics)
4-معرفی و بررسی انواع تجزیه و تحلیل داده ها
5-معرفی ۵ ابزار برتر هوش تجاری
6-تفاوت و مقایسه هوش تجاری (BI) و انبار داده
7-معرفی ۱۵ کاربرد برتر تجزیه و تحلیل داده ها
8-بررسی نیازها و مزایای تجسم داده ها
9-معرفی انواع مدل های داده ای یا Data Model
10-داده های عددی (Numerical Data) چیست و چه ویژگی هایی دارد
11-تفاوت های داده های طبقه بندی شده (Categorical Data) در مقابل داده های عددی (Numerical Data)