مقایسه بین داده های اسمی و داده های ترتیبی
علم داده حول پردازش و تجزیه و تحلیل داده ها با استفاده از طیف وسیعی از ابزارها و تکنیک ها می چرخد. در دنیای داده محور امروزی، با انواع داده هایی مواجه می شویم که هر کدام نیاز به مدیریت و تفسیر دارند. درک انواع مختلف داده ها برای تجزیه و تحلیل مناسب داده ها و تفسیر آماری مهم است.
نوع داده تعیین کننده روش ها و عملیات آماری مناسبی است که باید استفاده شود. انواع داده های مختلف به روش های تحلیل و تفسیر متفاوتی برای نتیجه گیری قابل توجه نیاز دارند. در این مقاله، مفهوم داده و اهمیت آن را بررسی خواهیم کرد، مثالهایی در دنیای واقعی ارائه میکنیم و شما را از طریق راههای کار با آن راهنمایی میکنیم.
سطوح اندازه گیری
قبل از تجزیه و تحلیل یک مجموعه داده، شناسایی نوع داده ای که در آن وجود دارد بسیار مهم است. خوشبختانه، همه داده ها را می توان در یکی از چهار دسته دسته بندی کرد: داده های اسمی، ترتیبی، فاصله ای یا نسبت. اگرچه اینها اغلب به عنوان “انواع داده” نامیده می شوند، اما در واقع سطوح مختلف اندازه گیری هستند. سطح اندازهگیری دقت کمیسازی یک متغیر را منعکس میکند و روشهایی را تعیین میکند که میتوان برای استخراج بینش از دادهها استفاده کرد.
تمایز چهار دسته داده همیشه ساده نیست و در عوض به یک سلسله مراتب تعلق دارند که هر سطح بر سطح قبلی است.
چهار نوع داده وجود دارد
مقوله ای که بیشتر به اسمی و ترتیبی تقسیم می شود و عددی که می تواند بیشتر به فاصله و نسبت تقسیم شود. مقیاسهای اسمی و ترتیبی نسبتاً نادقیق هستند، که تحلیل آنها را آسانتر میکند، اما بینش دقیقتری ارائه میدهند. از سوی دیگر، مقیاسهای فاصله و نسبت پیچیدهتر و تجزیهوتحلیل آنها دشوار است، اما آنها پتانسیل ارائه بینشهای بسیار غنیتری را دارند.
- داده های اسمی Nominal Data – داده های اسمی یک نوع داده پایه است که داده ها را با برچسب گذاری یا نام گذاری مقادیری مانند جنسیت، رنگ مو یا انواع حیوانات دسته بندی می کند. هیچ سلسله مراتبی ندارد.
- دادههای ترتیبی Ordinal Data – دادههای ترتیبی شامل طبقهبندی دادهها بر اساس رتبه، مانند وضعیت اجتماعی در دستههایی مانند «ثروتمند»، «درآمد متوسط» یا «فقیر» است. با این حال، هیچ فاصله زمانی مشخصی بین این دسته ها وجود ندارد.
- داده های فاصله ای Interval Data – داده های فاصله ای روشی برای سازماندهی و مقایسه داده ها است که شامل فواصل اندازه گیری شده است. مقیاس های دما، مانند سلسیوس یا فارنهایت، نمونه های خوبی از داده های بازه ای هستند. با این حال، دادههای بازهای یک صفر واقعی ندارند، به این معنی که اندازهگیری «صفر» همچنان میتواند یک اندازهگیری قابل اندازهگیری را نشان دهد (مانند صفر درجه سانتیگراد، که فقط یک نقطه دیگر در مقیاس است و در واقع به این معنی نیست که دما وجود ندارد. حاضر).
- داده های نسبت Ratio Data – پیچیده ترین سطح اندازه گیری، داده های نسبت است. مشابه داده های بازه ای، با استفاده از فواصل اندازه گیری شده، داده ها را دسته بندی و مرتب می کند. اما برخلاف داده های بازه ای، داده های نسبت شامل یک صفر واقعی هستند. وقتی یک متغیر صفر باشد، آن متغیر وجود ندارد. یک تصویر اصلی از داده های نسبت اندازه گیری ارتفاع است که نمی تواند منفی باشد.
←برای خرید کرک لایسنس تبلو Tableau با تمام ویژگی ها کلیک کنید
Nominal Data چیست؟
دادههای طبقهبندی، همچنین به عنوان دادههای اسمی شناخته میشوند، نوع مهمی از اطلاعات هستند که در زمینههای مختلف مانند تحقیق، آمار و تجزیه و تحلیل دادهها استفاده میشوند. این شامل دسته ها یا برچسب هایی است که به طبقه بندی و ترتیب داده ها کمک می کند. ویژگی اساسی داده های طبقه بندی شده این است که هیچ ترتیب ذاتی یا رتبه بندی در بین دسته های خود ندارند. در عوض، این دسته بندی ها مجزا، متمایز و متقابل هستند.
به عنوان مثال، دادههای اسمی برای طبقهبندی اطلاعات به برچسبها یا دستههای مجزا بدون هیچ ترتیب یا رتبهبندی طبیعی استفاده میشود. این برچسبها یا دستهها با استفاده از نامها یا اصطلاحات نشان داده میشوند و هیچ ترتیب یا رتبهبندی طبیعی در میان آنها وجود ندارد. دادههای اسمی برای طبقهبندی کیفی و سازماندهی اطلاعات مفید است، و محققان و تحلیلگران را قادر میسازد تا نقاط داده را بر اساس ویژگیها یا ویژگیهای خاص بدون دلالت بر هیچ گونه روابط عددی گروهبندی کنند.
- دسته بندی رنگ چشم مانند “آبی” یا “سبز” داده های اسمی را نشان می دهد. هر دسته مجزا هستند، بدون ترتیب یا رتبه بندی.
- برندهای گوشی های هوشمند مانند “iPhone” یا “Samsung” داده های اسمی هستند. هیچ سلسله مراتبی در بین برندها وجود ندارد.
- حالت های حمل و نقل مانند “ماشین” یا “دوچرخه” داده های اسمی هستند. آنها مقوله های گسسته و بدون نظم ذاتی هستند.
ویژگی های داده های اسمی
- داده هایی که به عنوان اسمی طبقه بندی می شوند از دسته هایی تشکیل شده اند که کاملاً مجزا و متمایز از یکدیگر هستند.
- داده هایی که در دسته اسمی قرار می گیرند با برچسب های توصیفی به جای هر مقدار عددی یا کمی متمایز می شوند.
- داده های اسمی را نمی توان به صورت سلسله مراتبی رتبه بندی یا مرتب کرد، زیرا هیچ دسته ای برتر یا پایین تر از دیگری نیست.
مثال
در اینجا چند نمونه از نحوه استفاده از دادههای اسمی برای طبقهبندی و دستهبندی اطلاعات به دستههای مجزا و غیر مرتب آورده شده است:
- رنگهای خودرو: رنگهای خودرو دادههای اسمی هستند، با دستهبندیهای واضح اما بدون ترتیب یا رتبهبندی ذاتی. هر خودرو بدون هیچ گونه ارتباط منطقی یا عددی بین رنگ ها در یک دسته بندی رنگ قرار می گیرد.
- انواع میوه ها: دسته های میوه در یک سبد اسمی هستند. هر میوه متعلق به یک دسته خاص بدون سلسله مراتب یا نظم است. همه دسته ها مجزا و مجزا هستند.
- ژانرهای فیلم: ژانرهای فیلم دادههای اسمی هستند زیرا هیچ رتبهبندی در میان دستههایی مانند «اکشن» یا «کمدی» وجود ندارد. هر ژانر منحصربهفرد است، اما نمیتوانیم تنها بر اساس این دادهها بگوییم که یکی بهتر از دیگری است.
Ordinal Data چیست؟
داده های ترتیبی شکلی از داده های کیفی است که متغیرها را به دسته های توصیفی طبقه بندی می کند. مشخصه آن این است که دسته بندی هایی که به کار می گیرد در نوعی مقیاس سلسله مراتبی مانند از بالا به پایین رتبه بندی می شوند. دادههای ترتیبی بعد از دادههای اسمی، دومین نوع پیچیدهترین اندازهگیری است. اگرچه پیچیدهتر از دادههای اسمی است که فاقد نظم ذاتی است، اما هنوز نسبتاً ساده است.
به عنوان مثال، داده های ترتیبی نوعی داده است که برای دسته بندی اقلام با سلسله مراتب یا ترتیب معنی دار استفاده می شود. این دسته بندی ها به ما کمک می کنند تا دستاوردها، موقعیت ها یا عملکرد دانش آموزان را مقایسه و رتبه بندی کنیم، حتی اگر فواصل بین آنها مساوی نباشد. داده های ترتیبی برای درک انتخاب ها یا ترجیحات مرتب شده و برای ارزیابی تفاوت های نسبی مفید است.
- نمرات مدرسه: نمرات مانند A، B، C داده های ترتیبی هستند که بر اساس پیشرفت رتبه بندی می شوند، اما فواصل بین آنها متفاوت است.
- سطح تحصیلات: سطوحی مانند دبیرستان، لیسانس، فوق لیسانس داده های ترتیبی هستند که بر اساس تحصیلات مرتب شده اند، اما فاصله بین سطوح متفاوت است.
- سطح ارشدیت: سطوح شغلی مانند ورودی، متوسط، ارشد داده های ترتیبی هستند که نشان دهنده سلسله مراتب هستند، اما این شکاف بر اساس شغل و صنعت متفاوت است.
ویژگی های داده های ترتیبی
- داده های ترتیبی در دسته داده های غیر عددی و دسته بندی قرار می گیرند، اما همچنان می توانند از مقادیر عددی به عنوان برچسب استفاده کنند.
- داده های ترتیبی همیشه در یک سلسله مراتب رتبه بندی می شوند (از این رو نام “ترتیبی” نامیده می شود.
- داده های ترتیبی ممکن است رتبه بندی شوند، اما مقادیر آنها به طور مساوی توزیع نشده است.
- با داده های ترتیبی، می توانید توزیع فرکانس، حالت، میانه و محدوده متغیرها را محاسبه کنید.
مثال
در اینجا چند نمونه از نحوه استفاده از داده های ترتیبی در فیلدها و دامنه ها آورده شده است:
- سطوح آموزشی: داده های ترتیبی معمولاً برای نشان دادن سطوح تحصیلی استفاده می شود، مانند “مدرسه”، “مدرک لیسانس”، “مدرک کارشناسی ارشد” و “دکتری”. این سطوح دارای نظم هستند.
- رتبه بندی رضایت مشتری: یکی دیگر از کاربردهای داده ها در نظرسنجی های رضایت مشتری است. این نظرسنجیها اغلب از پاسخدهندگان میخواهند که تجربیات خود را در مقیاسی از «ضعیف» تا «عالی» ارزیابی کنند.
- طبقات اقتصادی: طبقات شامل “طبقه” “طبقه متوسط” و “طبقه بالا” را می توان بر اساس رتبه بندی آنها به عنوان داده های ترتیبی طبقه بندی کرد.
این مثالها روشهای استفاده از دادههای ترتیبی را در فیلدها و دامنهها نشان میدهند.
جدول مقایسه داده های اسمی و ترتیبی
خصوصیات | Nominal data | Ordinal Data |
ماهیت دسته بندی ها | متمایز و گسسته | گسسته و متمایز |
سفارش / رتبه بندی | بدون نظم ذاتی | دارای ترتیب یا رتبه بندی مشخص است |
مقادیر عددی | بدون مقادیر عددی معنی دار | بدون مقادیر عددی معنی دار |
تکنیک های تحلیل | تعداد فراوانی، درصد، نمودار میله ای | رتبه بندی، میانه، آزمون های ناپارامتریک، نمودار میله ای مرتب، رگرسیون ترتیبی |
نمونه | رنگ ها، جنسیت، انواع حیوانات | نمرات مدرسه، سطح تحصیلات، سطح ارشد |
تفسیر | برای طبقه بندی و گروه بندی بر اساس دسته استفاده می شود | برای ارزیابی اولویتهای مرتب، سلسله مراتب یا رتبهبندی استفاده میشود |
مقاله های مرتبط:
1- داده های کیفی | Qualitative Data چیست ؟
2- تفاوت های داده های طبقه بندی شده (Categorical Data) در مقابل داده های عددی (Numerical Data)
3- توضیح و تفاوت های داده های سخت (Hard Data) در مقابل داده های نرم (Soft Data)
4-داشبورد سازی در نرم افزار تبلو و تجسم داده ها