کلان داده یک اصطلاح عمومی برای استراتژی ها و فناوری های غیر سنتی مورد نیاز برای جمع آوری، سازماندهی، پردازش و جمع آوری بینش از مجموعه داده های بزرگ است. در حالی که مشکل کار با دادههایی که بیش از توان محاسباتی یا ذخیرهسازی یک کامپیوتر است، جدید نیست، فراگیری، مقیاس و ارزش این نوع محاسبات در سالهای اخیر بسیار گسترش یافته است.
در این مقاله، ما در مورد کلان داده ها در سطح بنیادی صحبت خواهیم کرد و مفاهیم رایجی را که ممکن است در حین تحقیق در مورد موضوع با آنها مواجه شوید، تعریف می کنیم. همچنین نگاهی در سطح بالا به برخی از فرآیندها و فناوریهایی که در حال حاضر در این فضا استفاده میشوند، خواهیم داشت.
کلان داده چیست؟
تعریف دقیق “داده های بزرگ” دشوار است زیرا پروژه ها، فروشندگان، شاغلین و متخصصان کسب و کار به طور کاملا متفاوت از آن استفاده می کنند. با در نظر گرفتن این موضوع، به طور کلی، کلان داده عبارتند از:
- مجموعه داده های بزرگ
- دسته ای از استراتژی ها و فناوری های محاسباتی که برای مدیریت مجموعه داده های بزرگ استفاده می شوند
در این زمینه، “داده بزرگ” به معنای مجموعه داده بسیار بزرگی است که به طور منطقی با ابزارهای سنتی یا روی یک کامپیوتر ذخیره نمی شود. این بدان معنی است که مقیاس مشترک مجموعه داده های بزرگ به طور مداوم در حال تغییر است و ممکن است از سازمانی به سازمان دیگر به طور قابل توجهی متفاوت باشد.
چرا سیستم های کلان داده متفاوت هستند؟
الزامات اساسی برای کار با داده های بزرگ مانند الزامات کار با مجموعه داده ها با هر اندازه است. با این حال، مقیاس عظیم، سرعت دریافت و پردازش، و ویژگیهای دادههایی که باید در هر مرحله از فرآیند با آنها برخورد کرد، چالشهای جدیدی را در هنگام طراحی راهحلها ایجاد میکند. هدف بیشتر سیستمهای کلان داده، نشان دادن بینشها و ارتباطات از حجم زیادی از دادههای ناهمگن است که با استفاده از روشهای مرسوم امکانپذیر نیست.
در سال 2001، داگ لین از گارتنر برای اولین بار چیزی را ارائه کرد که به “سه در مقابل داده های بزرگ” معروف شد تا برخی از ویژگی هایی را که داده های بزرگ را از سایر پردازش های داده متفاوت می کند، توصیف کند:
حجم
مقیاس محض اطلاعات پردازش شده به تعریف سیستم های کلان داده کمک می کند. این مجموعه دادهها میتوانند مرتبهای بزرگتر از مجموعه دادههای سنتی باشند، که نیاز به تفکر بیشتری در هر مرحله از چرخه عمر پردازش و ذخیرهسازی دارد.
اغلب، از آنجایی که نیازهای کاری بیش از قابلیت های یک رایانه است، این امر به چالشی برای ادغام، تخصیص و هماهنگ کردن منابع از گروه های رایانه تبدیل می شود. مدیریت خوشه و الگوریتم هایی که می توانند وظایف را به قطعات کوچکتر تقسیم کنند اهمیت فزاینده ای پیدا می کنند.
سرعت
روش دیگری که در آن داده های بزرگ به طور قابل توجهی با سایر سیستم های داده متفاوت است، سرعت حرکت اطلاعات در سیستم است. داده ها به طور مکرر از منابع متعدد وارد سیستم می شوند و اغلب انتظار می رود که در زمان واقعی برای به دست آوردن بینش و به روز رسانی درک فعلی سیستم پردازش شوند.
این تمرکز بر بازخورد فوری، بسیاری از متخصصان کلان داده را از رویکرد دستهگرا دور کرده و به یک سیستم پخش زمان واقعی نزدیکتر کرده است. داده ها به طور مداوم اضافه می شوند، ماساژ داده می شوند، پردازش می شوند و تجزیه و تحلیل می شوند تا با هجوم اطلاعات جدید همگام شوند و اطلاعات ارزشمند در اوایل زمانی که بیشترین ارتباط را دارند، آشکار شوند. این ایده ها به سیستم های قوی با اجزای بسیار در دسترس نیاز دارند تا از خرابی در طول خط لوله داده محافظت کنند.
تنوع
مشکلات کلان داده اغلب به دلیل گستره وسیع منابع در حال پردازش و کیفیت نسبی آنها منحصر به فرد هستند.
دادهها را میتوان از سیستمهای داخلی مانند گزارشهای برنامه و سرور، از فیدهای رسانههای اجتماعی و دیگر APIهای خارجی، از حسگرهای دستگاه فیزیکی و از سایر ارائهدهندگان دریافت کرد. کلان داده با ادغام تمام اطلاعات در یک سیستم واحد به دنبال مدیریت داده های بالقوه مفید بدون توجه به اینکه از کجا آمده است.
←برای کرک Tableau با تمام ویژگی ها کلیک کنید
فرمت ها و انواع رسانه ها نیز می توانند به طور قابل توجهی متفاوت باشند. رسانههای غنی مانند تصاویر، فایلهای ویدیویی و ضبطهای صوتی در کنار فایلهای متنی، گزارشهای ساختاری و غیره وارد میشوند.
در حالی که سیستمهای پردازش داده سنتیتر ممکن است انتظار داشته باشند که دادهها از قبل برچسبگذاری شده، قالببندی شده و سازماندهی شده وارد خط لوله شوند.
سیستمهای کلان داده معمولاً میپذیرند و ذخیره میکنند. داده ها به حالت خام خود نزدیک می شوند. در حالت ایده آل، هرگونه تغییر یا تغییر در داده های خام در زمان پردازش در حافظه اتفاق می افتد.
سایر خصوصیات
افراد و سازمانهای مختلف گسترش سه V اصلی را پیشنهاد کردهاند، اگرچه این پیشنهادها بیشتر به توصیف چالشها میپردازند تا کیفیت دادههای بزرگ. برخی از اضافات رایج عبارتند از:
- صحت (Veracity): تنوع منابع و پیچیدگی پردازش میتواند منجر به چالشهایی در ارزیابی کیفیت دادهها (و در نتیجه کیفیت تجزیه و تحلیل حاصل) شود.
- تنوع (Variability): تنوع در داده ها منجر به تنوع گسترده در کیفیت می شود. ممکن است برای شناسایی، پردازش یا فیلتر کردن دادههای با کیفیت پایین به منابع اضافی نیاز باشد تا مفیدتر شود.
- ارزش (Value): چالش نهایی کلان داده، ارائه ارزش است. گاهی اوقات، سیستم ها و فرآیندهای موجود به اندازه کافی پیچیده هستند که استفاده از داده ها و استخراج ارزش واقعی ممکن است دشوار شود.
چرخه زندگی Big Data چگونه است؟
بنابراین چگونه داده ها در هنگام برخورد با یک سیستم کلان داده پردازش می شوند؟ در حالی که رویکردهای پیاده سازی متفاوت است.
برخی از مشترکات در استراتژی ها و نرم افزارها وجود دارد که می توانیم به طور کلی در مورد آنها صحبت کنیم. در حالی که مراحل ارائه شده در زیر ممکن است در همه موارد درست نباشد، اما به طور گسترده مورد استفاده قرار می گیرند.
دسته بندی کلی فعالیت های مرتبط با پردازش کلان داده ها عبارتند از:
- ورود داده به سیستم
- ماندگاری داده ها در ذخیره سازی
- محاسبه و تجزیه و تحلیل داده ها
- تجسم نتایج
قبل از اینکه به جزئیات این چهار دسته گردش کار نگاه کنیم، لحظه ای را در مورد محاسبات خوشه ای، یک استراتژی مهم که توسط اکثر راه حل های کلان داده استفاده می شود، صحبت خواهیم کرد.
راه اندازی یک خوشه محاسباتی اغلب پایه و اساس فناوری مورد استفاده در هر یک از مراحل چرخه زندگی است.
←برای کرک Tableau با تمام ویژگی ها کلیک کنید
نتیجه
کلان داده موضوعی گسترده و به سرعت در حال تحول است.
در حالی که برای همه انواع محاسبات مناسب نیست، بسیاری از سازمان ها برای انواع خاصی از بار کاری به داده های بزرگ روی می آورند .
از آن برای تکمیل تجزیه و تحلیل و ابزارهای تجاری موجود خود استفاده می کنند.
سیستمهای کلان داده بهطور منحصربهفردی برای نمایاندن الگوهای غیرقابل تشخیص و ارائه بینشی نسبت به رفتارهایی که یافتن آنها از طریق روشهای متعارف غیرممکن است، مناسب هستند.
با پیادهسازی صحیح سیستمهایی که با کلان دادهها سروکار دارند، سازمانها میتوانند ارزش باورنکردنی از دادههایی که از قبل در دسترس هستند به دست آورند.
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
مقاله های مرتبط:
1-معرفی ۵ ابزار برتر هوش تجاری
2-تفاوت بین تجزیه و تحلیل پیشرفته (Advanced Analytics) و هوش تجاری (BI)
3-هوش تجاری سلف سرویس (Self_Service BI) – موفقیت شرکت خود را هدایت کنید
4-ترفندها و روش های محبوب در هوش تجاری
5-مدیریت کیفیت داده (Data Quality Management) در هوش تجاری (BI)
6-تفاوت هوش تجاری (BI) و هوش مصنوعی (AI) در چیست؟
7- مزایای هوش تجاری در بخش بهداشت و درمان