مفاهیم و اصطلاحات کلان داده یا Big Data

کلان داده یک اصطلاح عمومی برای استراتژی ها و فناوری های غیر سنتی مورد نیاز برای جمع آوری، سازماندهی، پردازش و جمع آوری بینش از مجموعه داده های بزرگ است. در حالی که مشکل کار با داده‌هایی که بیش از توان محاسباتی یا ذخیره‌سازی یک کامپیوتر است، جدید نیست، فراگیری، مقیاس و ارزش این نوع محاسبات در سال‌های اخیر بسیار گسترش یافته است.

در این مقاله، ما در مورد کلان داده ها در سطح بنیادی صحبت خواهیم کرد و مفاهیم رایجی را که ممکن است در حین تحقیق در مورد موضوع با آنها مواجه شوید، تعریف می کنیم. همچنین نگاهی در سطح بالا به برخی از فرآیندها و فناوری‌هایی که در حال حاضر در این فضا استفاده می‌شوند، خواهیم داشت.

کلان داده چیست؟

تعریف دقیق “داده های بزرگ” دشوار است زیرا پروژه ها، فروشندگان، شاغلین و متخصصان کسب و کار به طور کاملا متفاوت از آن استفاده می کنند. با در نظر گرفتن این موضوع، به طور کلی، کلان داده عبارتند از:

مجموعه داده های بزرگ
دسته ای از استراتژی ها و فناوری های محاسباتی که برای مدیریت مجموعه داده های بزرگ استفاده می شوند

در این زمینه، “داده بزرگ” به معنای مجموعه داده بسیار بزرگی است که به طور منطقی با ابزارهای سنتی یا روی یک کامپیوتر ذخیره نمی شود. این بدان معنی است که مقیاس مشترک مجموعه داده های بزرگ به طور مداوم در حال تغییر است و ممکن است از سازمانی به سازمان دیگر به طور قابل توجهی متفاوت باشد.

چرا سیستم های کلان داده متفاوت هستند؟

الزامات اساسی برای کار با داده های بزرگ مانند الزامات کار با مجموعه داده ها با هر اندازه است. با این حال، مقیاس عظیم، سرعت دریافت و پردازش، و ویژگی‌های داده‌هایی که باید در هر مرحله از فرآیند با آنها برخورد کرد، چالش‌های جدیدی را در هنگام طراحی راه‌حل‌ها ایجاد می‌کند. هدف بیشتر سیستم‌های کلان داده، نشان دادن بینش‌ها و ارتباطات از حجم زیادی از داده‌های ناهمگن است که با استفاده از روش‌های مرسوم امکان‌پذیر نیست.

در سال 2001، داگ لین از گارتنر برای اولین بار چیزی را ارائه کرد که به “سه در مقابل داده های بزرگ” معروف شد تا برخی از ویژگی هایی را که داده های بزرگ را از سایر پردازش های داده متفاوت می کند، توصیف کند:

حجم

مقیاس محض اطلاعات پردازش شده به تعریف سیستم های کلان داده کمک می کند. این مجموعه داده‌ها می‌توانند مرتبه‌ای بزرگ‌تر از مجموعه داده‌های سنتی باشند، که نیاز به تفکر بیشتری در هر مرحله از چرخه عمر پردازش و ذخیره‌سازی دارد.

اغلب، از آنجایی که نیازهای کاری بیش از قابلیت های یک رایانه است، این امر به چالشی برای ادغام، تخصیص و هماهنگ کردن منابع از گروه های رایانه تبدیل می شود. مدیریت خوشه و الگوریتم هایی که می توانند وظایف را به قطعات کوچکتر تقسیم کنند اهمیت فزاینده ای پیدا می کنند.

سرعت

روش دیگری که در آن داده های بزرگ به طور قابل توجهی با سایر سیستم های داده متفاوت است، سرعت حرکت اطلاعات در سیستم است. داده ها به طور مکرر از منابع متعدد وارد سیستم می شوند و اغلب انتظار می رود که در زمان واقعی برای به دست آوردن بینش و به روز رسانی درک فعلی سیستم پردازش شوند.

این تمرکز بر بازخورد فوری، بسیاری از متخصصان کلان داده را از رویکرد دسته‌گرا دور کرده و به یک سیستم پخش زمان واقعی نزدیک‌تر کرده است. داده ها به طور مداوم اضافه می شوند، ماساژ داده می شوند، پردازش می شوند و تجزیه و تحلیل می شوند تا با هجوم اطلاعات جدید همگام شوند و اطلاعات ارزشمند در اوایل زمانی که بیشترین ارتباط را دارند، آشکار شوند. این ایده ها به سیستم های قوی با اجزای بسیار در دسترس نیاز دارند تا از خرابی در طول خط لوله داده محافظت کنند.

تنوع

مشکلات کلان داده اغلب به دلیل گستره وسیع منابع در حال پردازش و کیفیت نسبی آنها منحصر به فرد هستند.

داده‌ها را می‌توان از سیستم‌های داخلی مانند گزارش‌های برنامه و سرور، از فیدهای رسانه‌های اجتماعی و دیگر APIهای خارجی، از حسگرهای دستگاه فیزیکی و از سایر ارائه‌دهندگان دریافت کرد. کلان داده با ادغام تمام اطلاعات در یک سیستم واحد به دنبال مدیریت داده های بالقوه مفید بدون توجه به اینکه از کجا آمده است.

←برای کرک Tableau با تمام ویژگی ها کلیک کنید

فرمت ها و انواع رسانه ها نیز می توانند به طور قابل توجهی متفاوت باشند. رسانه‌های غنی مانند تصاویر، فایل‌های ویدیویی و ضبط‌های صوتی در کنار فایل‌های متنی، گزارش‌های ساختاری و غیره وارد می‌شوند.

در حالی که سیستم‌های پردازش داده سنتی‌تر ممکن است انتظار داشته باشند که داده‌ها از قبل برچسب‌گذاری شده، قالب‌بندی شده و سازمان‌دهی شده وارد خط لوله شوند.

سیستم‌های کلان داده معمولاً می‌پذیرند و ذخیره می‌کنند. داده ها به حالت خام خود نزدیک می شوند. در حالت ایده آل، هرگونه تغییر یا تغییر در داده های خام در زمان پردازش در حافظه اتفاق می افتد.

سایر خصوصیات

افراد و سازمان‌های مختلف گسترش سه V اصلی را پیشنهاد کرده‌اند، اگرچه این پیشنهادها بیشتر به توصیف چالش‌ها می‌پردازند تا کیفیت داده‌های بزرگ. برخی از اضافات رایج عبارتند از:

صحت (Veracity): تنوع منابع و پیچیدگی پردازش می‌تواند منجر به چالش‌هایی در ارزیابی کیفیت داده‌ها (و در نتیجه کیفیت تجزیه و تحلیل حاصل) شود.
تنوع (Variability): تنوع در داده ها منجر به تنوع گسترده در کیفیت می شود. ممکن است برای شناسایی، پردازش یا فیلتر کردن داده‌های با کیفیت پایین به منابع اضافی نیاز باشد تا مفیدتر شود.
ارزش (Value): چالش نهایی کلان داده، ارائه ارزش است. گاهی اوقات، سیستم ها و فرآیندهای موجود به اندازه کافی پیچیده هستند که استفاده از داده ها و استخراج ارزش واقعی ممکن است دشوار شود.

چرخه زندگی Big Data چگونه است؟

بنابراین چگونه داده ها در هنگام برخورد با یک سیستم کلان داده پردازش می شوند؟ در حالی که رویکردهای پیاده سازی متفاوت است.

برخی از مشترکات در استراتژی ها و نرم افزارها وجود دارد که می توانیم به طور کلی در مورد آنها صحبت کنیم. در حالی که مراحل ارائه شده در زیر ممکن است در همه موارد درست نباشد، اما به طور گسترده مورد استفاده قرار می گیرند.

دسته بندی کلی فعالیت های مرتبط با پردازش کلان داده ها عبارتند از:

ورود داده به سیستم
ماندگاری داده ها در ذخیره سازی
محاسبه و تجزیه و تحلیل داده ها
تجسم نتایج

قبل از اینکه به جزئیات این چهار دسته گردش کار نگاه کنیم، لحظه ای را در مورد محاسبات خوشه ای، یک استراتژی مهم که توسط اکثر راه حل های کلان داده استفاده می شود، صحبت خواهیم کرد.

راه اندازی یک خوشه محاسباتی اغلب پایه و اساس فناوری مورد استفاده در هر یک از مراحل چرخه زندگی است.

←برای کرک Tableau با تمام ویژگی ها کلیک کنید

نتیجه

کلان داده موضوعی گسترده و به سرعت در حال تحول است.

در حالی که برای همه انواع محاسبات مناسب نیست، بسیاری از سازمان ها برای انواع خاصی از بار کاری به داده های بزرگ روی می آورند .

از آن برای تکمیل تجزیه و تحلیل و ابزارهای تجاری موجود خود استفاده می کنند.

سیستم‌های کلان داده به‌طور منحصربه‌فردی برای نمایاندن الگوهای غیرقابل تشخیص و ارائه بینشی نسبت به رفتارهایی که یافتن آنها از طریق روش‌های متعارف غیرممکن است، مناسب هستند.

با پیاده‌سازی صحیح سیستم‌هایی که با کلان داده‌ها سروکار دارند، سازمان‌ها می‌توانند ارزش باورنکردنی از داده‌هایی که از قبل در دسترس هستند به دست آورند.

تبلو

←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید

مقاله های مرتبط:

1-معرفی ۵ ابزار برتر هوش تجاری

2-تفاوت بین تجزیه و تحلیل پیشرفته (Advanced Analytics) و هوش تجاری (BI)

3-هوش تجاری سلف سرویس (Self_Service BI) – موفقیت شرکت خود را هدایت کنید

4-ترفندها و روش های محبوب در هوش تجاری

5-مدیریت کیفیت داده (Data Quality Management) در هوش تجاری (BI)

6-تفاوت هوش تجاری (BI) و هوش مصنوعی (AI) در چیست؟
7- مزایای هوش تجاری در بخش بهداشت و درمان