what is data lake

دریاچه داده (data lake) چیست؟ تفاوت های آن را بررسی کنید

دریاچه داده یا (data lake) چیست؟ داده ها در دنیای امروز نقش مهمی دارند و شرکت ها مجبورند از این داده ها در سطوح مختلف برای پیشبرد اهداف خود استفاده کنند. یکی از موضوعات مهم این بخش؛ نکته در مورد دریاچه داده این است که نقش ویژه ای در تحلیل انواع داده ها دارد.

اهمیت تجزیه و تحلیل داده ها در سطوح مختلف نیاز به دانستن بیشتر مفاهیمی مانند دریاچه داده، کاربرد آن و تفاوت انبار داده  را آشکار می سازد. موضوعاتی که در این مقاله قصد داریم به آنها اشاره کنیم.

 

دریاچه داده (data lake) چیست و چه وظیفه ای دارد؟

امروزه انواع جدیدی از داده ها با رشد شگفت انگیزی در حال شکل گیری هستند.

داده های تولید شده توسط وب سایت های سازمان، صفحات شبکه های اجتماعی، حسگرها و دستگاه های متصل به وب، اطلاعات مسیرهای ترافیکی با دستگاه های GPS و به طور کلی اینترنت اشیا یا مکانیسم های مشابه.

داده های گسترده این سوال را ایجاد کرده است که آیا استفاده از فناوری “انبار داده” برای ذخیره و تجزیه و تحلیل این اطلاعات به اندازه کافی موثر است یا خیر؟

یکی از مسائلی که در تجزیه و تحلیل انواع جدید داده ها حائز اهمیت است، حجم زیاد داده است که با سرعت سرسام آوری در حال رشد است و مدل های ذخیره سازی و تجزیه و تحلیل مبتنی بر رایانه های فردی پاسخگو نیستند.

از سوی دیگر، توسعه پلتفرم‌های مختلف ذخیره‌سازی داده‌ها مانند سیستم‌های فایل توزیع‌شده داده‌های بزرگ (مانند Hadoop) یا سیستم‌های ذخیره‌سازی ابری (مانند Amazon S3) که انواع مختلفی از داده‌های ساختاریافته یا بدون ساختار را ذخیره می‌کنند و نیاز به دقت آن است. و تجزیه و تحلیل سریع این مدل سنتی انبار داده را به طور جدی به چالش کشیده است.

مفهوم data lake به تدریج در پاسخ به نیاز فوق توسعه یافته است. برای توضیح این مفهوم، از مثالی استفاده می کنیم که برای اولین بار جیمز دیکسون، مدیر ارشد فناوری پنتاهو از آن استفاده کرد.

اگر انبار داده را شبیه یک بطری آب تصفیه شده، بسته بندی شده و آماده مصرف در نظر بگیریم.

دریاچه دیتا (درست مانند نامش) دریاچه ای است که آب از منابع مختلف (آب باران، چشمه ها، رودخانه ها یا منابع دیگر) در آن جریان دارد و مردم می توانند شنا کنند، بنوشند یا حتی از آب دریاچه نمونه برداری کنند.

 

تفاوت انبار داده و دریاچه داده چیست؟

اگر بخواهیم تفاوت بین رویکرد دریاچه داده و انبار داده در تحلیل داده ها را بیان کنیم، می توان به موارد زیر به عنوان تفاوت های اصلی اشاره کرد:

نحوه قرار دادن داده ها

داده ها به طور کامل در دریاچه داده قرار می گیرند و هیچ داده ای نادیده گرفته نمی شود. این رویکرد با رویکرد انبار داده برای ذخیره سازی و پالایش داده ها در تضاد است، جایی که تنها اطلاعاتی که می توانند در تجزیه و تحلیل استفاده شوند در انبار داده قرار می گیرند.

تفاوت در ذخیره سازی داده ها

داده‌های سطوح پایین‌تر (مثلاً شرح یک شخص در یک مقاله یا وب‌سایت) با تغییر کم یا بدون تغییر به دریاچه داده منتقل می‌شوند. بر خلاف رویکرد انبار داده، که در آن تبدیل یکی از اساسی‌ترین و اساسی‌ها است، مهم است. مفروضات اولیه ورودی اطلاعات محسوب می شود

در مثال بالا، برای ذخیره توضیحات یک شخص در یک مقاله یا وب سایت با استفاده از مدل انبار داده، به سادگی کلمات کلیدی را از توضیحات استخراج کرده و در جدول پایگاه داده ذخیره کنید. در دریاچه داده، توضیحات فردی، نحوه پیمایش کاربر در یک سایت، و اطلاعات حسگر تولید شده توسط دستگاه، صرف نظر از منبع و ساختار، ذخیره می شود.

این رویکرد ذخیره سازی داده که در آن داده ها بدون توجه به ساختار و منبع ذخیره می شوند. به آن “خواندن ساختاریافته” (Schema On Read) می گویند.

این رویکرد با ذخیره سازی داده ها در انبار داده متفاوت است، جایی که ابتدا ساختاری را طراحی می کنید که داده ها در آن قرار می گیرند و سپس داده ها در ساختاری به نام Schema On Write قرار می گیرند.

what is data lake

 

کاربران دریاچه های داده (data lake) و انبارهای داده

در بیشتر سازمان ها، تقریبا 80 درصد از کاربران اطلاعات، کاربران عملیاتی هستند. نیاز این دسته از کاربران مشاهده گزارش ها و شاخص های مورد نیازشان است.

این عناصر اغلب ساختاری از پیش تعریف شده دارند و رویکرد انبار داده به دلیل ماهیت ساختاریافته اطلاعات برای این گروه کاربری قابل درک و قابل استفاده است. به طور معمول، 10٪ از کاربران در یک سازمان به تجزیه و تحلیل عمیق داده ها نیاز دارند.

این دسته از کاربران می توانند از انبار داده برای تحلیل های مورد نیاز خود استفاده کنند. اما گاهی اوقات نیاز به دسترسی به منبع اصلی داده می‌شود و کاربران مجبور می‌شوند داده‌ها را در سیستم‌هایی که آن‌ها را تولید کرده‌اند، جستجو کنند.

درصد کمی از کاربران در سازمان ها به تجزیه و تحلیل عمیق و پیچیده داده ها نیاز دارند. دانشمندان داده و تحلیلگران داده در این دسته از کاربران قرار می گیرند.

این گروه از کاربران از انواع داده های ساختاریافته یا بدون ساختار و ابزارهای پیشرفته تجزیه و تحلیل داده ها مانند:

داده کاوی، متن کاوی، تحلیل آماری، مدل های پیش بینی، تحلیل جریان ناوبری سایت و روش های مشابه استفاده می کنند.

با توجه به اینکه در فرآیند تحلیل پیشرفته، تحلیلگر از قبل نمی داند که کدام ویژگی ها یا داده ها مورد نیاز است. کدام یک باید حذف شود، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات ممکن است پاسخ بهتری به نیازهای تحلیلی این دسته از کاربران باشد.

 

←برای خرید لایسنس Tableau با تمام ویژگی ها کلیک کنید

مقاله های مرتبط:

1-توسعه پایگاه داده استاندارد SQL Server

2-هفت مهارت تحلیلگر داده مورد تقاضا برای استخدام

3-چرا Data Structures یا ساختارهای داده مهم هستند؟

4-تفاوت های داده های طبقه بندی شده (Categorical Data) در مقابل داده های عددی (Numerical Data)

5-داده های طبقه بندی شده (Categorical Data) چیست و چه ویژگی هایی دارد

6-داده های عددی (Numerical Data) چیست و چه ویژگی هایی دارد

8-چالش ها و نحوه مدیریت داده های همه جا حاضر یا Ubiquitous Data

9-معرفی انواع مدل های داده ای یا Data Model

10-ردیابی داده ها یا Data Tracking چیست و چه فایده ای دارد؟

11-توضیح و تفاوت های داده های سخت (Hard Data) در مقابل داده های نرم (Soft Data)

12-تحلیل داده های کسب و کار با هوش تجاری

13-معرفی و بررسی انواع تجزیه و تحلیل داده ها

14-معرفی ۱۵ کاربرد برتر تجزیه و تحلیل داده ها

امتیاز دهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سبد خرید