Rapidminer یک پلت فرم جامع علم داده با طراحی گردش کار بصری و اتوماسیون کامل است. این بدان معناست که ما نیازی به کدنویسی برای وظایف داده کاوی نداریم. Rapidminer یکی از محبوب ترین ابزارهای علم داده است.
این رابط کاربری گرافیکی فرآیند خالی در rapidminer است. دارای مخزنی است که مجموعه داده ما را نگه می دارد. ما می توانیم مجموعه داده های خود را وارد کنیم. همچنین مجموعه داده های عمومی زیادی را ارائه می دهد که می توانیم آنها را امتحان کنیم. ما همچنین می توانیم با اتصال پایگاه داده کار کنیم.
در زیر پنجره مخزن، یک اپراتور دارد. اپراتورها شامل همه چیزهایی هستند که برای ایجاد یک فرآیند داده کاوی نیاز داریم، مانند دسترسی به داده، پاکسازی داده ها، مدل سازی، اعتبارسنجی و امتیازدهی.
در سمت راست پنجره پارامترها قرار دارد. پنجره پارامترها برای تنظیم عملگرها است.
Rapidminer را می توان از وب سایت رسمی آنها (https://rapidminer.com/) دانلود کرد. این یک نسخه رایگان با عملکرد محدود است. نسخه رایگان شامل 10000 ردیف داده و 1 پردازشگر منطقی است.
آنها همچنین یک برنامه آموزشی ارائه می دهند. به طوری که دانشجویان، اساتید، مربیان و پژوهشگران می توانند به صورت رایگان مجوز آموزشی رایگان داشته باشند.
مطالعه موردی در Rapidminer
بیایید با Rapidminer به تمرین برویم. در این مورد مطالعه، ما یک فرآیند داده کاوی را با استفاده از مجموعه داده داخلی، با استفاده از روش طبقهبندی برای مقایسه دقت الگوریتمهای مختلف انجام خواهیم داد.
انتخاب فعالیت
این اولین رابطی است که با راه اندازی برنامه rapidminer ظاهر می شود. فرآیند خالی ساختن از ابتدا است. با کشیدن و رها کردن اپراتورها به فیلد فرآیند به صورت دستی کار می کند. اگر با این برنامه در سطح متوسط هستید، این منویی است که می خواهید انتخاب کنید.
Turbo Prep فقط برای آماده سازی مجموعه داده است. این شامل تبدیل، تمیز کردن، و ترکیب مجموعه داده ها است. Auto Model جادوگر را برای انجام وظایف داده کاوی به ما می آورد. درست مثل نصب یک برنامه در ویندوز. Next-Next و Finish.
همچنین قالب های زیادی برای شروع دارد. ما مدل خودکار را برای این مورد مطالعه انتخاب خواهیم کرد.
وارد کردن مجموعه داده
در اینجا می توانیم مجموعه داده ای را که استفاده خواهیم کرد انتخاب کنیم. ما می توانیم مجموعه داده های خود را وارد کنیم یا از مجموعه داده های موجود ارائه شده توسط rapidminer انتخاب کنیم. دکمه Import-New-Data در زیر لیست داده های انتخاب شده برای وارد کردن مجموعه داده های خودمان است.
برای استفاده از مجموعه داده موجود از Rapidminer، روی پوشه نمونه کلیک کنید، سپس پوشه داده را گسترش دهید، و بیایید مجموعه داده Titanic را برای مورد مطالعه خود انتخاب کنیم و روی دکمه سبز رنگ Next کلیک کنیم.
توجه داشته باشید که در نوار پیشرفت تنها شش مرحله آسان برای انجام یک کار داده کاوی با rapidminer وجود دارد.
انتخاب روش داده یابی
جزئیات یک مجموعه داده انتخابی نمایش داده می شود. تایتانیک مجموعه داده ای برای پیش بینی زنده ماندن مسافر در کشتی تایتانیک از روی پارامترهای ورودی موجود است. یازده پارامتر ورودی (x) و یک برچسب (y) از این مجموعه داده وجود دارد.
سه عمل وجود دارد که می توانیم برای مجموعه داده خود انتخاب کنیم. پیش بینی، خوشه و پرت. دکمه Outliers به ما کمک می کند تا نقاط پرت را در داده های خود تشخیص دهیم. خوشه ها به ما کمک می کنند تا گروه های مشترک را در داده هایمان شناسایی کنیم. Predict داده ها را از پارامتر ورودی داده شده طبقه بندی می کند.
در اینجا می توانیم پارامتر ورودی مجموعه داده خود را مشاهده کنیم. می بینیم که مجموعه داده تایتانیک هم از داده های دسته بندی و هم از داده های عددی تشکیل شده است. برچسب هدف به صورت قطعی، بله یا خیر است.
برای انجام طبقه بندی، دکمه پیش بینی را انتخاب کنید، ستون Survived را به عنوان برچسب یا هدف طبقه بندی انتخاب کنید و روی دکمه Next کلیک کنید.
تعادل داده ها
پس از انتخاب روش داده کاوی و انتخاب ستون هدف، تراز داده در نموداری به ما ارائه می شود. ببینید که داده های خیر بیشتر از داده های بله باشد. این وضعیت در واقعیت بسیار رایج است. این نسبت حدود 60:40 است که هنوز قابل قبول است.
وقتی نسبت بالاتر از 70:30 است باید نگران باشیم. یک کلاس بسیار نامتعادل منجر به پیش بینی نامتعادل می شود. طبقه بندی معمولاً برای طبقه اکثریت پیش بینی می شود.
انتخاب ورودی
در این بخش میتوانیم ستونها را از پارامترهای ورودی حذف کنیم. به طور پیش فرض تمام ستون گنجانده شده است. Rapidminer توصیه می کند که کدام ستون ها باید گنجانده یا حذف شوند.
توجه داشته باشید که سه ردیف اول به طور پیش فرض حذف شده اند. این اتفاق می افتد زیرا وضعیت قرمز است. وضعیت قرمز به طور خودکار توسط rapidminer حذف می شود، اگرچه هنوز می توانیم آن را اضافه کنیم. برای مشاهده جزئیات می توانید دایره قرمز رنگ را در ستون وضعیت نگه دارید.
ستون کیفیت به ما در تصمیم گیری کمک می کند. از پنج پارامتر مهم CISMT تشکیل شده است.
- همبستگی (C): همبستگی خطی بین ستون داده و ستون هدف را اندازه گیری می کند.
- ID-ness (I): احتمال شباهت ستون به ID را اندازه گیری می کند.
- پایداری (S): نشان می دهد که تقریباً همه مقادیر یکسان هستند.
- Missing (M): اندازه گیری مقدار از دست رفته در ستون.
- Text-ness (T): احتمال شباهت ستون به متن آزاد را اندازه می گیرد.
نتیجه
پلتفرم های توسعه بدون کد می توانند کارهای داده کاوی را تا حد زیادی ساده کنند
Rapidminer یکی از ابزارهایی است که برای کارهای داده کاوی موثر بوده و در بسیاری از مواقع ایمن است.
Rapidminer همچنین شامل پیش پردازش داده ها و انتخاب الگوریتم است
در پایان کار، rapidminer تجسمهایی را برای ما ارائه میکند تا بینش را به دست آوریم.
تمام کارهای انجام شده در rapidminer در مقایسه با کدنویسی دستی بسیار آسان است.
منبع : rapidminer.com
←برای خرید لایسنس تبلو Tableau با تمام ویژگی ها کلیک کنید
←برای خرید کرک Tableau با تمام ویژگی ها کلیک کنید
مقاله های مرتبط:
1- تفاوت و مقایسه هوش تجاری (BI) و انبار داده
2-توسعه پایگاه داده استاندارد SQL Server
3-چرا Data Structures یا ساختارهای داده مهم هستند؟
4-چرا Data Structures یا ساختارهای داده مهم هستند؟
5-معرفی ابزارهای مشابه یا جایگزین RapidMiner
6-با IBM SPSS Modeler یک دانشمند داده شوید
8-IBM SPSS Modeler چیست و چه کاربردی دارد؟
9-معرفی ابزارهای مشابه یا جایگزین RapidMiner
10-معرفی انواع مدل های داده ای یا Data Model
11-10 بهترین ابزار داده کاوی (Data Mining) در سال 2022
12-معرفی ۱۰ ابزار برتر علم داده برای استفاده در سال 2024
13-توضیح و تفاوت های داده های سخت (Hard Data) در مقابل داده های نرم (Soft Data)
14-تحلیل داده های کسب و کار با هوش تجاری