معرفی نرم افزار Rapidminer و کاربردهای آن

Rapidminer یک پلت فرم جامع علم داده با طراحی گردش کار بصری و اتوماسیون کامل است. این بدان معناست که ما نیازی به کدنویسی برای وظایف داده کاوی نداریم. Rapidminer یکی از محبوب ترین ابزارهای علم داده است.

این رابط کاربری گرافیکی فرآیند خالی در rapidminer است. دارای مخزنی است که مجموعه داده ما را نگه می دارد. ما می توانیم مجموعه داده های خود را وارد کنیم. همچنین مجموعه داده های عمومی زیادی را ارائه می دهد که می توانیم آنها را امتحان کنیم. ما همچنین می توانیم با اتصال پایگاه داده کار کنیم.

در زیر پنجره مخزن، یک اپراتور دارد. اپراتورها شامل همه چیزهایی هستند که برای ایجاد یک فرآیند داده کاوی نیاز داریم، مانند دسترسی به داده، پاکسازی داده ها، مدل سازی، اعتبارسنجی و امتیازدهی.

در سمت راست پنجره پارامترها قرار دارد. پنجره پارامترها برای تنظیم عملگرها است.

Rapidminer را می توان از وب سایت رسمی آنها (https://rapidminer.com/) دانلود کرد. این یک نسخه رایگان با عملکرد محدود است. نسخه رایگان شامل 10000 ردیف داده و 1 پردازشگر منطقی است.

آنها همچنین یک برنامه آموزشی ارائه می دهند. به طوری که دانشجویان، اساتید، مربیان و پژوهشگران می توانند به صورت رایگان مجوز آموزشی رایگان داشته باشند.

مطالعه موردی در Rapidminer

بیایید با Rapidminer به تمرین برویم. در این مورد مطالعه، ما یک فرآیند داده کاوی را با استفاده از مجموعه داده داخلی، با استفاده از روش طبقه‌بندی برای مقایسه دقت الگوریتم‌های مختلف انجام خواهیم داد.

انتخاب فعالیت

این اولین رابطی است که با راه اندازی برنامه rapidminer ظاهر می شود. فرآیند خالی ساختن از ابتدا است. با کشیدن و رها کردن اپراتورها به فیلد فرآیند به صورت دستی کار می کند. اگر با این برنامه در سطح متوسط هستید، این منویی است که می خواهید انتخاب کنید.

Turbo Prep فقط برای آماده سازی مجموعه داده است. این شامل تبدیل، تمیز کردن، و ترکیب مجموعه داده ها است. Auto Model جادوگر را برای انجام وظایف داده کاوی به ما می آورد. درست مثل نصب یک برنامه در ویندوز. Next-Next و Finish.

همچنین قالب های زیادی برای شروع دارد. ما مدل خودکار را برای این مورد مطالعه انتخاب خواهیم کرد.

وارد کردن مجموعه داده

در اینجا می توانیم مجموعه داده ای را که استفاده خواهیم کرد انتخاب کنیم. ما می توانیم مجموعه داده های خود را وارد کنیم یا از مجموعه داده های موجود ارائه شده توسط rapidminer انتخاب کنیم. دکمه Import-New-Data در زیر لیست داده های انتخاب شده برای وارد کردن مجموعه داده های خودمان است.

برای استفاده از مجموعه داده موجود از Rapidminer، روی پوشه نمونه کلیک کنید، سپس پوشه داده را گسترش دهید، و بیایید مجموعه داده Titanic را برای مورد مطالعه خود انتخاب کنیم و روی دکمه سبز رنگ Next کلیک کنیم.

توجه داشته باشید که در نوار پیشرفت تنها شش مرحله آسان برای انجام یک کار داده کاوی با rapidminer وجود دارد.

انتخاب روش داده یابی

جزئیات یک مجموعه داده انتخابی نمایش داده می شود. تایتانیک مجموعه داده ای برای پیش بینی زنده ماندن مسافر در کشتی تایتانیک از روی پارامترهای ورودی موجود است. یازده پارامتر ورودی (x) و یک برچسب (y) از این مجموعه داده وجود دارد.

سه عمل وجود دارد که می توانیم برای مجموعه داده خود انتخاب کنیم. پیش بینی، خوشه و پرت. دکمه Outliers به ما کمک می کند تا نقاط پرت را در داده های خود تشخیص دهیم. خوشه ها به ما کمک می کنند تا گروه های مشترک را در داده هایمان شناسایی کنیم. Predict داده ها را از پارامتر ورودی داده شده طبقه بندی می کند.

در اینجا می توانیم پارامتر ورودی مجموعه داده خود را مشاهده کنیم. می بینیم که مجموعه داده تایتانیک هم از داده های دسته بندی و هم از داده های عددی تشکیل شده است. برچسب هدف به صورت قطعی، بله یا خیر است.

برای انجام طبقه بندی، دکمه پیش بینی را انتخاب کنید، ستون Survived را به عنوان برچسب یا هدف طبقه بندی انتخاب کنید و روی دکمه Next کلیک کنید.

تعادل داده ها

پس از انتخاب روش داده کاوی و انتخاب ستون هدف، تراز داده در نموداری به ما ارائه می شود. ببینید که داده های خیر بیشتر از داده های بله باشد. این وضعیت در واقعیت بسیار رایج است. این نسبت حدود 60:40 است که هنوز قابل قبول است.

وقتی نسبت بالاتر از 70:30 است باید نگران باشیم. یک کلاس بسیار نامتعادل منجر به پیش بینی نامتعادل می شود. طبقه بندی معمولاً برای طبقه اکثریت پیش بینی می شود.

انتخاب ورودی

در این بخش می‌توانیم ستون‌ها را از پارامترهای ورودی حذف کنیم. به طور پیش فرض تمام ستون گنجانده شده است. Rapidminer توصیه می کند که کدام ستون ها باید گنجانده یا حذف شوند.

توجه داشته باشید که سه ردیف اول به طور پیش فرض حذف شده اند. این اتفاق می افتد زیرا وضعیت قرمز است. وضعیت قرمز به طور خودکار توسط rapidminer حذف می شود، اگرچه هنوز می توانیم آن را اضافه کنیم. برای مشاهده جزئیات می توانید دایره قرمز رنگ را در ستون وضعیت نگه دارید.