طبقه بندی الگوریتم های یادگیری ماشین


اگر به حوزه یادگیری ماشینی علاقه دارید، باید بدانید که دانستن الگوریتم های یادگیری ماشین در این زمینه چقدر مهم و ضروری است. اگر می خواهید یادگیری ماشینی را یاد بگیرید، باید با الگوریتم های آن آشنا شوید. در ادامه اصلی ترین و مهم ترین الگوریتم های یادگیری ماشینی را برای شما آورده ایم تا بتوانید هر کدام را بهتر درک کنید.

تعریف الگوریتم های یادگیری ماشین

الگوریتم های یادگیری ماشینی برنامه هایی (ریاضی و منطقی) وجود دارند که خود را برای عملکرد بهتر تنظیم می کنند زیرا در معرض داده های بیشتری قرار می گیرند. بخش “یادگیری” یادگیری ماشینی به این معنی است که این برنامه ها روش پردازش داده ها را در طول زمان تغییر می دهند، همانطور که انسان ها روش پردازش داده ها را در حین یادگیری تغییر می دهند.

بنابراین، الگوریتم یادگیری ماشینی یا الگوریتم یادگیری ماشینی برنامه ای است که پارامترهای خود را بر اساس پیشنهادات عملکرد قبلی در یک مجموعه داده پیش بینی و بهبود می بخشد.

الگوریتم های یادگیری ماشین در حال حاضر در بسیاری از جنبه های زندگی حضور فعال دارند. از مطالبی که می توانید بخوانید تا نحوه خرید یا نحوه سفر.

به عنوان مثال، کشف تقلب را در نظر بگیرید. هر بار که شخصی چیزی را با استفاده از کارت اعتباری می‌خرد، الگوریتم‌های یادگیری ماشینی بلافاصله خرید شما را بررسی می‌کنند تا تشخیص دهند که آیا یک تراکنش تقلبی است یا خیر. آنها پیش‌بینی می‌کنند که آیا خریدی تقلبی است یا خیر، بر اساس سازگاری آن با ویژگی‌های خریدهای قبلی شما.

الگوریتم های یادگیری ماشین کاربردهای زیادی دارند. الگوریتم‌های یادگیری ماشینی در قلب موتورهای جستجوی تجاری قرار دارند، از لحظه‌ای که شروع به تایپ جستجو می‌کنید. علاوه بر این، موتورهای جستجو معمولاً از داده‌هایی در مورد نحوه تعامل شما با وب‌سایت استفاده می‌کنند، مثلاً روی چه صفحاتی کلیک می‌کنید، مدت زمانی که شخص صفحات را می‌خواند و غیره. آنها از این داده های قدیمی برای نشان دادن اطلاعات بهتر به شما استفاده می کنند.

اگر می‌خواهید قبل از دانستن الگوریتم‌های یادگیری ماشینی بیشتر در مورد یادگیری ماشین بدانید، به مقاله یادگیری ماشینی چیست مراجعه کنید.

طبقه بندی الگوریتم های یادگیری ماشین

الگوریتم های یادگیری ماشینی به طور کلی به دو دسته کنترل شده یا کنترل نشده تقسیم می شوند. الگوریتم های یادگیری نظارت شده دارای هر دو داده ورودی و خروجی برچسب و مشخص هستند و یادگیرنده باید تابعی را از ورودی ها و خروجی ها بیاموزد، در حالی که الگوریتم های بدون نظارت با داده هایی کار می کنند که نه طبقه بندی شده اند و نه برچسب گذاری شده اند. به عنوان مثال، یک الگوریتم بدون نظارت ممکن است داده های نامرتب را بر اساس شباهت ها و تفاوت ها گروه بندی کند.

با این حال، بسیاری از رویکردهای ML، از جمله یادگیری انتقالی و یادگیری فعال، به عنوان الگوریتم‌های نیمه نظارت شده تعریف می‌شوند.

یادگیری انتقالی از دانش به دست آمده از تکمیل یک کار برای حل یک مشکل متفاوت اما مرتبط استفاده می کند، در حالی که یادگیری فعال به الگوریتم اجازه می دهد تا برای اطلاعات بیشتر به کاربر یا منبع دیگری ضربه بزند. هر دو سیستم اغلب در شرایطی استفاده می شوند که داده های برچسب دار کمیاب هستند.

یادگیری تقویتی که گاهی به عنوان دسته چهارم در نظر گرفته می شود، مبتنی بر پاداش دادن به رفتارهای مطلوب یا تنبیه رفتارهای نامطلوب است. در واقع می توان گفت که یادگیری از طریق پاداش و تنبیه است.

به طور کلی الگوریتم های یادگیری ماشینی به ۴ نوع طبقه بندی می شوند:

  • تحت نظارت
  • یادگیری بدون نظارت
  • یادگیری نیمه نظارتی
  • یادگیری تقویتی

با این حال، این ۴ دسته بیشتر به انواع بیشتری تقسیم می شوند، در زیر لیست و خلاصه ای از محبوب ترین الگوریتم های یادگیری ماشین آورده شده است.

معروف ترین الگوریتم های یادگیری ماشین

  1. رگرسیون خطی

برای درک نحوه عملکرد این الگوریتم، به این فکر کنید که چگونه می توانید چوب های تصادفی را به ترتیب وزن مرتب کنید. شما نمی توانید هر چوب را وزن کنید. شما باید وزن آن را فقط با نگاه کردن به ارتفاع و قطر آن حدس بزنید (تحلیل بصری) و آنها را با استفاده از ترکیبی از این پارامترهای قابل مشاهده مرتب کنید. این مشکل عملکرد رگرسیون خطی در یادگیری ماشین است. توجه داشته باشید که وزن یک متغیر کوچک است. بنابراین متغیر وابسته در رگرسیون خطی کمی است.

  1. رگرسیون لجستیک

رگرسیون لجستیک یک تکنیک آماری برای نشان دادن تأثیر متغیرهای کمی یا کیفی بر روی یک متغیر وابسته دو بعدی (دو کلاسه) است. تحلیل رگرسیون لجستیک مشابه تحلیل رگرسیون خطی است، اما با این تفاوت که در رگرسیون خطی، متغیر وابسته یک متغیر کمی است، اما در رگرسیون لجستیک، متغیر وابسته یک متغیر کیفی و دو متغیره است. یعنی با عدد قابل بیان نیست.

در رگرسیون لجستیک، متغیرهای مستقل کیفی یا باید متغیرهای دو بعدی باشند یا به متغیرهای دو بعدی تبدیل شوند. متغیرهای وابسته دو متغیره یا دو متغیره مانند بیماری یا سلامتی، مرگ یا زندگی و اگر ۳ متغیر بیمار، سالم و در کما داشته باشیم باید متغیر سوم را به بیمار برچسب گذاری کنیم تا متغیرها دو متغیره شوند.

  1. درخت تصمیم

الگوریتم درخت تصمیم در یادگیری ماشینی یکی از محبوب ترین الگوریتم هایی است که امروزه مورد استفاده قرار می گیرد. الگوریتم درخت تصمیم یک الگوریتم یادگیری ماشینی نظارت شده است که برای طبقه بندی مسائل استفاده می شود. در این الگوریتم داده ها را بر اساس مهمترین ویژگی ها به دو یا چند مجموعه همگن تقسیم می کنیم.

  1. الگوریتم SVM (Support Vector Machine).

الگوریتم SVM یک روش طبقه‌بندی داده است که در آن داده‌های خام را به صورت نقاط در یک فضای n بعدی نشان می‌دهید که در آن n تعداد ویژگی‌هایی است که دارید. سپس هر تابع به یک مختصات خاص در صفحه مرتبط می شود و طبقه بندی داده ها را آسان تر می کند.

  1. الگوریتم ساده بیز

یک طبقه‌بندی کننده ساده بیز فرض می‌کند که وجود یک ویژگی خاص در یک کلاس با وجود هیچ ویژگی دیگری ارتباطی ندارد. حتی اگر این ویژگی ها به یکدیگر مرتبط باشند، طبقه بندی کننده Naive Bayes همه این ویژگی ها را به طور مستقل در هنگام محاسبه احتمال یک نمونه خاص در نظر می گیرد. ساخت یک مدل بیزی ساده برای مجموعه داده های بزرگ ساده و مفید است.

  1. الگوریتم KNN (K-Nearest Neighbors).

این الگوریتم را می توان برای مسائل طبقه بندی و رگرسیون اعمال کرد. ظاهراً در علم داده بیشتر برای حل مسائل طبقه بندی استفاده می شود. این الگوریتم یک الگوریتم ساده است که تمام نمونه های موجود را ذخیره می کند و هر نمونه جدید را با اکثریت آرا طبقه بندی می کند. سپس نمونه جدید به کلاسی که بیشترین اشتراک را با آن دارد، اختصاص داده می شود. یک تابع این اندازه گیری را انجام می دهد.

  1. الگوریتم K-Means

الگوریتم K-Means یک الگوریتم یادگیری بدون نظارت است که برای حل مسائل خوشه بندی در علم داده استفاده می شود. خوشه بندی K-Means یک روش کوانتیزاسیون برداری است که در اصل از پردازش سیگنال مشتق شده و برای تجزیه و تحلیل خوشه بندی در داده کاوی استفاده می شود. هدف الگوریتم K-Means گروه بندی k نمونه به n خوشه است که هر نمونه متعلق به خوشه ای است که نزدیک ترین میانگین به آن را دارد.

  1. الگوریتم جنگل تصادفی

جنگل تصادفی یک الگوریتم نظارت شده است که برای طبقه بندی و رگرسیون استفاده می شود. با این حال، عمدتا برای مشکلات طبقه بندی استفاده می شود. همانطور که می دانیم یک جنگل از درختان تشکیل شده است و درختان بیشتر به معنای جنگل مقاوم تر است. به همین ترتیب، الگوریتم جنگل تصادفی با استفاده از نمونه داده ها درخت های تصمیم را ایجاد می کند و در نهایت با رای دادن بهترین راه حل را انتخاب می کند.

  1. الگوریتم کاهش ابعاد

در دنیای امروز، حجم وسیعی از داده ها توسط شرکت ها، سازمان های دولتی و سازمان های تحقیقاتی ذخیره و تجزیه و تحلیل می شود. به عنوان یک دانشمند داده، می دانید که این داده های خام حاوی اطلاعات زیادی است – چالش های زیادی برای شناسایی الگوها و متغیرهای مهم. الگوریتم‌های کاهش ابعاد می‌توانند به شما در یافتن جزئیات مرتبط کمک کنند.

  1. الگوریتم تقویت گرادیان و الگوریتم AdaBoosting

اینها الگوریتم های تقویت کننده ای هستند که برای پیش بینی های با دقت بالا استفاده می شوند. Boosting یک الگوریتم یادگیری گروهی است که چندین تخمین‌گر و الگوریتم‌های پایه را برای بهبود پیش‌بینی‌های با دقت بالا ترکیب می‌کند.

نتیجه

اگر می خواهید شغلی در یادگیری ماشین داشته باشید، باید فوراً یادگیری و آموزش یادگیری ماشین را شروع کنید. دنیای یادگیری ماشینی در حال رشد و جذاب است، بنابراین هرچه زودتر در مورد مسائل مختلف یادگیری ماشین یاد بگیرید، زودتر می توانید راه حل هایی برای مشکلات پیچیده کسب و کار ارائه دهید. اما اگر در این زمینه باتجربه هستید و می خواهید شغل خود را ارتقا دهید، می توانید در بوت کمپ برنامه نویسی Mpsa شرکت کنید و به آموزش خود سرعت بخشیده و مسیر آموزشی خود را هموار کنید.

به این مقاله چه امتیازی میدهید؟