یادگیری ماشین برای همه (۶)

  • یوسف مهرداد

۱-۱-۱-طبقه‌بندی (Classification)
تعریف:‌ طبقه‌بندی عبارت است از تقسیم اشیاء بر اساس یکی از خصیصه‌های (attribute) از پیش تعیین‌شده. برای نمونه تقسیم جوراب‌ها بر اساس رنگ آنها، تقسیم اسناد و مدارک بر اساس زبان نوشتاری یا تقسیم آهنگ‌ها بر اساس ژانر (genre) آنها
کاربردها:
– شناسایی و فیلتر هرزنامه‌ (Spam filtering)
– تشخیص زبان (Language detection)
– پیدا کردن اسناد مشابه (A search of similar documents)
–تحلیل احساسات (Sentiment analysis)
– شناسایی حروف و اعداد دست‌نویس (Recognition of handwritten characters and numbers)
– تشخیص تقلب (Fraud detection)

الگوریتم‌های محبوب:
– بیز ساده (Naive Bayes)
درخت تصمیم (Decision Tree)
رگرسیون لجستیک (Logistic Regression)
کی-نزدیکترین همسایه (K-Nearest Neighbors یا K-NN)
ماشین بردار پشتیبان (Support Vector Machine یا SVM)

از اینجا به بعد می‌توانید با اطلاعات خود در مورد این بخش‌ها اظهار نظر کنید. اگر دوست داشتید می‌توانید نمونه‌ها و مثال‌های خود را درباره‌ی هر یک از کارها و وظایف (task) یادگیری ماشین بیان کنید. این بخش بر اساس تجربیات شخصی‌ام نوشته شده است.

یادگیری ماشین معمولا درباره طبقه‌بندی موضوعات است. در طبقه‌بندی، ماشین مانند کودکی است که در حال یادگیری مرتب کردن اسباب بازی‌های خود است: این یه رباته، این هم یه ماشینه، (با دیدن ماشین بدون راننده) این هم یه … این چیه؟ … اوه! اوه! صبر کنید. اشتباهه! اشتباهه!
در طبقه‌بندی، شما همواره به یک معلم نیاز دارید. داده‌ها‌ باید با ویژگی‌ها (features) برچسب‌گذاری شوند تا ماشین بتواند دسته‌ها (class) را بر اساس آنها تعیین کند. همه چیز را می‌توان طبقه‌بندی کرد: طبقه‌بندی کاربران را بر اساس علایق (مانند کارکرد فیدهای الگوریتمی) (مترجم. فیدهای الگوریتمی یا algorithmic feed، الگوریتم‌های شبکه‌های اجتماعی‌اند که مطالب مورد علاقه‌ی کاربر را پیش‌بینی می‌کنند. به عبارت دیگر به جای نمایش پست‌های جدید به ترتیب زمان انتشار آنها، شبکه اجتماعی مطالبی را به کاربر نشان می‌دهد که بر اساس علایق وی پیش‌بینی و انتخاب کرده است) ، طبقه‌بندی مقالات بر اساس زبان و موضوع (topic) (که برای موتورهای جستجو با اهمیت است) ، طبقه‌بندی موسیقی مبتنی بر ژانر (مانند لیست پخش Spotify) و حتی طبقه‌بندی ایمیل‌های شما.
در شناسایی و فیلتر هرزنامه‌ها از الگوریتم بیز ساده (Naive Bayes ) به شکل گسترده‌ای استفاده شده است. ماشین تعداد تکرار نام یک واژه غیرمجاز را در هرزنامه‌ها و ایمیل‌های عادی می‌شمارد و احتمال (probability) آنها را حساب می‌کند. سپس با استفاده از معادله بیز آنها را ضرب و جمع انجام می‌دهد و تعیین می‌کند که پیام دریافتی هرزنامه است یا یک پیام عادی. خوب تمام شد و ما به یک مدل یادگیری ماشین دست پیدا کردیم (مترجم. اساس معادله بیز، احتمال شرطی است که در آن از داده‌هایی مانند احتمال وجود یک کلمه در پیام‌های عادی و در هرزنامه‌ها و هم‌چنین احتمال اینکه یک پیام، هرزنامه باشد یا پیام عادی استفاده می‌شود).

بعدها ارسال‌کنندگان هرزنامه یاد گرفتند که چگونه با افزودن تعداد زیادی کلمه‌ «خوب» در پایان ایمیل، فیلترهای بیز رو به رو شوند. به کنایه به این روش، مسمومیت بیز (Bayesian poisoning) گفته می‌شود. بیز ساده به عنوان ظریف‌ترین و از نظر کاربردی اولین الگوریتم در تاریخ ثبت شد. اما اکنون از الگوریتم های دیگر برای شناسایی و فیلتر هرزنامه‌ها استفاده می‌شود.

مترجم: خانم سپیده مشایخی

گزیده:
بهترین شطرنج‌بازان جهان، نه رایانه‌ها هستند و نه انسان‌ها، بلکه انسان‌هایی هستند که با رایانه‌ها کار می‌کنند.
جان بروکمن
منبع: کتاب تراوش‌های ذهنی، ۲۵ شیوه نگرش به هوش مصنوعی

https://bibalan.com/?p=4027
یوسف مهرداد

یوسف مهرداد


کانال تلگرام

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

برای خروج از جستجو کلید ESC را بفشارید