یادگیری نظارتشده (Supervised Learning) و یادگیری بدون نظارت (Unsupervised Learning)
تفاوت بین
یادگیری نظارتشده (Supervised Learning)
و
یادگیری بدون نظارت (Unsupervised Learning)
چیست؟
٥ پاسخ
بزرگترین تفاوت بین یادگیری تحت نظارت و بدون نظارت،در نوع داده استفاده شده است. یادگیری نظارت شده از داده های آموزشی برچسب گذاری شده استفاده می کند و یادگیری بدون نظارت این کار را نمی کند. سادهتر، مدلهای یادگیری تحت نظارت، درک پایهای از مقادیر خروجی صحیح دارند.
با یادگیری نظارت شده، یک الگوریتم از مجموعه داده های نمونه استفاده می کند تا خود را برای پیش بینی آموزش آماده کند و به طور مکرر خود را برای به حداقل رساندن خطا تنظیم کند. این مجموعه دادهها برای شرائط یادگیری برچسبگذاری میشوند و مقادیر خروجی مورد نظر را ارائه میکنند تا یک مدل بتواند پاسخ «درست» بدهد.
در مقابل، الگوریتم های یادگیری بدون نظارت به طور مستقل برای یادگیری ساختار ذاتی داده ها بدون هیچ راهنمایی یا دستورالعمل خاصی کار می کنند. شما به سادگی دادههای ورودی بدون برچسب را ارائه میدهید و به الگوریتم اجازه میدهید هر گونه الگوی طبیعی در مجموعه داده را شناسایی کند.
در حالی که نوع داده ساده ترین راه برای تمایز بین این دو رویکرد است، اما هر کدام اهداف و کاربردهای متفاوتی دارند که آنها را از یکدیگر متمایز می کند.
مدل های یادگیری نظارت شده بیشتر بر یادگیری روابط بین داده های ورودی و خروجی متمرکز هستند. به عنوان مثال، یک مدل نظارت شده ممکن است برای پیش بینی زمان پرواز بر اساس پارامترهای خاص مانند شرایط آب و هوایی، ترافیک فرودگاه، ساعات اوج پرواز و موارد دیگر استفاده شود.
از سوی دیگر، یادگیری بدون نظارت برای کشف الگوها و روابط جدید در داده های خام و بدون برچسب مفیدتر است. به عنوان مثال، مدلهای یادگیری بدون نظارت ممکن است برای شناسایی گروههای خریدارانی که محصولات مرتبط را با هم خریداری میکنند، استفاده شود تا پیشنهاداتی برای موارد دیگر برای پیشنهاد به مشتریان مشابه ارائه دهد.
در نتیجه، یادگیری ماشینی تحت نظارت و بدون نظارت برای حل انواع مختلف مشکلات به کار گرفته می شود. یادگیری ماشینی تحت نظارت برای کارهای طبقه بندی و رگرسیون، مانند پیش بینی آب و هوا، تغییرات قیمت، تجزیه و تحلیل احساسات و تشخیص هرزنامه مناسب است. در حالی که یادگیری بدون نظارت بیشتر برای تجزیه و تحلیل داده های اکتشافی و کارهای خوشه بندی، مانند تشخیص ناهنجاری، تجسم داده های بزرگ، یا تقسیم بندی مشتری استفاده می شود.
مرجع انگلیسی: سایت 👇
https://cloud.google.com/discover/supervised-vs-unsupervised-learningیادگیری نظارت شده در مقابل یادگیری بدون نظارت: کدام یک برای کار موردنظر شما بهتر است؟
انتخاب یک رویکرد مناسب برای تسک موردنظر، بستگی به ساختار و حجم دادههای شما و همچنین مورد استفاده دارد. برای تصمیم گیری در مورد اینکه چه نوع رویکرد یادگیری ماشین، یعنی یادگیری نظارت شده یا بدون نظارت را برای کارتان انتخاب کنید، بهتر است موارد زیر را در نظر داشته باشید:
داده های ورودی خود را ارزیابی کنید!
آیا داده های شما برچسبدار (Labeled Data) هستند یا بدون برچسب؟ آیا کارشناسانی در اختیار دارید که بتوانند در صورت نیاز دادهها را برایتان برچسبگذاری کنند؟
اهداف خود را مشخص کنید!
آیا یک مسئله تکرار شونده و کاملاً تعریف شده برای بررسی دارید؟ یا اینکه الگوریتم نیاز به پیشبینی مسائل جدید دارد؟
گزینههای خود را برای الگوریتمها مرور کنید!
آیا الگوریتمهایی با همان ابعاد مورد نیاز شما (یعنی تعداد characteristic feature, attribute و) وجود دارد؟ آیا این الگوریتمها میتوانند حجم و ساختار داده شما را پشتیبانی کنند؟
به طور کلی، طبقهبندی کلان دادهها یا Bigdata میتواند یک چالش واقعی در یادگیری نظارت شده باشد، اما از سوی دیگر، نتایج آن بسیار دقیق و قابل اعتماد هستند. در مقابل، یادگیری بدون نظارت میتواند حجم زیادی از دادهها را به شکل بلادرنگ (Real-time) مدیریت کند. اما، عدم شفافیت در مورد نحوه خوشهبندی (Clustering) دادهها و خطر نتایج نادرست در این نوع الگوریتم وجود دارد. به همین دلیل است که نوع دیگری از یادگیری ماشین به نام یادگیری نیمه نظارتی یا semi-supervised learning هم وجود دارد.
یادگیری نیمهنظارتی، ترکیبی از مزایای دو نوع یادگیری قبلی
اگر نمی توانید در مورد استفاده از یادگیری نظارت شده یا بدون نظارت تصمیم بگیرید، یادگیری نیمه نظارت شده یک راهحل خوب است که در آن از یک مجموعه داده آموزشی با دادههای برچسب دار و بدون برچسب استفاده میکنید. این نوع یادگیری به ویژه زمانی مفید است که استخراج فیچرهای مرتبط از دادهها دشوار است و حجم داده زیادی دارید. یادگیری نیمه نظارتی برای تصاویر پزشکی ایده آل است، زیرا در آن، مقدار کمی از دادههای آموزشی میتواند منجر به بهبود قابل توجهی در دقت مدل شود. برای مثال، یک رادیولوژیست میتواند زیرمجموعه کوچکی از سی تی اسکنها را برای تومورها یا بیماریهای دیگر برچسبگذاری کند تا دستگاه بتواند با دقت بیشتری پیشبینی کند که کدام بیماران ممکن است به مراقبت پزشکی بیشتری نیاز داشته باشند.
سایر تفاوتهای کلیدی بین یادگیری نظارتشده و بدون نظارت
اهداف
در یادگیری نظارتشده (Supervised Learning)، هدف پیشبینی نتایج برای دادههای جدید است و شما از قبل از نوع نتایجی که باید انتظار داشته باشید اطلاع دارید. اما در یک الگوریتم یادگیری بدون نظارت(Unsupervised Learning) ، هدف این است که از حجم زیادی از دادههای جدید بینش به دست آوریم. در این حالت، الگوریتم خودش تعیین میکند که چه چیزی در مجموعه داده موردنظر متفاوت یا جالب است و چه الگوهایی در آن وجود دارد که باید مورد توجه قرار گیرد.
کاربردها
به طور کلی یادگیری نظارت شده و یادگیری بدون ناظر با توجه به نوع یادگیری که دارند، کاربردهای متفاوتی هم دارند. به طور مثال، مدلهای یادگیری نظارتشده برای تشخیص هرزنامه (Spam filtering)، تجزیه و تحلیل احساسات(Sentiment Analysis)، پیش بینی آب و هوا و پیش بینی قیمت محصولات مختلف و موارد دیگر ایده آل هستند. در مقابل، یادگیری بدون نظارت برای تشخیص ناهنجاری (Anomaly Detection)، موتورهای توصیهگر، ویژگیهای مشتری و تصویربرداری پزشکی مناسب است.
پیچیدگی
تفاوت دیگری که بین یادگیری بدون نظارت و نظارت شده وجود دارد، میزان پیچیدگی آنهاست. یادگیری نظارت شده روشی ساده برای یادگیری ماشین (Machine Learning) است که معمولاً از طریق استفاده از ابزارهایی مانند زبانهای برنامهنویسی R یا Python محاسبه میشود. در یادگیری بدون نظارت، به ابزارهای قدرتمندی برای کار با مقادیر زیادی از دادههای طبقه بندی نشده یا بدون برچسب نیاز داریم. مدلهای یادگیری بدون نظارت از نظر محاسباتی پیچیدهتر هستند، زیرا به مجموعه آموزشی بزرگی برای تولید نتایج مورد نظر نیاز دارند.
اشکالات
هر دو نوع یادگیری ماشین، چه نظارتشده و چه بدون نظارت، با وجود جنبههای مثبت و کارایی، نکات منفی مختص به خود را نیز دارند. به طور مثال، آموزش مدلهای یادگیری تحت نظارت ممکن است زمانبر باشد و برچسبهای متغیرهای ورودی و خروجی نیاز به تخصص انسانی دارد. در همین حال، روشهای یادگیری بدون نظارت میتوانند نتایج بسیار نادرستی داشته باشند، مگر اینکه مداخله انسانی برای اعتبارسنجی متغیرهای خروجی داشته باشیم تا بتوانیم از درستی خروجیهای مدل، اطمینان حاصل کنیم.
حال که با مفهوم یادگیری بدون ناظر و تفاوت آن با یادگیری باناظر آشنا شدیم. اکنون لازم است ببینیم یادگیری بدون ناظر چه وظایفی را دارد و هر وظیفه از چه الگوریتمهایی استفاده میکند.
مزایای استفاده از یادگیری بدون ناظر
مزایای استفاده از یادگیری بدون موارد را میتوان بهصورت کلی اینطور برشمرد:
یادگیری ماشین بدون ناظر همه نوع الگوی ناشناخته را در دادهها پیدا میکند؛
روشهای بدون ناظر به ما در یافتن ویژگیهایی که میتوانند برای دستهبندی دادهها مفید باشند کمک میکند؛
یادگیری بدون ناظر در لحظه و بهصورت بیدرنگ (Real-time) انجام میشود؛ بنابراین تمامی دادههای ورودی در حین یادگیری تجزیهوتحلیل و برچسبگذاری میشوند؛
یافتن دادههای بدون برچسب راحتتر از دادههای برچسبدار است که به مداخلهی انسانی نیاز دارند.
معایب استفاده از یادگیری بدون ناظر
بهصورت کلی معایب استفاده از یادگیری بدون ناظر از این قرار است:
نمیتوان اطلاعات زیادی دربارهی نحوهی مرتبسازی داده و طبقهبندی آنها در خروجی به دست آورد؛ زیرا یافتن الگوهای پنهان در داده و برچسبگذاری آنها با ماشین انجام میشود؛
دقت خروجی یادگیری بدون ناظر کم است؛ زیرا کار برچسبگذاری داده را خود ماشین، بهتنهایی، انجام میدهد و دخالت انسانی در آن وجود ندارد؛
هیچ دانش قبلی در روش یادگیری ماشین بدون ناظر وجود ندارد؛ علاوهبراین، تعداد کلاسها نیز مشخص نیست. این امر به ناتوانی در تعیین نتایج حاصل از تجزیهوتحلیل میانجامد.
تفاوت اصلی بین یادگیری نظارتشده و یادگیری بدون نظارت
تمایز اصلی بین این دو رویکرد یادگیری ماشین، استفاده از مجموعه دادههای برچسبدار است. به بیان ساده، یادگیری نظارت شده (Supervised Learning) از دادههای ورودی و خروجی برچسب دار استفاده میکند، در حالی که یادگیری بدون نظارت (Unsupervised Learning) این کار را نمیکند.
در یادگیری نظارت شده، الگوریتم از مجموعه دادههای آموزشی که دارای برچسب هستند، یعنی خروجی آنها مشخص است، یاد میگیرد. به این شکل که پیشبینیهای مکرر بر روی دادهها انجام داده و سعی میکند با مقایسه خروجی خود با خروجی واقعی، پاسخ صحیح را یاد بگیرد. مدلهای یادگیری نظارت شده نسبت به مدلهای یادگیری بدون نظارت دقیقتر هستند، اما برای برچسبگذاری مناسب دادهها به مداخله انسانی نیاز دارند. به عنوان مثال، یک مدل یادگیری نظارت شده میتواند مدت زمان رفت و آمد شما را بر اساس زمان روز، شرایط آب و هوایی و غیره پیش بینی کند. اما ابتدا باید آن را آموزش دهید تا بداند که هوای بارانی زمان رانندگی را افزایش میدهد.
در مقابل، مدلهای یادگیری بدون نظارت، به تنهایی برای کشف ساختار ذاتی دادههای بدون برچسب کار میکنند. توجه داشته باشید که آنها هنوز به مداخله انسانی برای اعتبارسنجی متغیرهای خروجی نیاز دارند. به عنوان مثال، یک مدل یادگیری بدون نظارت میتواند تشخیص دهد که خریداران آنلاین اغلب گروههایی از محصولات را به طور همزمان باهم خریداری میکنند. با این حال، یک تحلیلگر داده باید در نهایت تأیید کند که آیا منطقی است که موتور توصیهگر به طور مثال، لباسهای کودک را با پوشک، سس کچاپ و فنجان چای دستهبندی کند یا خیر. این تفاوت، یعنی دادههای برچسبدار مهمترین و اصلیترین تفاوت بین یادگیری بدون نظارت و نظارتشده است.