تغییر مقیاس ویژگی روشی است که برای نرمال کردن ( normalize ) محدوده متغیرهای مستقل یا ویژگی های داده ها استفاده می شود. در پردازش داده ، به نرمال سازی داده نیز معروف است و عموماً در مرحله پیش پردازش داده ها انجام می شود.
از آنجایی که دامنه مقادیر داده های خام پراکنده است، در برخی از الگوریتم های یادگیری ماشین - مانند خوشه بندی - ، توابع هدف بدون نرمال سازی به درستی کار نمی کنند. به عنوان مثال، بسیاری از طبقه بندی کننده ها فاصله بین دو نقطه را با فاصله اقلیدسی محاسبه می کنند. اگر یکی از ویژگی ها دارای طیف وسیعی از مقادیر باشد، فاصله توسط این ویژگی خاص کنترل می شود. بنابراین، محدوده همه ویژگی ها باید به گونه ای نرمال شود که هر ویژگی تقریباً متناسب با فاصله نهایی در طبقه بندی مشارکت کند.
دلیل دیگری که چرا تغییر مقیاس ویژگی اعمال می شود این است که کاهش گرادیان ( Gradient descent ) با تغییر مقیاس ویژگی بسیار سریعتر از بدون آن همگرا می شود. [ ۱]
همچنین اگر منظم سازی ( regularization ) به عنوان بخشی از تابع ضرر استفاده شود استفاده از تغییر مقیاس ویژگی مهم است. ( به طوری که ضرایب به طور مناسب تغییر کنند. )
تغییر مقیاس ساده ترین روش است و شامل تغییر مقیاس دامنه ویژگی ها برای مقیاس بندی محدوده در یا است. انتخاب محدوده هدف به ماهیت داده ها بستگی دارد. فرمول کلی برای تغییر مقیاس به به صورت زیر ارائه می شود: [ ۲]
که x مقدار اصلی است، x ′ مقدار نرمال شده است. برای مثال، فرض کنید که داده های وزن دانش آموزان را داریم، و وزن دانش آموزان به می رسد. برای تغییر مقیاس این داده ها، ابتدا از وزن هر دانش آموز 80 کم می کنیم و نتیجه را بر 40 ( تفاوت بین حداکثر و حداقل وزن ) تقسیم می کنیم.
برای تغییر مقیاس یک محدوده بین یک مجموعه دلخواه از مقادیر ، فرمول به صورت زیر می شود:
که a , b مقادیر کمینه و بیشینه هستند.
که x یک مقدار اصلی است، x ′ مقدار نرمال شده است، x ¯ = average ( x ) میانگین آن بردار ویژگی است. شکل دیگری از نرمال سازی میانگین وجود دارد که بر انحراف معیار تقسیم می شود که به آن استانداردسازی نیز می گویند.
در یادگیری ماشینی، ما می توانیم انواع مختلفی از داده ها را مدیریت کنیم، به عنوان مثال سیگنال های صوتی و مقادیر پیکسل برای داده های تصویر، و این داده ها می تواند شامل چند بعد باشد. استانداردسازی ویژگی باعث می شود که مقادیر هر ویژگی در داده ها دارای میانگین صفر ( zero - mean ) ( هنگام تفریق میانگین در عدد ) و واریانس واحد باشد. این روش به طور گسترده برای نرمال سازی در بسیاری از الگوریتم های یادگیری ماشین ( مانند ماشین های بردار پشتیبان ، رگرسیون لجستیک و شبکه های عصبی مصنوعی ) استفاده می شود. [ نیازمند منبع] روش کلی محاسبه، تعیین میانگین توزیع و انحراف استاندارد برای هر ویژگی است. سپس میانگین را از هر ویژگی کم می کنیم و مقادیر ( میانگین قبلاً کم شده ) هر ویژگی را بر انحراف معیار آن تقسیم می کنیم.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفاز آنجایی که دامنه مقادیر داده های خام پراکنده است، در برخی از الگوریتم های یادگیری ماشین - مانند خوشه بندی - ، توابع هدف بدون نرمال سازی به درستی کار نمی کنند. به عنوان مثال، بسیاری از طبقه بندی کننده ها فاصله بین دو نقطه را با فاصله اقلیدسی محاسبه می کنند. اگر یکی از ویژگی ها دارای طیف وسیعی از مقادیر باشد، فاصله توسط این ویژگی خاص کنترل می شود. بنابراین، محدوده همه ویژگی ها باید به گونه ای نرمال شود که هر ویژگی تقریباً متناسب با فاصله نهایی در طبقه بندی مشارکت کند.
دلیل دیگری که چرا تغییر مقیاس ویژگی اعمال می شود این است که کاهش گرادیان ( Gradient descent ) با تغییر مقیاس ویژگی بسیار سریعتر از بدون آن همگرا می شود. [ ۱]
همچنین اگر منظم سازی ( regularization ) به عنوان بخشی از تابع ضرر استفاده شود استفاده از تغییر مقیاس ویژگی مهم است. ( به طوری که ضرایب به طور مناسب تغییر کنند. )
تغییر مقیاس ساده ترین روش است و شامل تغییر مقیاس دامنه ویژگی ها برای مقیاس بندی محدوده در یا است. انتخاب محدوده هدف به ماهیت داده ها بستگی دارد. فرمول کلی برای تغییر مقیاس به به صورت زیر ارائه می شود: [ ۲]
که x مقدار اصلی است، x ′ مقدار نرمال شده است. برای مثال، فرض کنید که داده های وزن دانش آموزان را داریم، و وزن دانش آموزان به می رسد. برای تغییر مقیاس این داده ها، ابتدا از وزن هر دانش آموز 80 کم می کنیم و نتیجه را بر 40 ( تفاوت بین حداکثر و حداقل وزن ) تقسیم می کنیم.
برای تغییر مقیاس یک محدوده بین یک مجموعه دلخواه از مقادیر ، فرمول به صورت زیر می شود:
که a , b مقادیر کمینه و بیشینه هستند.
که x یک مقدار اصلی است، x ′ مقدار نرمال شده است، x ¯ = average ( x ) میانگین آن بردار ویژگی است. شکل دیگری از نرمال سازی میانگین وجود دارد که بر انحراف معیار تقسیم می شود که به آن استانداردسازی نیز می گویند.
در یادگیری ماشینی، ما می توانیم انواع مختلفی از داده ها را مدیریت کنیم، به عنوان مثال سیگنال های صوتی و مقادیر پیکسل برای داده های تصویر، و این داده ها می تواند شامل چند بعد باشد. استانداردسازی ویژگی باعث می شود که مقادیر هر ویژگی در داده ها دارای میانگین صفر ( zero - mean ) ( هنگام تفریق میانگین در عدد ) و واریانس واحد باشد. این روش به طور گسترده برای نرمال سازی در بسیاری از الگوریتم های یادگیری ماشین ( مانند ماشین های بردار پشتیبان ، رگرسیون لجستیک و شبکه های عصبی مصنوعی ) استفاده می شود. [ نیازمند منبع] روش کلی محاسبه، تعیین میانگین توزیع و انحراف استاندارد برای هر ویژگی است. سپس میانگین را از هر ویژگی کم می کنیم و مقادیر ( میانگین قبلاً کم شده ) هر ویژگی را بر انحراف معیار آن تقسیم می کنیم.
wiki: تغییر مقیاس ویژگی