در کاربردهای یادگیری نظارت شده در یادگیری ماشینی، خطای تعمیم[ ۱] ( به انگلیسی: Generalization error ) معیاری برای ارزیابی میزان دقت یک الگوریتم در پیش بینی داده های از پیش دیده نشده است. به دلیل این که الگوریتم های یادگیری توسط نمونه های محدودی ارزیابی می شوند، ارزیابی این الگوریتم ها به خطای نمونه گیری حساس است. در نتیجه، معیارهای پیش بینی با توجه به داده های کنونی ممکن است اطلاعات جدیدی در مورد توانایی پیش بینی در داده های جدید ارائه نکند. با اجتناب از بیش برازش می توان خطای تعمیم را کاهش داد. عملکرد یک الگوریتم یادگیری ماشین با تجسم نمودارهایی به نام منحنی فراگیری انجام می پذیرد که خطای تعمیم را در فرایند یادگیری تخمین می زنند.
هدف در یک مسئلهٔ یادگیری، یافتن تابع f n ( x → ) است که با توجه به دادهٔ ورودی x → ، خروجی y را پیش بینی می کند. زیرنویس n نشان می دهد که تابع f n براساس مجموعه ای شامل n داده ساخته شده است. خطای تعمیم، I برای تابع f ، روی تمام مقادیر x → و y برابر است با:[ ۲]
I = ∫ X × Y V ( f ( x → ) , y ) ρ ( x → , y ) d x → d y ,
که در آن V ، تابع هزینه و ρ ( x → , y ) ، توزیع احتمال توأم برای x → و y است.
بدون دانستن توزیع احتمال توأم، ρ محاسبهٔ مقدار I غیرممکن است. در عوض، می توانیم خطا را روی داده های نمونه محاسبه کنیم که به آن خطای تجربی می گویند. خطای تجربی با دانستن n داده برابر است با:
I n = 1 n ∑ i = 1 n V ( f ( x → i ) , y i )
و یک الگوریتم تعمیم پذیر خواهد بود اگر:
lim n → ∞ I − I n = 0
خطای تعمیم I ، برای یک تابع وابسته به دادهٔ f n که توسط یک الگوریتم یادگیری بر اساس نمونه محاسبه شده است، از اهمیت زیادی برخوردار است. با توجه به این که محاسبهٔ مستقیم I نیازمند دانستن توزیع احتمال است که ناشناخته است، هدف بسیاری از مسائل در نظریه یادگیری آماری محدود کردن یا مشخص کردن تفاوت خطای تعمیم و خطای تجربی است:
P G = P ( I − I n ≤ ϵ ) ≥ 1 − δ n
در نتیجه، هدف مشخص کردن احتمال 1 − δ n است که بتوانیم خطای تعمیم را، با جمع خطای تجربی و یک کران خطا ϵ ( در حالت کلی وابسته به δ و n ) محدود کنیم. در بسیاری از الگوریتم ها، نشان داده شده است که یک الگوریتم، در صورتی که معیارهای ثبات خاصی را برآورده کند، دارای مرزهای تعمیم است. به طور خاص، اگر الگوریتمی متقارن باشد ( ترتیب ورودی ها بر نتیجه تأثیری نگذارد ) ، تابع هزینهٔ محدودی داشته باشد و دو شرط پایداری را برآورده کند، تعمیم می یابد. این شرایط را می توان به صورت زیر بیان کرد:
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفهدف در یک مسئلهٔ یادگیری، یافتن تابع f n ( x → ) است که با توجه به دادهٔ ورودی x → ، خروجی y را پیش بینی می کند. زیرنویس n نشان می دهد که تابع f n براساس مجموعه ای شامل n داده ساخته شده است. خطای تعمیم، I برای تابع f ، روی تمام مقادیر x → و y برابر است با:[ ۲]
I = ∫ X × Y V ( f ( x → ) , y ) ρ ( x → , y ) d x → d y ,
که در آن V ، تابع هزینه و ρ ( x → , y ) ، توزیع احتمال توأم برای x → و y است.
بدون دانستن توزیع احتمال توأم، ρ محاسبهٔ مقدار I غیرممکن است. در عوض، می توانیم خطا را روی داده های نمونه محاسبه کنیم که به آن خطای تجربی می گویند. خطای تجربی با دانستن n داده برابر است با:
I n = 1 n ∑ i = 1 n V ( f ( x → i ) , y i )
و یک الگوریتم تعمیم پذیر خواهد بود اگر:
lim n → ∞ I − I n = 0
خطای تعمیم I ، برای یک تابع وابسته به دادهٔ f n که توسط یک الگوریتم یادگیری بر اساس نمونه محاسبه شده است، از اهمیت زیادی برخوردار است. با توجه به این که محاسبهٔ مستقیم I نیازمند دانستن توزیع احتمال است که ناشناخته است، هدف بسیاری از مسائل در نظریه یادگیری آماری محدود کردن یا مشخص کردن تفاوت خطای تعمیم و خطای تجربی است:
P G = P ( I − I n ≤ ϵ ) ≥ 1 − δ n
در نتیجه، هدف مشخص کردن احتمال 1 − δ n است که بتوانیم خطای تعمیم را، با جمع خطای تجربی و یک کران خطا ϵ ( در حالت کلی وابسته به δ و n ) محدود کنیم. در بسیاری از الگوریتم ها، نشان داده شده است که یک الگوریتم، در صورتی که معیارهای ثبات خاصی را برآورده کند، دارای مرزهای تعمیم است. به طور خاص، اگر الگوریتمی متقارن باشد ( ترتیب ورودی ها بر نتیجه تأثیری نگذارد ) ، تابع هزینهٔ محدودی داشته باشد و دو شرط پایداری را برآورده کند، تعمیم می یابد. این شرایط را می توان به صورت زیر بیان کرد:
wiki: خطای تعمیم