یادگیری تفاوت زمانی ( به انگلیسی: Temporal difference learning ) یک روش پیش بینی است. این روش به صورت عمده برای حل مسائل یادگیری تقویتی مورد استفاده بود است. "روش تفاوت زمانی ترکیبی از ایده های مونت کارلو و برنامه ریزی پویا است. [ ۱] این روش مشابه روش مونت کارلو است چرا که یادگیری در آن با استفاده از نمونه برداری از محیط با توجه به یک یا چند سیاست خاص انجام می شود. روش تفاوت زمانی به این دلیل به تکنیک های برنامه ریزی پویا شباهت دارد که این روش تخمین کنونی را بر اساس تخمین های یادگیری شده ( فرایندی که به خودراه اندازه معروف است ) به دست می آورد. الگوریتم یادگیری تفاوت زمانی به مدل یاگیری تفاوت زمانی در حیوانات نیز مرتبط است.
به عنوان یک روش پیش بینی، یادگیری تفاوت زمانی این واقعیت را در نظر می گیرد که پیش بینی های آینده نیز معمولاً از جهاتی دارای همبستگی هستند. در روش های یادگیری مبتنی بر پیش بینی نظارتی، مأمور تنها از مقادیر دقیقاً مشاهده شده یاد می گیرد: یک پیش بینی انجام می شود، و زمانی که مشاهده ممکن باشد، پیش بینی به تطابق بهتری با مشاهده خواهد رسید. مطابق منبع یاد شده، [ ۲] ایده اساسی یادگیری تفاوت زمانی این است که پیش بینی ها با پیش بینی هایی دقیق تر دیگری از آینده تنظیم کنیم. همان گونه که از مثال زیر بر می آید ( برگرفته از منبع [ ۲] ) ، این رویه نوعی از فرایند خود راه اندازه است:
فرض کنید که می خواهید وضعیت هوای روز شنبه را پیش بینی کنید و مدلی دارید که هوای روز شنبه را با استفاده از وضعیت هوای داده شده برای تمام روزهای هفته، پیش بینی می کند. در شرایط عادی، باید تا شنبه صبر کنید تا بتوانید تمامی مدل های خود را تنظیم نمایید. با این وجود، زمانی که مثلاً جمعه است، می توانید ایده بسیار خوبی از این داشته باشید که هوای روز شنبه احتمالاً به چه صورتی خواهد بود و به همین صورت می توانید مثلاً مدل روز دوشنبه خود را قبل از این که شنبه برسد، تغییر دهید.
به بیان ریاضی، هم در رویکرد استاندارد و هم در رویکرد تفاوت زمانی، تلاش ما بر این است که تابع هزینه را که مرتبط با خطاهای ما در پیش بینی یک یا چند متغیر تصادفی =z ( که z همان متغیر مشاهده شده است ) و در رویکرد TD از یک مدل استفاده می نماییم. برای حالت خاص در یادگیری تقویتی، که کاربرد عمده روش های تفاوت زمانی است، z همان بازگشت کل و [E[z با استفاده از معادله بلمن بازگشت داده شده است.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفبه عنوان یک روش پیش بینی، یادگیری تفاوت زمانی این واقعیت را در نظر می گیرد که پیش بینی های آینده نیز معمولاً از جهاتی دارای همبستگی هستند. در روش های یادگیری مبتنی بر پیش بینی نظارتی، مأمور تنها از مقادیر دقیقاً مشاهده شده یاد می گیرد: یک پیش بینی انجام می شود، و زمانی که مشاهده ممکن باشد، پیش بینی به تطابق بهتری با مشاهده خواهد رسید. مطابق منبع یاد شده، [ ۲] ایده اساسی یادگیری تفاوت زمانی این است که پیش بینی ها با پیش بینی هایی دقیق تر دیگری از آینده تنظیم کنیم. همان گونه که از مثال زیر بر می آید ( برگرفته از منبع [ ۲] ) ، این رویه نوعی از فرایند خود راه اندازه است:
فرض کنید که می خواهید وضعیت هوای روز شنبه را پیش بینی کنید و مدلی دارید که هوای روز شنبه را با استفاده از وضعیت هوای داده شده برای تمام روزهای هفته، پیش بینی می کند. در شرایط عادی، باید تا شنبه صبر کنید تا بتوانید تمامی مدل های خود را تنظیم نمایید. با این وجود، زمانی که مثلاً جمعه است، می توانید ایده بسیار خوبی از این داشته باشید که هوای روز شنبه احتمالاً به چه صورتی خواهد بود و به همین صورت می توانید مثلاً مدل روز دوشنبه خود را قبل از این که شنبه برسد، تغییر دهید.
به بیان ریاضی، هم در رویکرد استاندارد و هم در رویکرد تفاوت زمانی، تلاش ما بر این است که تابع هزینه را که مرتبط با خطاهای ما در پیش بینی یک یا چند متغیر تصادفی =z ( که z همان متغیر مشاهده شده است ) و در رویکرد TD از یک مدل استفاده می نماییم. برای حالت خاص در یادگیری تقویتی، که کاربرد عمده روش های تفاوت زمانی است، z همان بازگشت کل و [E[z با استفاده از معادله بلمن بازگشت داده شده است.
wiki: یادگیری تفاوت زمانی