q learning

الگوریتم Q - learning، الگوریتم بدون سیاست عمل می کند یا همان طور که در بخش قبل گفته شد یک الگوریتم off - policy است. این الگوریتم تابع ارزش را یادمی گیرد؛ به این معنی که انجام عمل a در حالت s چقدر نتایج مثبت دارد. روند کار در الگوریتم Q - learning شامل مراحل زیر می شود
... [مشاهده متن کامل]

جدول Q یا Q - table ایجاد می شود. در این جدول، تمام حالت ها، تمام عمل های ممکن و پاداش های مورد انتظار آمده است. کیو - یادگیری
یک عمل انتخاب می شود.
پاداش محاسبه می شود.
جدول Q - table به روز می شود.

منابع• https://www.datacamp.com/tutorial/introduction-q-learning-beginner-tutorial

+ عکس و لینک

پیشنهاد کاربران