الگوریتم Q - learning، الگوریتم بدون سیاست عمل می کند یا همان طور که در بخش قبل گفته شد یک الگوریتم off - policy است. این الگوریتم تابع ارزش را یادمی گیرد؛ به این معنی که انجام عمل a در حالت s چقدر نتایج مثبت دارد. روند کار در الگوریتم Q - learning شامل مراحل زیر می شود
... [مشاهده متن کامل]
جدول Q یا Q - table ایجاد می شود. در این جدول، تمام حالت ها، تمام عمل های ممکن و پاداش های مورد انتظار آمده است. کیو - یادگیری
یک عمل انتخاب می شود.
پاداش محاسبه می شود.
جدول Q - table به روز می شود.
![q learning](//img.abadis.ir/comments/words/q learning/076444.webp)
![q learning](//img.abadis.ir/comments/words/q learning/066535.webp)
... [مشاهده متن کامل]
جدول Q یا Q - table ایجاد می شود. در این جدول، تمام حالت ها، تمام عمل های ممکن و پاداش های مورد انتظار آمده است. کیو - یادگیری
یک عمل انتخاب می شود.
پاداش محاسبه می شود.
جدول Q - table به روز می شود.
![q learning](http://img.abadis.ir/comments/words/q learning/076444.webp)
![q learning](http://img.abadis.ir/comments/words/q learning/066535.webp)