" Markov decision process (MDP)" چیه ؟
" Markov decision process (MDP)"
چیه ؟ چه کاربردی داره ؟
١ پاسخ
فرایندهای تصمیمگیری مارکوف (به انگلیسی: Markov decision process) (به اختصار: MDPs) یک چارچوب ریاضی است برای مدلسازی تصمیمگیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیمگیر است. MDPs برای مطالعه طیف گستردهای از مسائل بهینه سازی که از طریق برنامهنویسی پویا و تقویت یادگیری حل میشوند مفید است. حداقل از اوایل ۱۹۵۰ میلادی MDPs شناخته شدهاست (cf. (Bellman 1957)). هسته اصلی پژوهش در فرایندهای تصمیمگیری مارکوف حاصل کتاب رونالد هوارد است که در سال ۱۹۶۰ تحت عنوان «برنامهنویسی پویا و فرایندهای مارکف» منتشر شد.[۱] فرایندهای تصمیمگیری مارکوف در طیف گستردهای از رشتهها از جمله رباتیک، اقتصاد و تولید استفاده میشود.
بهطور دقیقتر، فرایندهای تصمیمگیری مارکوف، فرایندهای کنترل تصادفی زمان گسسته است.
منبع :
https://fa.m.wikipedia.org