یادگیری تقویت عمیق ( RL عمیق ) ( به انگلیسی: Deep reinforcement learning ) زیرمجموعه ای از یادگیری ماشین است که یادگیری تقویت ( RL ) و یادگیری عمیق را ترکیب می کند. RL مشکل یادگیری یک عامل محاسباتی را در نظر می گیرد تا با استفاده از آزمون و خطا تصمیم بگیرد. Deep RL یادگیری عمیق در راه حل را در بر می گیرد، به نمایندگان اجازه می دهد تا از داده های ورودی بدون ساختار، بدون مهندسی دستی فضاهای حالت تصمیم بگیرند. الگوریتم های Deep RL می توانند ورودی های بسیار بزرگی ( مثلاً هر پیکسل ارائه شده روی صفحه در یک بازی ویدیویی ) را بگیرند و تصمیم بگیرند که برای بهینه سازی یک هدف چه کارهایی انجام دهند ( مثلاً به حداکثر رساندن امتیاز بازی ) . یادگیری تقویت عمیق برای مجموعه متنوعی از برنامه ها از جمله رباتیک، بازی های ویدیویی، پردازش زبان طبیعی، بینایی رایانه ای، آموزش، حمل و نقل، امور مالی و مراقبت های بهداشتی مورد استفاده قرار گرفته است اما محدود به آنها نمی شود. [ ۱]
یادگیری عمیق نوعی یادگیری ماشینی است که با به کارگیری یک شبکه عصبی مجموعه ای از ورودی ها را از طریق شبکه عصبی مصنوعی به مجموعه ای از خروجی ها تبدیل می کند. نشان داده شده است که روشهای یادگیری عمیق، اغلب با استفاده از یادگیری نظارت شده با مجموعه داده های برچسب دار، وظایفی را حل می کنند که شامل پردازش داده های ورودی خام پیچیده و با ابعاد بالا مانند تصاویر، با مهندسی ویژگی دستی کمتر نسبت به روش های قبلی است، و توانایی پیشرفت قابل توجهی در چندین زمینه از جمله کامپیوتر بینایی و پردازش زبان طبیعی دارد.
یادگیری تقویت فرآیندی است که در آن یک عامل یادمی گیرد که از طریق آزمون و خطا تصمیم گیری کند. این مشکل اغلب از نظر ریاضی به عنوان یک فرایند تصمیم گیری مارکوف ( MDP ) مدل سازی می شود، جایی که یک عامل در هر مرحله در یک حالت است s ، اقدام می کند a ، پاداش عددی دریافت می کند و به حالت بعدی منتقل می شود s ′ با توجه به پویایی محیط p ( s ′ | s , a ) . عامل سعی می کند یک خط مشی را بیاموزد π ( a | s ) برای به حداکثر رساندن بازده آن ( جمع پاداش مورد انتظار ) . در یادگیری تقویت ( در مقابل کنترل بهینه ) الگوریتم فقط به پویایی دسترسی دارد p ( s ′ | s , a ) از طریق نمونه گیری
در بسیاری از مشکلات تصمیم گیری عملی، حالت های s از MDP دارای ابعاد بالا ( به عنوان مثال تصاویر از یک دوربین یا جریان حسگر خام از یک ربات ) است و با الگوریتم های RL سنتی قابل حل نیست. الگوریتم های یادگیری تقویت عمیق شامل یادگیری عمیق برای حل چنین MDPها هستند که اغلب نشان دهنده این خط مشی است π ( a | s ) یا سایر توابع آموخته شده به عنوان یک شبکه عصبی، و در حال توسعه الگوریتم های تخصصیست که عملکرد خوبی در این تنظیمات دارند.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفیادگیری عمیق نوعی یادگیری ماشینی است که با به کارگیری یک شبکه عصبی مجموعه ای از ورودی ها را از طریق شبکه عصبی مصنوعی به مجموعه ای از خروجی ها تبدیل می کند. نشان داده شده است که روشهای یادگیری عمیق، اغلب با استفاده از یادگیری نظارت شده با مجموعه داده های برچسب دار، وظایفی را حل می کنند که شامل پردازش داده های ورودی خام پیچیده و با ابعاد بالا مانند تصاویر، با مهندسی ویژگی دستی کمتر نسبت به روش های قبلی است، و توانایی پیشرفت قابل توجهی در چندین زمینه از جمله کامپیوتر بینایی و پردازش زبان طبیعی دارد.
یادگیری تقویت فرآیندی است که در آن یک عامل یادمی گیرد که از طریق آزمون و خطا تصمیم گیری کند. این مشکل اغلب از نظر ریاضی به عنوان یک فرایند تصمیم گیری مارکوف ( MDP ) مدل سازی می شود، جایی که یک عامل در هر مرحله در یک حالت است s ، اقدام می کند a ، پاداش عددی دریافت می کند و به حالت بعدی منتقل می شود s ′ با توجه به پویایی محیط p ( s ′ | s , a ) . عامل سعی می کند یک خط مشی را بیاموزد π ( a | s ) برای به حداکثر رساندن بازده آن ( جمع پاداش مورد انتظار ) . در یادگیری تقویت ( در مقابل کنترل بهینه ) الگوریتم فقط به پویایی دسترسی دارد p ( s ′ | s , a ) از طریق نمونه گیری
در بسیاری از مشکلات تصمیم گیری عملی، حالت های s از MDP دارای ابعاد بالا ( به عنوان مثال تصاویر از یک دوربین یا جریان حسگر خام از یک ربات ) است و با الگوریتم های RL سنتی قابل حل نیست. الگوریتم های یادگیری تقویت عمیق شامل یادگیری عمیق برای حل چنین MDPها هستند که اغلب نشان دهنده این خط مشی است π ( a | s ) یا سایر توابع آموخته شده به عنوان یک شبکه عصبی، و در حال توسعه الگوریتم های تخصصیست که عملکرد خوبی در این تنظیمات دارند.
wiki: یادگیری تقویتی عمیق