یادگیری تقویتی چندعاملی

دانشنامه عمومی

یادگیری تقویتی چند عاملی ( MARL ) زیر مجموعه ای از یادگیری تقویتی است . و بر بررسی رفتار چندین عاملی که در یک محدوده مشترک وجود دارند، تمرکز دارد. [ ۱] هر عامل با به خاطر پاداش هایش انگیزه میگیرد و اقدام هایی را برای پیش بردن منافع خود انجام می دهد. امکان دارد این منافع با منافع بقیه عوامل اختلاف داشته باشد که منجر به پویایی پیچیده گروه می شود .
یادگیری تقویتی چند عاملی ارتباط نزدیکی با نظریه بازی و به ویژه بازی های تکراری دارد. مطالعه آن، جستجوی یافتن الگوریتم های ایدئال را که پاداش ها را به حداکثر می رسانند، با مجموعه ای جامعه شناختی از مفاهیم ترکیب می کند. در حالی که تحقیق در یادگیری تقویتی تک عاملی به یافتن الگوریتمی می پردازد که بیشترین امتیاز را برای یک عامل کسب می کند، تحقیقات در یادگیری تقویت چند عاملی معیارهای اجتماعی مانند همکاری, [ ۲] متقابل, [ ۳] حقوق صاحبان سهام, [ ۴] نفوذ اجتماعی, [ ۵] زبان[ ۶] و تبعیض را ارزیابی و کمی می کند. [ ۷]
مشابه یادگیری تقویت تک عامل, یادگیری تقویتی چند عاملی به عنوان فرآیند تصمیم گیری فرایند تصمیم گیری مارکوف مدل می شود:
• مجموعه ای از حالت های محیطی S {\displaystyle S} .
• یک مجموعه از اقدامات A i {\displaystyle {\mathcal {A}}_{i}} برای هر یک از عوامل i ∈ I = { 1 , . . . , N } {\displaystyle i\in I=\{1, . . . , N\}} .
• P a → ( s , s ′ ) = Pr ( s t + 1 = s ′ ∣ s t = s , a → t = a → ) {\displaystyle P_{\overrightarrow {a}} ( s, s' ) =\Pr ( s_{t+1}=s'\mid s_{t}=s, {\overrightarrow {a}}_{t}={\overrightarrow {a}} ) } احتمال انتقال است ( در زمان t {\displaystyle t} ) از حالت s {\displaystyle s} به حالت s ′ {\displaystyle s'} تحت اقدام مشترک a → {\displaystyle {\overrightarrow {a}}} .
• R → a → ( s , s ′ ) {\displaystyle {\overrightarrow {R}}_{\overrightarrow {a}} ( s, s' ) } پاداش مشترک فوری پس از انتقال از است s {\displaystyle s} به s ′ {\displaystyle s'} با اقدام مشترک a → {\displaystyle {\overrightarrow {a}}} .
در تنظیمات با اطلاعات کامل مانند بازی های شطرنج و برو گروه دموکراتیک کاملاً قابل مشاهده است. در تنظیمات با اطلاعاتی که کامل نیست، به ویژه در برنامه های کاربردی دنیای واقعی مانند اتومبیل های خودران, هر عامل به مشاهده ای دسترسی خواهد داشت که فقط قسمتی از اطلاعات مربوط به وضعیت فعلی را دارد.
عکس یادگیری تقویتی چندعاملیعکس یادگیری تقویتی چندعاملی
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس