فرایادگیری (علم اعصاب). فرایادگیری یا دگریادگیری ( به انگلیسی: Metalearning ) یک اصطلاح علوم اعصاب است که توسط کنجی دویا معرفی شده است، [ ۱] به عنوان نظریه ای که نشان می دهد چگونه انتقال دهنده های عصبی سازوکارهای یادگیری توزیع شده را در غده های قاعده ای تسهیل می کنند. این نظریه در درجه اول شامل نقش انتقال دهنده های عصبی در تنظیم دینامیکی نحوه تعامل الگوریتم های یادگیری محاسباتی[ ۲] برای تولید انواع رفتار یادگیری قوی است که در حال حاضر منحصر به اشکال زندگی بیولوژیکی است. [ ۳] با اینکه اصطلاح فرایادگیری قبلاً در زمینه های روان شناسی اجتماعی و علوم رایانه به کار رفته است، اما در اینجا مفهومی کاملاً جدید را مطرح می کند که برای پر کردن شکاف ها بین شبکه های عصبی، علوم کامپیوتر و یادگیری ماشین نیاز بکار می رود.
گفته می شود که نظریه فرایادگیری بر پایه کارهای قبلی دویا در الگوریتم های یادگیری یادگیری تحت نظارت، یادگیری تقویتی و یادگیری بدون نظارت به ترتیب در مخچه، گانگلیون پایه و قشر مطرح شده است[ ۲] و از جمله تلاش هایی است که برای یکسان کردن فرایند انتخاب پویا برای این سه الگوریتم یادگیری به یک سازوکار تنظیمی قابل تقلیل به انتقال دهنده های عصبی منفرد انجام شده است.
ایده اصلی فرایادگیری این است که یادگیری سراسری را می توان به عنوان تابعی از انتخاب کارآمد چهار پی ترازه ( به انگلیسی: Neuromodulators ) که در ادامه معرفی می شوند مدل سازی کرد. در حالی که هیچ مدل سازوکاررانه برای جایی که فرایادگیری درنهایت در سلسله مراتب نمایندگی وجود دارد ارائه نشده است، این مدل تاکنون پویایی لازم برای استنتاج وجود چنین عاملی را در یادگیری بیولوژیکی به عنوان یک کل نشان داده است. در حالی که مدل های محاسباتی و سیستم های اطلاعاتی هنوز با پیچیدگی یادگیری انسان فاصله دارند. فرایادگیری مسیر امیدوارکننده ای را برای تکامل آینده چنین سیستم هایی فراهم می کند زیرا آنها به طور فزاینده ای به پیچیدگی دنیای بیولوژیکی نزدیک می شوند.
دوپامین که به عنوان یک سیگنال «یادگیری سراسری» عمل کند و برای پیش بینی پاداش ها و تقویت عمل حیاتی است. به این ترتیب، دوپامین در یک الگوریتم یادگیری نقش دارد که در آن بازیگر، محیط و منتقد به یک تعامل پویا محدود می شوند که درنهایت به دنبال به حداکثر رساندن مجموع پاداش های آینده با تولید یک سیاست انتخاب کنش بهینه است. در این زمینه، منتقد و بازیگر به عنوان لبه های شبکه مستقلی شناخته می شوند که یک عامل پیچیده را نیز تشکیل می دهند. این عامل به طور جمعی بر وضعیت اطلاعات محیط تأثیر می گذارد، که برای محاسبات آینده به عامل بازخورد داده می شود. از طریق یک مسیر جداگانه، محیط نیز به شکل پاداش به دست آمده از طریق عمل داده شده به منتقد بازخورد داده می شود، به این معنی که می توان به تعادلی بین پاداش پیش بینی شده سیاست معین برای یک وضعیت معین و چشم انداز در حال تکامل پاداش های آینده دست یافت.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفگفته می شود که نظریه فرایادگیری بر پایه کارهای قبلی دویا در الگوریتم های یادگیری یادگیری تحت نظارت، یادگیری تقویتی و یادگیری بدون نظارت به ترتیب در مخچه، گانگلیون پایه و قشر مطرح شده است[ ۲] و از جمله تلاش هایی است که برای یکسان کردن فرایند انتخاب پویا برای این سه الگوریتم یادگیری به یک سازوکار تنظیمی قابل تقلیل به انتقال دهنده های عصبی منفرد انجام شده است.
ایده اصلی فرایادگیری این است که یادگیری سراسری را می توان به عنوان تابعی از انتخاب کارآمد چهار پی ترازه ( به انگلیسی: Neuromodulators ) که در ادامه معرفی می شوند مدل سازی کرد. در حالی که هیچ مدل سازوکاررانه برای جایی که فرایادگیری درنهایت در سلسله مراتب نمایندگی وجود دارد ارائه نشده است، این مدل تاکنون پویایی لازم برای استنتاج وجود چنین عاملی را در یادگیری بیولوژیکی به عنوان یک کل نشان داده است. در حالی که مدل های محاسباتی و سیستم های اطلاعاتی هنوز با پیچیدگی یادگیری انسان فاصله دارند. فرایادگیری مسیر امیدوارکننده ای را برای تکامل آینده چنین سیستم هایی فراهم می کند زیرا آنها به طور فزاینده ای به پیچیدگی دنیای بیولوژیکی نزدیک می شوند.
دوپامین که به عنوان یک سیگنال «یادگیری سراسری» عمل کند و برای پیش بینی پاداش ها و تقویت عمل حیاتی است. به این ترتیب، دوپامین در یک الگوریتم یادگیری نقش دارد که در آن بازیگر، محیط و منتقد به یک تعامل پویا محدود می شوند که درنهایت به دنبال به حداکثر رساندن مجموع پاداش های آینده با تولید یک سیاست انتخاب کنش بهینه است. در این زمینه، منتقد و بازیگر به عنوان لبه های شبکه مستقلی شناخته می شوند که یک عامل پیچیده را نیز تشکیل می دهند. این عامل به طور جمعی بر وضعیت اطلاعات محیط تأثیر می گذارد، که برای محاسبات آینده به عامل بازخورد داده می شود. از طریق یک مسیر جداگانه، محیط نیز به شکل پاداش به دست آمده از طریق عمل داده شده به منتقد بازخورد داده می شود، به این معنی که می توان به تعادلی بین پاداش پیش بینی شده سیاست معین برای یک وضعیت معین و چشم انداز در حال تکامل پاداش های آینده دست یافت.
wiki: فرایادگیری (علم اعصاب)