[نساجی] دنیر ( وزن 9000 متر لیف یا نخ فیلامنتی بر حسب گرم )
پیشنهاد کاربران
یادگیری تفاوت زمانی ( Temporal Difference Learning ) : یادگیری تفاوت زمانی ( TD ) یک نوع روش پیش بینی است که از ایده های مونت کارلو و برنامه نویسی پویا برای حل مسائل تقویتی استفاده می کند. روش های TD مانند ... [مشاهده متن کامل]
روش های مونت کارلو، مستقیماً از تجربه خام بدون نیاز به مدلی پویا از محیط، می آموزند و مانند برنامه ریزی پویا، تخمین ها را تا حدی بر اساس سایر تخمین های آموخته شده به روز می کنند، بدون اینکه منتظر نتیجه نهایی باشند.