روش مونت کارلو برخلاف روش برنامه ریزی پویا که نیازمند اطلاعات کامل در مورد توزیع احتمالات همه انتقال های ممکن بود؛ تنها به نمونه ای از توزیع های احتمال بسنده می کند. به بیانی دیگر، در روش مونت کارلو شناخت
... [مشاهده متن کامل]
... [مشاهده متن کامل]
کامل محیط لازم نیست و با برقراری تعامل واقعی یا شبیه سازی شده با یک محیط می توان به توالی نمونه ای از حالت ها، اقدامات و پاداش های دست یافت. به همین دلیل است که در این روش، پاداش ها در انتهای دوره حساب می شود تا بتوان از دانش کسب شده برای دوره جدید استفاده نمود.