٠ رأی
٤ پاسخ
١١٨ بازدید
١٦,٠٠٠
تومان

در مدل‌های زبانی بزرگ، مثل GPT، مفهوم Attention چگونه به مدل کمک می‌کند تا وابستگی‌های طولانی‌مدت میان کلمات را درک کند؟ تفاوت این مکانیزم با روش‌های پیشین مثل RNNها چیست؟

٢ روز پیش
١ رأی

در ساده ترین حالت مثلا اگر مفهوم lstm رو بلد باشید خیلی سادس! در lstm خروجی به context vector فقط stste اخرین لایه هست اما در در مکانیزم attention  تمامی cell state و hidden state ها رو به context vector میفرسته

١ روز پیش