دگرنمایی واژه

دانشنامه عمومی

در پردازش زبان طبیعی ( NLP ) ، دگرنماییِ واژه اصطلاحی است که برای بردن واژگان به فضایی برداری ( نمایش آن ها با بردارهای عددی ) به منظور تجزیه و تحلیل متن استفاده می شود، ساختار آن معمولاً به شکل یک بردار با مقادیر واقعی است که معنای هر کلمه را به گونه ای رمزگذاری می کند که کلماتی که در بردار به هم نزدیک تر هستند از نظر معنی نیز مشابه باشند. جاسازی کلمات را می توان با ترکیبی از عملیات مدل سازی زبان و تکنیک های یادگیری ویژگی به دست آورد که در آن نگاشتی از واژگان کلمات یا عبارات به بردارهای اعداد واقعی انجام می شود. این عمل از نظر مفهومی به معنای یک جاسازی ریاضی از فضایی با ابعاد بزرگ به فضای برداری پیوسته با ابعاد بسیار کمتر است.
روش های تولید این نگاشت شامل استفاده از شبکه های عصبی، کاهش ابعاد در ماتریس هم رویداد کلمه، مدل های احتمالی، [ ۱] روش مبتنی بر دانش قابل توضیح[ ۲] و همچنین بازنمایی صریح بر حسب زمینه که کلمات در آن ظاهر می شوند.
زمانی که از جاسازی ( تعبیه ) کلمات و عبارات، به عنوان ورودی اولیه استفاده شود، عملکرد کارهای پردازش زبان طبیعی مانند تجزیه نحوی و تجزیه و تحلیل احساسات را افزایش می دهد.
روش جاسازی کلمات در حوزه پژوهشی معناشناسی توزیعی در زبان شناسی، مورد بررسی قرار گرفته است و هدف آن طبقه بندی شباهت های معنایی بین اقلام زبان بر اساس ویژگی های توزیعی بین آنها در نمونه های بزرگی از داده های زبان است. این ایده که «یک کلمه با گروهی که آن را نگه می دارد مشخص می شود» اولین بار توسط جان روپرت فرث مطرح شد.
مفهوم فضای معنایی شامل موارد لغوی ( کلمات یا اصطلاحات چند کلمه ای ) است که با بردارها یا عملیات جاسازی نشان داده می شوند و مبتنی بر چالش های محاسباتی بدست آوردن ویژگی های توزیعی و استفاده از آنها برای کاربرد عملی و همچنین برای اندازه گیری شباهت بین کلمات، عبارات یا کل اسناد است. اولین نسل از مدل های فضای معنایی، مدل فضای برداری برای بازیابی اطلاعات است. [ ۳] [ ۴] [ ۵] چنین مدل هایی که فضای برداری کلمات و داده های توزیعی آنها در ساده ترین شکل پیاده سازی شده اند، منجر به یک فضای برداری بسیار پراکنده با ابعاد بالا می شوند ( مبحث نفرین ابعاد ) . کاهش ابعاد با استفاده از روش های جبر خطی مانند تجزیه مقادیر منفرد، در اواخر دهه ۸۰ منجر به معرفی آنالیز پنهان مفهومی و رویکرد نمایه سازی تصادفی برای جمع آوری زمینه های همزمانی کلمات شد. [ ۶] [ ۷] [ ۸] [ ۹] [ ۱۰] در سال ۲۰۰۰ بنجیو و همکارانش در مجموعه ای از مقالات «مدل های زبانی احتمالی عصبی» برای کاهش بالای ابعاد کلمات همراه با «یادگیری بازنمایی توزیع شده برای کلمات» را ارائه کردند. [ ۱۱] برای جاسازی کلمات دو سبک مختلف وجود دارد، یکی که در آن کلمات به عنوان بردار همزمان در نظر گرفته می شوند و دیگری که در آن کلمات به عنوان بردار زمینه های زبانی بیان می شوند. این سبک ها توسط لاولی و همکارانش در سال ۲۰۰۴ مورد مطالعه قرار گرفته اند. Roweis و Saul در مجله Science نحوه استفاده از " جاسازی خطی محلی " ( LLE ) برای نمایش ساختارهای داده با ابعاد بالا را منتشر کردند. [ ۱۲] پس از سال ۲۰۰۵ اکثر تکنیک های جدید جاسازی کلمه به جای مدل های احتمالی و جبری بیشتر بر اساس معماری شبکه های عصبی کار می کنند. [ ۱۳]
عکس دگرنمایی واژه
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس