ترانسفورمر بینایی

دانشنامه عمومی

در ابتدا، ترنسفورمرها عمدتاً برای وظایف پردازش زبان طبیعی ( NLP ) مورد استفاده قرار می گرفتند، که نمونه هایی از آن در مدل های زبانی مانند برت و جی پی تی - ۳ بود. از سوی دیگر، شبکه های عصبی پیچشی ( CNN ) معمولاً در سیستم های پردازش تصویر استفاده می شوند. برخی از پروژه های معروف CNN عبارتند از:
Xception[ ۱] ، رزنت، EfficientNet[ ۲] ، [ ۳] دنسنت .
ترنسفورمرها روابط بین جفت نشانه های ورودی، مانند کلمات در داده های متنی را از طریق مکانیزمی به نام توجه تجزیه و تحلیل می کنند. با این حال، هزینه محاسباتی روابط محاسباتی برای هر جفت پیکسل در یک تصویر از نظر حافظه و قدرت پردازش بسیار زیاد است. برای رفع این مشکل، ترانسفورمرهایی بینایی روابط بین پیکسل ها را در بخش های کوچک تر تصویر ( مثلاً 16×16 پیکسل ) با هزینه ای قابل توجه محاسبه می کند. این بخش ها، همراه با جاسازی های موقعیتی، در یک توالی سازماندهی شده اند. جاسازی های موقعیتی بردارهای قابل یادگیری هستند. هر بخش خطی شده و در ماتریس تعبیه ضرب می شود. خروجی حاصل، همراه با تعبیه موقعیت، سپس به ترنسفورمرها تغذیه می شود. مشابه برت ، نشانه کلاس نقش مهمی در وظایف طبقه بندی ایفا می کند. این یک توکن خاص است که تحت تأثیر همه توکن های دیگر قرار می گیرد و به عنوان تنها ورودی برای سر پرسپترون چندلایه نهایی عمل می کند. رایج ترین معماری برای طبقه بندی تصویر، تنها از رمزگذار ترنسفورمر برای تبدیل نشانه های ورودی استفاده می کند. با این حال، برنامه های کاربردی دیگری نیز وجود دارد که در آنها از بخش رمزگشای معماری سنتی ترنسفورمر استفاده می شود.
معماری عمومی ترانسفورماتور، که در سال 2017 از طریق مقاله پیشگامانه "توجه همه آن چیزی است که نیاز دارید"[ ۴] معرفی شد، تأثیر عمیقی بر حوزه پردازش زبان طبیعی ( NLP ) داشته است. این معماری بر اساس مفهوم مکانیزم های خود توجهی، به سرعت محبوبیت پیدا کرد و به یکی از امیدوارکننده ترین معماری های شبکه عصبی در پرداذش زبان های طبیعی تبدیل شد. در سال 2019، با معرفی معماری ترانسفورنر بینایی توسط Cordonnier [ ۵] و همکاران، پیشرفت قابل توجهی رخ داد. هدف این رویکرد جدید پردازش تصاویر بدون تکیه بر عملیات کانولوشنال سنتی است که معمولاً در وظایف بینایی رایانه استفاده می شود. ایده کلیدی پشت ترانسفورمر بینایی این بود که تصاویر ورودی را به مجموعه ای از وصله ها تقسیم کنند که سپس به بردار تبدیل شدند. این نمایش های برداری به عنوان «کلمات» در یک ترانسفورماتور معمولی در نظر گرفته می شوند و به مدل اجازه می دهند تا روابط بین تکه های مختلف یک تصویر را ثبت کند. در حالی که مکانیسم های توجه در ترانسفورماتورها در ابتدا برای ثبت روابط بین کلمات در متن طراحی شده بودند، ترانسفورمر هایی بینایی این مفهوم را به قلمرو بینایی کامپیوتر گسترش داد. ترانسفورمر بینایی با استفاده از مکانیسم های خودتوجهی، قصد داشت روابط بین مناطق یا تکه های مختلف یک تصویر را ثبت کند. این پیشرفت فرصت های جدیدی را برای تجزیه و تحلیل و درک داده های بصری باز کرد. در سال 2021، عملکرد یک مدل ترانسفورماتور خالص از شبکه های عصبی پیچشی ( CNN ) در وظایف طبقه بندی تصویر پیشی گرفت و پتانسیل معماری های ترانسفورماتور را در بینایی کامپیوتر به نمایش گذاشت. علاوه بر این، مطالعه ای که در ژوئن 2021 انجام شد، یک بک اند ترانسفورماتور را به شبکه عصبی باقی مانده [ ۶] ، یک معماری محبوب شبکه های عصبی پیچشی، معرفی کرد. این ادغام منجر به کاهش قابل توجه هزینه ها و افزایش دقت شد و سازگاری و هم افزایی بین ترانسفورماتورها و مدل های بینایی کامپیوتری موجود را برجسته کرد. با پیشرفت این زمینه، محققان انواع مختلفی از معماری ترانسفورمر بینایی را برای افزایش کارایی، دقت و کاربرد در حوزه های خاص پیشنهاد کردند. قابل توجه در میان این گونه ها، ترانسفورماتور سویین [ ۷] است که به نتایج پیشرفته ای در مجموعه داده های تشخیص اشیا مانند کوکو[ ۸] دست یافت. ترانسفورماتور سویین با ایجاد تغییراتی در مکانیسم توجه و اتخاذ یک رویکرد چند مرحله ای، بهبود عملکرد قابل توجهی را نشان داد. یکی دیگر از انواع جالب، معروف به تایم اسفورمر[ ۹] ، به طور خاص برای وظایف درک ویدیو طراحی شده است. تایم اسفورمر توجه فضا - زمان را تقسیم بندی می کند تا هم اطلاعات مکانی و هم زمانی را به تصویر بکشد و آن را برای تجزیه و تحلیل فیلم ها و توالی فریم ها مناسب می کند. این نوع در استخراج ویژگی های معنی دار و درک پویایی داده های بصری موثر بوده است. تأثیر ترانسفورمر بینایی فراتر از محدوده آزمایشگاه های تحقیقاتی و به برنامه های کاربردی در دنیای واقعی گسترش یافته است. یک مثال قابل توجه ادغام آنها در سیستم های رانندگی مستقل است. ترانسفورمر بینایی کارایی خود را در پردازش اطلاعات بصری از حسگرها در وسایل نقلیه خودمختار نشان داده اند که درک بهتر، تشخیص اشیا و درک صحنه را ممکن می سازد. به طور خلاصه، معرفی معماری ترانسفورمر بینایی با اعمال مکانیسم های توجه مبتنی بر ترانسفورماتور بر روی تصاویر، بینایی کامپیوتر را متحول کرد. این پیشرفت منجر به بهبود عملکرد، افزایش کارایی و رویکردهای جدید برای تجزیه و تحلیل داده های بصری شد. این زمینه با تمرکز بر روی پالایش و گسترش قابلیت های ترانسفورمر بینایی در حوزه ها و کاربردهای مختلف، به تکامل خود ادامه می دهد.
عکس ترانسفورمر بیناییعکس ترانسفورمر بیناییعکس ترانسفورمر بینایی
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس