خلاصه سازی خودکار فرآیند کوتاه کردن مجموعه ای از داده ها به صورت محاسباتی، برای ایجاد یک زیرمجموعه است که مهمترین اطلاعات در مورد مواد اصلی است. علاوه بر متن، تصاویر و فیلم ها نیز می توانند به صورت خلاصه باقی بمانند.
در دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به داده ها را پیچیده می کند؛ بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند. بهترین روش خلاصه کردن و سپس طبقه بندی اطلاعات است.
همه ما از خلاصه سازی به صورت های گوناگون استفاده می کنیم. برای نمونه می توان به موارد زیر اشاره کرد. اما کاربردهای دیگری هم وجود دارد:
• موتورهای جستجو گر وب
• ارسال اخبار به صورت فشرده و کوتاه
• جمع بندی نتایج تحقیق و مقاله
سیستم خلاصه سازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت می کند و خلاصهٔ آن را به شکل خروجی تحویل می دهد.
خلاصه ها را می توان از جهات مختلف طبقه بندی کرد:
• چگونگی پردازش
• مخاطب و متن
• اطلاعات ورودی
• سبک
• نوع کاربر
Extractive & Abstractive Summarization
• در روش extractive جملاتی از خود متن انتخاب می شوند و در خلاصه قرار می گیرند. کاری که باید انجام دهیم
• در روش abstractive مفهوم متن ورودی درک می شود و براساس آن خلاصه ارائه می شود. ممکن است جمله و عباراتی از متن در خلاصه قرار گیرند ولی قرار نیست تمام جملات خلاصه عیناً از درون متن انتخاب شده باشند.
• اساس کار سیستم های خودکار خلاصه سازی، روش extractive است. گرچه پیشرفت های زیادی در زمینه درک متن توسط کامپیوتر حاصل شده، ولی هنوز به جایی نرسیده ایم که یک کامپیوتر بتواند متن را تجزیه و تحلیل کند.
Query & Generic Summarization
• یک متن را با در نظر گرفتن فرض های گوناگون می توان به روش های متفاوت خلاصه کرد.
• خلاصه Generic خلاصه ای است که در آن مخاطب را فردی عادی در نظر می گیریم و موضوع و سبک متن برای ما اهمیت ندارد.
• خلاصهٔ Query خلاصه ای است که که در ابتدا اطلاعاتی از مخاطب و موضوع متن پیدا می کنیم و سپس به خلاصه سازی می پردازیم.
• خلاصه به دست آمده از این دو روش متفاوت خواهند بود.
سند تکی ( Single Doc ) و سند چندتایی ( Multiple Doc ) از انواع اطلاعات ورودی هستند. چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته می شود. در Multi Document متن های ورودی باید با هم اشتراک معنایی داشته باشند.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفدر دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به داده ها را پیچیده می کند؛ بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند. بهترین روش خلاصه کردن و سپس طبقه بندی اطلاعات است.
همه ما از خلاصه سازی به صورت های گوناگون استفاده می کنیم. برای نمونه می توان به موارد زیر اشاره کرد. اما کاربردهای دیگری هم وجود دارد:
• موتورهای جستجو گر وب
• ارسال اخبار به صورت فشرده و کوتاه
• جمع بندی نتایج تحقیق و مقاله
سیستم خلاصه سازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت می کند و خلاصهٔ آن را به شکل خروجی تحویل می دهد.
خلاصه ها را می توان از جهات مختلف طبقه بندی کرد:
• چگونگی پردازش
• مخاطب و متن
• اطلاعات ورودی
• سبک
• نوع کاربر
Extractive & Abstractive Summarization
• در روش extractive جملاتی از خود متن انتخاب می شوند و در خلاصه قرار می گیرند. کاری که باید انجام دهیم
• در روش abstractive مفهوم متن ورودی درک می شود و براساس آن خلاصه ارائه می شود. ممکن است جمله و عباراتی از متن در خلاصه قرار گیرند ولی قرار نیست تمام جملات خلاصه عیناً از درون متن انتخاب شده باشند.
• اساس کار سیستم های خودکار خلاصه سازی، روش extractive است. گرچه پیشرفت های زیادی در زمینه درک متن توسط کامپیوتر حاصل شده، ولی هنوز به جایی نرسیده ایم که یک کامپیوتر بتواند متن را تجزیه و تحلیل کند.
Query & Generic Summarization
• یک متن را با در نظر گرفتن فرض های گوناگون می توان به روش های متفاوت خلاصه کرد.
• خلاصه Generic خلاصه ای است که در آن مخاطب را فردی عادی در نظر می گیریم و موضوع و سبک متن برای ما اهمیت ندارد.
• خلاصهٔ Query خلاصه ای است که که در ابتدا اطلاعاتی از مخاطب و موضوع متن پیدا می کنیم و سپس به خلاصه سازی می پردازیم.
• خلاصه به دست آمده از این دو روش متفاوت خواهند بود.
سند تکی ( Single Doc ) و سند چندتایی ( Multiple Doc ) از انواع اطلاعات ورودی هستند. چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته می شود. در Multi Document متن های ورودی باید با هم اشتراک معنایی داشته باشند.

wiki: خلاصه سازی خودکار