پرسش خود را بپرسید

معروف ترین دیتاست برای متن چیه ؟

تاریخ
٤ ماه پیش
بازدید
٦٣

معروف ترین دیتاست برای متن چیه ؟

٣,٢٦٦
طلایی
٠
نقره‌ای
٠
برنزی
١٨١

١ پاسخ

مرتب سازی بر اساس:

معروف‌ترین دیتاست‌ها برای کار با متن و پردازش زبان طبیعی شامل موارد زیر هستند:

1. **IMDb Reviews Dataset**:
  - **توضیح**: این دیتاست شامل بررسی‌های فیلم‌ها از وبسایت IMDb است که برای تحلیل احساسات (Sentiment Analysis) بسیار محبوب است.
  - **لینک**: [IMDb Reviews](https://ai.stanford.edu/~amaas/data/sentiment/)

2. **20 Newsgroups Dataset**:
  - **توضیح**: این دیتاست شامل ایمیل‌های دسته‌بندی شده به 20 موضوع مختلف است که برای طبقه‌بندی متون مورد استفاده قرار می‌گیرد.
  - **لینک**: [20 Newsgroups](http://qwone.com/~jason/20Newsgroups/)

3. **Wikipedia Text Corpus**:
  - **توضیح**: مجموعه‌ای بزرگ از مقالات ویکی‌پدیا که برای مسائل مختلف پردازش زبان طبیعی از جمله مدل‌سازی زبان (Language Modeling) و استخراج اطلاعات استفاده می‌شود.
  - **لینک**: [Wikipedia Dumps](https://dumps.wikimedia.org/)

4. **GloVe: Global Vectors for Word Representation**:
  - **توضیح**: دیتاستی که برای ساخت مدل‌های برداری کلمات استفاده می‌شود.
  - **لینک**: [GloVe](https://nlp.stanford.edu/projects/glove/)

5. **COCO (Common Objects in Context) Captions**:
  - **توضیح**: شامل تصاویر و کپشن‌های متنی آن‌ها، برای وظایف تولید متن و توصیف تصویر استفاده می‌شود.
  - **لینک**: [COCO Captions](https://cocodataset.org/#captions-2015)

6. **AG News**:
  - **توضیح**: این دیتاست شامل اخبار از چهار دسته مختلف (World, Sports, Business, Sci/Tech) است که برای طبقه‌بندی متن استفاده می‌شود.
  - **لینک**: [AG News](https://www.kaggle.com/amananandrai/ag-news-classification-dataset)

7. **SQuAD (Stanford Question Answering Dataset)**:
  - **توضیح**: این دیتاست شامل پرسش و پاسخ‌هایی بر اساس مقالات ویکی‌پدیا است که برای وظایف پاسخ‌گویی به سوالات استفاده می‌شود.
  - **لینک**: [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)

هر یک از این دیتاست‌ها برای اهداف خاصی مناسب هستند و بسته به نوع پروژه و مسئله‌ای که می‌خواهید حل کنید، می‌توانید یکی از این دیتاست‌ها را انتخاب کنید.

تاریخ
٤ ماه پیش

پاسخ شما