تعیین تعداد خوشه در یک مجموعه داده، مقداری اغلب دارای برچسب k در الگوریتم k - means و مشکلی پرتکرار در خوشه بندی داده ها و مسئله ای متمایز از فرایند حل مشکل خوشه بندی است.
برای یک کلاس خاص از الگوریتم های خوشه بندی ( به ویژه در k - medoids, k - means و ( الگوریتم امید ریاضی–بیشینه کردن ) پارامتری به عنوان k معمولاً وجود دارد که تعداد خوشه ها را تشخیص می دهد. الگوریتم های دیگری مانند DBSCAN و اپتیک الگوریتم مشخصات این پارامتر را نیاز ندارند؛ خوشه بندی سلسله مراتبی این مشکل را به صورت کلی ندارد.
انتخاب صحیح عدد k اغلب مبهم است و با تفاسیری به شکل و مقیاس توزیع نقاط در یک مجموعه داده و نیت خوشه بندی کاربر بستگی دارد. به علاوه افزایش k بدون مجازات ( penalty ) به کاهش میزان خطا در نتیجهٔ خوشه بندی منجر می شود. در شدیدترین حالت از صفر خطا اگر هر نقطه داده، خود یک خوشه در نظر گرفته شود. ( به عنوان مثال زمانی که k برابر با تعداد نقاط داده ها باشد ) . به طور مستقیم و سپس با انتخاب بهینه از k به تعادلی بین حداکثر فشرده سازی داده ها با استفاده از یک خوشه و حداکثر دقت، با اختصاص هر نقطه داده به یک خوشه خواهیم رسید. اگر یک مقدار مناسب از k با استفادهاز دانش قبلی از خواص آن مجموعه داده مشخص نباشد، باید به نحوی انتخاب شود. چند دسته روش رأی این تصمیم گیری وجود دارد.
روش آرنج درصد واریانس را به عنوان تابعی از تعداد خوشه ها توضیح می دهد: یکی باید به عنوان تعداد خوشه ها انتخاب شود به طوری که با اضافه کردن خوشه ای دیگر مدل سازی داده بهتری بدست نیاید. دقیق تر، اگر یک ترسیم ( plot ) درصد واریانس را تشریح کند طوریکه مخالف تعداد خوشه ها باشد اولین خوشه ها اطلاعات زیادی ( توضیح بسیاری از واریانس ) را اضافه می کنند، اما در بعضی نقطه ها حاشیه سود کاهش خواهد یافت و یک زاویه در نمودار به وجود می آورد. تعداد خوشه ها در این نقطه انتخاب شده اند یعنی همان «معیار آرنج». این «آرنج» نمی تواند همیشه به روشنی مشخص شود. [ ۱] درصد از واریانس نسبت واریانس بین - گروهی به کل واریانس را توضیح داده، همچنین به عنوان یک آزمون F شناخته شده است. تنوع اندکی از این روش انحنای درون واریانس گروهی را ترسیم ( plot ) می کند. [ ۲]
این روش را می توان به گمانه زنی توسط Robert L. Thorndike در سال ۱۹۵۳ نسبت داد. [ ۳]
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفبرای یک کلاس خاص از الگوریتم های خوشه بندی ( به ویژه در k - medoids, k - means و ( الگوریتم امید ریاضی–بیشینه کردن ) پارامتری به عنوان k معمولاً وجود دارد که تعداد خوشه ها را تشخیص می دهد. الگوریتم های دیگری مانند DBSCAN و اپتیک الگوریتم مشخصات این پارامتر را نیاز ندارند؛ خوشه بندی سلسله مراتبی این مشکل را به صورت کلی ندارد.
انتخاب صحیح عدد k اغلب مبهم است و با تفاسیری به شکل و مقیاس توزیع نقاط در یک مجموعه داده و نیت خوشه بندی کاربر بستگی دارد. به علاوه افزایش k بدون مجازات ( penalty ) به کاهش میزان خطا در نتیجهٔ خوشه بندی منجر می شود. در شدیدترین حالت از صفر خطا اگر هر نقطه داده، خود یک خوشه در نظر گرفته شود. ( به عنوان مثال زمانی که k برابر با تعداد نقاط داده ها باشد ) . به طور مستقیم و سپس با انتخاب بهینه از k به تعادلی بین حداکثر فشرده سازی داده ها با استفاده از یک خوشه و حداکثر دقت، با اختصاص هر نقطه داده به یک خوشه خواهیم رسید. اگر یک مقدار مناسب از k با استفادهاز دانش قبلی از خواص آن مجموعه داده مشخص نباشد، باید به نحوی انتخاب شود. چند دسته روش رأی این تصمیم گیری وجود دارد.
روش آرنج درصد واریانس را به عنوان تابعی از تعداد خوشه ها توضیح می دهد: یکی باید به عنوان تعداد خوشه ها انتخاب شود به طوری که با اضافه کردن خوشه ای دیگر مدل سازی داده بهتری بدست نیاید. دقیق تر، اگر یک ترسیم ( plot ) درصد واریانس را تشریح کند طوریکه مخالف تعداد خوشه ها باشد اولین خوشه ها اطلاعات زیادی ( توضیح بسیاری از واریانس ) را اضافه می کنند، اما در بعضی نقطه ها حاشیه سود کاهش خواهد یافت و یک زاویه در نمودار به وجود می آورد. تعداد خوشه ها در این نقطه انتخاب شده اند یعنی همان «معیار آرنج». این «آرنج» نمی تواند همیشه به روشنی مشخص شود. [ ۱] درصد از واریانس نسبت واریانس بین - گروهی به کل واریانس را توضیح داده، همچنین به عنوان یک آزمون F شناخته شده است. تنوع اندکی از این روش انحنای درون واریانس گروهی را ترسیم ( plot ) می کند. [ ۲]
این روش را می توان به گمانه زنی توسط Robert L. Thorndike در سال ۱۹۵۳ نسبت داد. [ ۳]