تحلیل مؤلفه های اصلی ( به انگلیسی: Principal Component Analysis - PCA ) تبدیلی در فضای برداری است، که تحلیل مجموعه داده های بزرگ با تعداد زیادی بعد یا ویژگی، افزایش تفسیرپذیری داده ها با حفظ حداکثر مقدار اطلاعات و تجسم داده های چند بعدی را فراهم می کند. تحلیل مؤلفه های اصلی در واقع، یک تکنیک آماری برای کاهش ابعاد یک مجموعه داده است. این کار با تبدیل خطی داده ها به یک سیستم مختصات جدید انجام می شود که ( بیشتر ) تغییرات در داده ها را می توان با ابعاد کمتری نسبت به داده های اولیه توصیف کرد. بسیاری از مطالعات از دو مؤلفه اصلی اول برای نمایش داده ها در دو بعد و شناسایی بصری خوشه های نقاط داده نزدیک به هم استفاده می کنند. تحلیل مؤلفه های اصلی در بسیاری از زمینه ها مانند ژنتیک جمعیت، مطالعات میکروبیوم ها و علوم جوی کاربرد دارد. [ ۱]
مؤلفه ها اصلیِ مجموعه ای از نقاط در یک فضای مختصات حقیقی، دنباله ای از بردارهای واحد p هستند، که در آن بردار i - ام امتداد خطی است که بهترین تطابق را با داده ها دارد و در عین حال به i − 1 بردار اول متعامد است. در اینجا بهترین خط، خطی است که میانگین مجذورات فاصله عمود نقاط از خط را کمینه می کند. این بردارها یک پایه متعامد و یکه را تشکیل می دهند که در آن ابعاد مختلف داده ها به طور خطی همبستگی ندارند. تحلیل مؤلفه های اصلی فرایند محاسبه مؤلفه های اصلی و استفاده از آن ها برای تغییر پایه داده ها است که گاهی فقط از چند مؤلفه اصلی اول استفاده می کند و بقیه را نادیده می گیرد.
تحلیل مؤلفه های اصلی اولین بار در سال ۱۹۰۱ توسط کارل پیرسون[ ۲] به عنوان متناظری از قضیه محورهای اصلی در مکانیک ارائه شد. این روش بعدها به صورت مستقل توسط هارولد هتلینگ[ ۳] در دهه ۱۹۳۰ میلادی توسعه یافت و نام گذاری شد. باتوجه به کاربرد این روش آن را تبدیل گسسته کارانن - لوف یا KLT در پردازش سیگنال نیز یا تبدیل هتلینگ در کنترل کیفیت چند متغیره می نامند.
تحلیل مؤلفه های اصلی را می توان به عنوان برازش یک بیضی با ابعاد p به داده ها در نظر گرفت، که در آن هر محور بیضی یک مؤلفه اصلی را نشان می دهد. اگر برخی از محورهای بیضی کوچک باشد، واریانس در امتداد آن محور نیز کوچک است. برای پیدا کردن محورهای بیضی، ابتدا باید با کم کردن میانگین مقادیر هر متغیر از آن ها، میانگین مجموعه داده را صفر کنیم. این مقادیر تبدیل شده حالا به جای مقادیر اصلی برای هر یک از متغیرها استفاده می شود. سپس، ماتریس کواریانس داده ها را محاسبه کرده و مقادیر ویژه و بردارهای ویژه آن را محاسبه می کنیم. سپس باید هر یک از بردارهای ویژه متعامد را نرمال کنیم تا آنها را به بردارهای واحد تبدیل کنیم. پس از انجام این کار، هر یک از بردارهای ویژه واحد متعامد را می توان به عنوان محوری از بیضی برازش داده ها تفسیر کرد. این انتخاب پایه، ماتریس کوواریانس را به ماتریسی قطری تبدیل می کند، که در آن درایه های روی قطر واریانس هر محور را نشان می دهد. درصد واریانسی که هر بردار ویژه از اطلاعات موجود بیان می کند را می توان با تقسیم مقدار ویژه مربوط به آن بردار ویژه بر مجموع همه مقادیر ویژه محاسبه کرد.
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفمؤلفه ها اصلیِ مجموعه ای از نقاط در یک فضای مختصات حقیقی، دنباله ای از بردارهای واحد p هستند، که در آن بردار i - ام امتداد خطی است که بهترین تطابق را با داده ها دارد و در عین حال به i − 1 بردار اول متعامد است. در اینجا بهترین خط، خطی است که میانگین مجذورات فاصله عمود نقاط از خط را کمینه می کند. این بردارها یک پایه متعامد و یکه را تشکیل می دهند که در آن ابعاد مختلف داده ها به طور خطی همبستگی ندارند. تحلیل مؤلفه های اصلی فرایند محاسبه مؤلفه های اصلی و استفاده از آن ها برای تغییر پایه داده ها است که گاهی فقط از چند مؤلفه اصلی اول استفاده می کند و بقیه را نادیده می گیرد.
تحلیل مؤلفه های اصلی اولین بار در سال ۱۹۰۱ توسط کارل پیرسون[ ۲] به عنوان متناظری از قضیه محورهای اصلی در مکانیک ارائه شد. این روش بعدها به صورت مستقل توسط هارولد هتلینگ[ ۳] در دهه ۱۹۳۰ میلادی توسعه یافت و نام گذاری شد. باتوجه به کاربرد این روش آن را تبدیل گسسته کارانن - لوف یا KLT در پردازش سیگنال نیز یا تبدیل هتلینگ در کنترل کیفیت چند متغیره می نامند.
تحلیل مؤلفه های اصلی را می توان به عنوان برازش یک بیضی با ابعاد p به داده ها در نظر گرفت، که در آن هر محور بیضی یک مؤلفه اصلی را نشان می دهد. اگر برخی از محورهای بیضی کوچک باشد، واریانس در امتداد آن محور نیز کوچک است. برای پیدا کردن محورهای بیضی، ابتدا باید با کم کردن میانگین مقادیر هر متغیر از آن ها، میانگین مجموعه داده را صفر کنیم. این مقادیر تبدیل شده حالا به جای مقادیر اصلی برای هر یک از متغیرها استفاده می شود. سپس، ماتریس کواریانس داده ها را محاسبه کرده و مقادیر ویژه و بردارهای ویژه آن را محاسبه می کنیم. سپس باید هر یک از بردارهای ویژه متعامد را نرمال کنیم تا آنها را به بردارهای واحد تبدیل کنیم. پس از انجام این کار، هر یک از بردارهای ویژه واحد متعامد را می توان به عنوان محوری از بیضی برازش داده ها تفسیر کرد. این انتخاب پایه، ماتریس کوواریانس را به ماتریسی قطری تبدیل می کند، که در آن درایه های روی قطر واریانس هر محور را نشان می دهد. درصد واریانسی که هر بردار ویژه از اطلاعات موجود بیان می کند را می توان با تقسیم مقدار ویژه مربوط به آن بردار ویژه بر مجموع همه مقادیر ویژه محاسبه کرد.
wiki: تحلیل مؤلفه های اصلی