علم داده ها

دانشنامه عمومی

علم داده ( انگلیسی: Data science ) دانشی میان رشته ای پیرامون استخراج دانش و آگاهی از مجموعه ای داده و اطلاعات است. [ ۱] علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش های موجود در حوزه های مختلف علمی بنا شده است. تعدادی از این حوزه ها عبارتند از: ریاضیات، آمار، علوم کامپیوتر، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده محور است. آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب ترین شغل قرن بیست و یکم» متخصصین علم داده را این طور تعریف می کنند: کسانی که می دانند چگونه می توان از انبوه اطلاعات بدون ساختار پاسخ سؤال های کسب و کار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این طور تعریف می کند: علم داده، رشته در حال ظهوری است که به جمع آوری، آماده سازی، تحلیل، بصری سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می پردازد. دریسکول در سال ۲۰۱۴ علم داده را این طور تعریف می کند: علم داده مهندسی عمران داده ها است. متخصص علم داده دانشی کاربردی از داده ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می کند چه چیزی از نظر علمی ممکن است. [ ۲]
به شاغلین در حوزهٔ علم داده، دانشمند داده ( data scientist ) می گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر[ ۳] ابداع شده است در صورتی که سال ها قبل از آن که آن ها استفاده از اصطلاح فوق را به طور عمومی مطرح کنند، از آن استفاده شده است. [ ۴] چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می کنند. به طور کلی انتظار می رود که متخصصین علم داده قادر باشند در بخش هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. [ ۵] یک متخصص علم داده می بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه ها دارای مهارت کافی باشد. نتایج نظرسنجی ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است. [ ۶] دانشمندان داده می توانند مهارت هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
• توانایی استخراج و تفسیر منابع داده
• مدیریت حجم زیاد اطلاعات با سخت افزار
• محدودیت های نرم افزاری و پهنای باند
• ادغام منابع داده با یکدیگر
• تضمین پایداری مجموعه های داده
مصورسازی داده برای فهم آن
• ساخت مدل های ریاضی با استفاده از داده، مانند مدلهای رگرسیون و طبقه بندی
• مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
• به اشتراک گذاری یافته ها و دیدگاه ها در حوزه داده با متخصصان دیگر یا مخاطب عام
عکس علم داده ها
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس