کلان داده ، مه داده [ ۱] [ ۲] یا بزرگ داده ( به انگلیسی: big data ) معمولاً به مجموعه داده هایی گفته می شود که بیش از حد بزرگ یا پیچیده هستند که نمی توان با نرم افزارهای کاربردی پردازش داده سنتی آنها را پردازش کرد. داده های با ورودی های زیاد ( ردیف ها ) توان آماری بیشتری را ارائه می دهند، در حالی که داده های با پیچیدگی بالاتر ( ویژگی ها یا ستون های بیشتر ) ممکن است به نرخ کشف نادرست بالاتری منجر شود. [ ۳] در حقیقت می توان گفت، مه داده حجم وسیعی از اطلاعات است که اگر حجم آن کم باشد قابل تفسیر و برداشت نیست. [ ۴]
چالش های تجزیه و تحلیل مه داده ها شامل جمع آوری داده ها، ذخیره سازی داده ها، تجزیه و تحلیل دادها، جستجوی آنها، اشتراک گذاری، انتقال، مصورسازی داده، پرسمان، به روز رسانی، حریم خصوصی اطلاعات و تعیین منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت. [ ۵] بدون سرمایه گذاری کافی در تخصص برای صحت کلان داده ها، حجم و تنوع داده ها می تواند هزینه ها و خطراتی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از داده های بزرگ است. [ ۶] استفاده کنونی از واژه مه داده به استفاده از تحلیل پیشگویانه، تحلیل رفتار کاربر یا برخی دیگر از روش های پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از داده های بزرگ استخراج می کند و به ندرت به اندازۀ خاصی از مجموعه داده ها می پردازد. «شکی وجود ندارد که حجم داده های موجود در حال حاضر واقعاً زیاد است، اما این مهم ترین ویژگی این اکوسیستم داده جدید نیست. »[ ۷] تجزیه و تحلیل مجموعه داده ها می تواند همبستگی های جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماری ها، مبارزه با جرم و جنایت و غیره» پیدا کند.
امروزه اندازه و تعداد مجموعه داده های موجود به سرعت رشد کرده است زیرا داده های فراوانی توسط دستگاه هایی مانند دستگاه های تلفن همراه، دستگاه های ارزان و متعدد سنجش اطلاعات اینترنت اشیا، سنجش از دور، گزارش های نرم افزارها، دوربین ها، میکروفون ها، سامانه بازشناسی با امواج رادیویی ( RFID ) ، ریدرها و شبکه های حسگر بی سیم جمع آوری می شود. [ ۸] [ ۹]
سیستم های مدیریت پایگاه داده رابطه ای و بسته های نرم افزار آماری رومیزی که برای مصورسازی داده ها استفاده می شوند، اغلب در پردازش و تجزیه و تحلیل مه داده ها با مشکل مواجه هستند. پردازش و تجزیه و تحلیل داده های بزرگ ممکن است نیاز به «نرم افزار موازی گسترده ای داشته باشد که بر روی ده ها، صدها یا حتی هزاران سرور اجرا می شود». [ ۱۰] کاربرد عنوان "مه داده " به مجموعه ای از داده ها، به توانایی های کسانی که آن را تجزیه و تحلیل می کنند و ابزار آنها بستگی دارد. برای برخی از سازمان ها، مواجه شدن با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازنگری در گزینه های مدیریت داده ها را ایجاد کند. برای برخی دیگر، ممکن است ده ها یا صدها ترابایت طول بکشد تا اندازه داده ها به یک موضوع قابل توجه تبدیل شود. »[ ۱۱]
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلفچالش های تجزیه و تحلیل مه داده ها شامل جمع آوری داده ها، ذخیره سازی داده ها، تجزیه و تحلیل دادها، جستجوی آنها، اشتراک گذاری، انتقال، مصورسازی داده، پرسمان، به روز رسانی، حریم خصوصی اطلاعات و تعیین منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت. [ ۵] بدون سرمایه گذاری کافی در تخصص برای صحت کلان داده ها، حجم و تنوع داده ها می تواند هزینه ها و خطراتی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از داده های بزرگ است. [ ۶] استفاده کنونی از واژه مه داده به استفاده از تحلیل پیشگویانه، تحلیل رفتار کاربر یا برخی دیگر از روش های پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از داده های بزرگ استخراج می کند و به ندرت به اندازۀ خاصی از مجموعه داده ها می پردازد. «شکی وجود ندارد که حجم داده های موجود در حال حاضر واقعاً زیاد است، اما این مهم ترین ویژگی این اکوسیستم داده جدید نیست. »[ ۷] تجزیه و تحلیل مجموعه داده ها می تواند همبستگی های جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماری ها، مبارزه با جرم و جنایت و غیره» پیدا کند.
امروزه اندازه و تعداد مجموعه داده های موجود به سرعت رشد کرده است زیرا داده های فراوانی توسط دستگاه هایی مانند دستگاه های تلفن همراه، دستگاه های ارزان و متعدد سنجش اطلاعات اینترنت اشیا، سنجش از دور، گزارش های نرم افزارها، دوربین ها، میکروفون ها، سامانه بازشناسی با امواج رادیویی ( RFID ) ، ریدرها و شبکه های حسگر بی سیم جمع آوری می شود. [ ۸] [ ۹]
سیستم های مدیریت پایگاه داده رابطه ای و بسته های نرم افزار آماری رومیزی که برای مصورسازی داده ها استفاده می شوند، اغلب در پردازش و تجزیه و تحلیل مه داده ها با مشکل مواجه هستند. پردازش و تجزیه و تحلیل داده های بزرگ ممکن است نیاز به «نرم افزار موازی گسترده ای داشته باشد که بر روی ده ها، صدها یا حتی هزاران سرور اجرا می شود». [ ۱۰] کاربرد عنوان "مه داده " به مجموعه ای از داده ها، به توانایی های کسانی که آن را تجزیه و تحلیل می کنند و ابزار آنها بستگی دارد. برای برخی از سازمان ها، مواجه شدن با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازنگری در گزینه های مدیریت داده ها را ایجاد کند. برای برخی دیگر، ممکن است ده ها یا صدها ترابایت طول بکشد تا اندازه داده ها به یک موضوع قابل توجه تبدیل شود. »[ ۱۱]
wiki: کلان داده