داده کاوی با پایتون

دانشنامه عمومی

داده کاوی فرایند کشف اطلاعات پیش بینی شده از تجزیه و تحلیل پایگاه داده های بزرگ است. نتیجهٔ مورد نظر از داده کاوی برای ایجاد یک مدل از یک مجموعه داده است با توجه به اینکه می تواند بینش خود را به مجموعه داده های مشابه تعمیم دهد. به عنوان مثالی در دنیای واقعی از یک نرم افزار داده کاوی موفق می توان در تشخیص تقلب خودکار از بانک ها و موسسات اعتباری دید. نرم افزار برنامه نویسی پایتون یکی از نرم افزارهای کارآمد در داده کاوی می باشد. پایتون به دلیل سادگی و همه منظوره بودن و ایجاد برنامه های کاربردی و تحلیل داده مورد توجه همگان قرار گرفته است. همچنین داشتن کتابخانه های متعدد و دسترسی آسان به آن موجب گرایش بسیاری از برنامه نویسان شده است. به همین دلیل به توضیح نکاتی از تکنیک های داده کاوی با پایتون می پردازیم. [ ۱]
اولین قدم در داده کاوی آماده سازی داده هاست که روش های مختلفی با استفاده از کتابخانه های متفاوت ( بسته به نوع داده ها و نتیجه مورد نیاز ) دارد. آماده سازی داده برای الگوریتم های معروف یادگیری ماشین ( به انگلیسی: machine learning ) که یکی از ابزارهای داده کاوی در پایتون محسوب می شود، نیز کاربرد دارد:
تحلیل داده ها
• مدیریت داده های ناکامل
• نرمال ساختن داده ها
• دسته بندی داده ها به انواع آنها
یکی از روش های معرفی داده به برنامه از طریق دستور زیر است ( مثال: داده های ما در این نمونه کار شامل ۵۰ نمونه از ۳ مدل گل مورد تحقیق می باشد. داده ها به صورت سی ای وی می باشد. داده های دریافتی شامل ۵ ردیف می باشند. ۴ ردیف اول مقادیر و ردیف آخر کلاس نمونه ما می باشد ) :
import urllib2 url = ' http://aima. cs. berkeley. edu/data/iris. csv' u = urllib2. urlopen ( url ) localFile = open ( ' iris. csv' , ' w' ) localFile. write ( u. read ( ) ) numpy import genfromtxt, zeros # read the first 4 columns data = genfromtxt ( ' iris. csv' , delimiter=' , ' , usecols= ( 0, 1, 2, 3 ) ) # read the fifth column target = genfromtxt ( ' iris. csv' , delimiter=' , ' , usecols= ( 4 ) , dtype=str ) print set ( target ) # build a collection of unique elements set ( ) تصویر سازی فهمیدن این که داده ها چه اطلاعاتی به ما می دهند و چگونگی ساختار آن ها یک مأموریت مهم در داده کاوی می باشد. تصویر سازی به ما کمک می کند تا به صورت گرافیکی این اطلاعات را بدست آوریم. استفاده از دستورهای نمودار کشیدن به ما کمک می کند تا مقدارهای دو داده مختلف را به صورت گرافیکی با هم مقایسه کنیم. مثال:دستور زیر برای ما گرافی را رسم می کند:[ ۲]
عکس داده کاوی با پایتونعکس داده کاوی با پایتونعکس داده کاوی با پایتونعکس داده کاوی با پایتونعکس داده کاوی با پایتون
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس