ده دیتاست استاندارد در یادگیری ماشین

کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، به خودی خود، یک مسئله منحصر به فرد محسوب می شود و نیازمند استراتژی مجزا و منحصر به فرد مخصوص خود می باشد.

در این پست، ما 10 دیتاست یادگیری ماشین، که جزو معروف ترین دیتاست ها و نیز استانداردترین شان هستند، معرفی خواهیم کرد.

ابتدا لیستی از دیتاست ها را مشاهده خواهید کرد:
1- Swedish Auto Insurance Dataset
2- Wine Quality Dataset
3- Pima Indians Diabetes Dataset
4- Sonar Dataset
5- Banknote Dataset
6- Iris Flowers Dataset
7- Abalone Dataset
8- Ionosphere Dataset
9- Wheat Seeds Dataset
10- Boston House Price Dataset

حال به معرفی تک تک دیتاست ها خواهیم پرداخت:
1- دیتاست Swedish Auto Insurance Dataset
دیتاست Swedish Auto Insurance Dataset در مورد بیمه اتوموبیل های کشور سوئد بوده که با واحد پولی Korona بیان گردیده است.
این دیتاست برای مسائل رگرسیون مناسب بوده و شامل 63 مشاهده است که یک ورودی با نام تعداد ادعاهای بیمه و یک خروجی با نام میزان پرداخت کل برای ادعاهای بیمه در هزار korona می باشد.
معیار خطای استاندارد بر مبنای شاخص RMSE به طور تقریبی 72.251 هزار krona می باشد.

2- دیتاست Wine Quality Dataset
دیتاست Wine Quality Dataset شامل پیش بینی کیفیت بادهای معمولی است که با شاخص های شیمیایی، کیفیت هر باد را می سنجد.
این دیتاست، یک مسئله دسته بندی چند کلاسه (Multi Class Problem) می باشد. تعداد مشاهده ها به ازای هر دیتاست متوازن نمی باشد. در کل 4898 مشاهده با 11 ستون ویژگی و یک ستون برچسب، عناصر تشکیل دهنده این دیتاست می باشند
اسامی ستون ها به قرار زیر می باشد:
1- Fixed acidity
2- Volatile acidity
3- Citric acid
4- Residual sugar
5- Chlorides
6- Free sulfur dioxide
7- Total sulfur dioxide
8- Density
9- pH
10- Sulphates
11- Alcohol
12- Quality (این ویژگی، ستون برچسب داده است که بین 1 الی 10 می باشد)
معیار خطای RMSE برای این دیتاست، به طور متوسط 0.148 می باشد.

3- دیتاست Pima Indians Diabetes Dataset
دیتاست Pima Indians Diabetes Dataset شامل پیش بینی دیابت افراد هندی در طول مدت 5 سال می باشد.
این دیتاست، یک مسئله دسته بندی دوکلاسه می باشد و تعداد مشاهده ها به ازای هر کلاس، متوازن نیست. در کل 768 مشاهده با 8 ورودی و یک ستون برچسب به عنوان خروجی عناصر تشکیل دهنده این دیتاست می باشند. همچنین این دیتاست شامل داده های گم شده نیز می باشد که با عدد صفر مشخص شده اند.
نام های ستون های ورودی ویژگی ها به قرار زیر است:
1- Number of times pregnant
2- Plasma glucose concentration a 2 hours in an oral glucose tolerance test
3- Diastolic blood pressure (mm Hg)
4- Triceps skinfold thickness (mm)
5- 2-Hour serum insulin (mu U/ml)
6- Body mass index (weight in kg/(height in m)^2)
7- Diabetes pedigree function
8- Age
9- Class variable ( عدد صفر یا 1)
در اینجا باید دقت شود که عدد صفر ستون برچسب داده های گم شده محسوب نمی شود و در ساخت مدل برای Impute کردن مقادیر گم شده، ستون برچسب باید مجزا گردد.
میزان دقت دسته بندی برای این مسئله حدود 65 درصد می باشد و بالاترین دقتی که تا به حال برای این مسئله وجود داشته، 77 درصد می باشد.

4- دیتاست Sonar Dataset
واژه Sonar به معنی دستگاه ردیابی به وسیله امواج صوتی است. دیتاست Sonar شامل میزان قوی بودن امواج برگشتی از اشیاء می باشد که از زاویه های مختلف بر اشیاء تابیده شده اند.
این دیتاست، یک مسئله دسته بندی دو کلاسه می باشد که تعداد مشاهدات به ازای هر کلاس، متوازن نمی باشد. تعداد مشاهدات 208 مشاهده، 60 ورودی و یک ستون برچسب می باشد.
ورودی ها شامل امواج برگشته در زاویه های مختلف می باشد و ستون کلاس شامل دو مقدار (M برای معدن و R برای تخته سنگ) می باشد.
میزان دقت پیش بینی به طور متوسط 53 درصد میباشد و بهترین دقتی که تاکنون به دست آمده، 88 درصد می باشد.

5- دیتاست Banknote Dataset
این دیتاست برای پیش بینی اصل بودن یا تقلبی بودن اسکناس های پول می باشد و بنابراین یک مسئله دسته بندی دو کلاسه می باشد و تعداد مشاهده ها به ازای هر دیتاست، متوازن نمی باشد.
تعداد مشاهدات 1372 تا بوده و 4 ستون ورودی و یک ستون خروجی دارد.
اسامی ستون های ورودی به قرار زیر می باشد:
1- (Variance of Wavelet Transformed image (continuous
2- (Skewness of Wavelet Transformed image (continuous
3- (Kurtosis of Wavelet Transformed image (continuous
4- (Entropy of image (continuous
5- Calss (عدد صفر برای اصل، و عدد 1 برای پول تقلبی می باشد)
میزان دقت متوسط برای این مسئله 50 درصد است (یعنی به اندازه انداختن یک سکه به صورت تصادفی و تعیین اینکه پول تقلبی است یا خیر) بنابراین شما این شانس را دارید که دقت این مدل را بیشتر از پرتاب یک سکه پول کنید.

6- دیتاست Iris Flowers
این دیتاست از مشهور ترین دیتاست های یادگیری ماشین می باشد که شامل مشخصات گونه های مختلف گل می باشد. این دیتاست برای مسائل سه کلاسه می باشد و تعداد مشاهدات به ازای هر گونه، متوازن می باشد. تعداد مشاهدات 150 عدد بوده و 4 ستون ورودی و یک ستون خروجی دارد. اسامی ویژگی های ورودی به شرح زیر می باشد:
1- Sepal length in cm
2- Sepal width in cm
3- Petal length in cm
4- Petal width in cm
5- Calss ( شامل Iris Setosa، Iris Versicolour و Iris Virginica می باشد)
دقت متوسط برای این مسئله به ازای کلاس هر کلاس 26 درصد می باشد.

7- دیتاست Abalone
دیتاست Abalone شامل پیش بینی سن صدف های دریایی می باشد. این دیتاست یک مسئله دسته بندی چند کلاسه است اما می تواند با تبدیلاتی به مسئله رگرسیون نیز تبدیل شود (زییایی کار همین جاست). توازن کلاس ها برقرار نیست و تعداد مشاهدات 4177 عدد بوده که شامل 8 ورودی می باشد و یک خروجی کلاس می باشد که نام های این ویژگی ها به ترتیب زیر می باشد:
1- Gender ( کلاس با سه عنوان M، F و I)
2- Length
3- Diameter
4- Height
5- Whole weight
6- Shucked weight
7- Viscera weight
8- Shell weight
9- Rings
دقت برای پیش بینی کلاس با بیشترین تعداد 16 درصد می باشد.

8- دیتاست Ionosphere
دیتاست Ionosphere برای پیش بینی ساختار اتمسفر لایه بیرونی جو زمین (Ionosphere) است. این پیش بنیی به وسیله برگشت امواج راداری است که به الکترون های آزاد موجود در لایه Ionosphere تابانده شده، به دست آمده است.
این دیتاست یک مسئله دو کلاسه نامتوازن است. تعدد مشاهدات 351 و تعداد ورودی ها 34 عدد و یک ستون خروجی کلاس می باشد. ستون کلاس شامل عبارت g برای وضعیت خوب و b برای وضعیت بد می باشد.
دقت متوسط پیش بینی 64 درصد می باشد و بهترین دقتی که تا به حال به دست آمده 94 درصد می باشد.

9- دیتاست Wheat Seeds
دیتاست Wheat Seeds برای پیش بینی گونه های متخلف دانه گندم استفاده می شود و یک مسئله دسته بندی دو کلاسه متوازن است. تعداد مشاهدات 210، ورودی ها 7 عدد و یک خروجی می باشد. اسامی ویژگی های ورودی به شرح زیر می باشد:
1- Area
2- Perimeter
3- Compactness
4- Length of kernel
5- Width of kernel
6- Asymmetry coefficient
7- Length of kernel groove
8- (Class (1,2,3
دقت پیش بینی به ازای هر متغیر برچسب 28 درصد می باشد

10- دیتاست Boston House Price
دیتاست Boston House Price شامل پیش بینی قیمت خانه ها و همسایه های آن بر اساس هزار دلار می باشد.
این دیتاست یک مسئله رگرسیون می باشد. تعداد مشاهدات 506، ورودی ها 13 و یک ستون خروجی می باشد. اسامی ستون های ویژگی به شرح زیر می باشد:
1- CRIM: per capita crime rate by town
2- ZN: proportion of residential land zoned for lots over 25,000 sq.ft
3- INDUS: proportion of nonretail business acres per town
4- (CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise
5- (NOX: nitric oxides concentration (parts per 10 million
6- RM: average number of rooms per dwelling
7- AGE: proportion of owner-occupied units built prior to 1940
8- DIS: weighted distances to five Boston employment centers
9- RAD: index of accessibility to radial highways
10- TAX: full-value property-tax rate per $10,000
11- PTRATIO: pupil-teacher ratio by town
12- B: 1000(Bk – 0.63)^2 where Bk is the proportion of blacks by town
13- LSTAT: % lower status of the population
14- MEDV: Median value of owner-occupied homes in $1000s
میزان خطای متوسط RMSE برای این دیتاست 9.21 هزار دلار می باشد.

مهرداد چهارشنبه 31 مرداد 1397 ساعت 17:15

Genetic Programming

Genetic Programming

تقویم