Feature generation using genetic programming with comparative partner selection for diabetes classification
نسل ویژگی با استفاده از برنامه نویسی ژنتیک با انتخاب شریک زندگی تطبیقی برای طبقه بندی دیابت
هدف این مقاله، آسان نمودن تشخیص دیابت میباشد. در این مقاله از یک روش مبتنی بر برنامهنویسی ژنتیک برای طبقهبندی انوع دیابت استفاده شدهاست. از GP برای ایجاد صفات جدید استفاده شده، که اینکار با ترکیب صفات دیابتهای موجود و بدون اطلاع قبلی از پراکندگی احتمالی آنها انجام شده است. متد پیشنهاد شده سه مرحله دارد: انتخاب و گزینش صفات در مرحله اول با استفاده از T-test، تست Kolmogorov-Smirnov، تست انحراف Kullback-Leibler، انتخاب F-scare و GP انجام میشود. نتایج حاصل از روشهای انتخاب صفات برای تهیه یک لیست مرتب شده براساس ویژگیها و صفات اولیه و اوریجینال بکار میرود، لیستی که صفات براساس کاهش اهمیت اولویت بندی میشوند. زیرمجموعههای متفاوتی از صفات اولیه از طریق اضافه کردن یکی یکی صفات موجود در هر زیرمجموعه آماده میشود که از متد گزینش فوروارد زنجیرهای یا پیدرپی طبق لیست مرتب شده استفاده میکند. در مرحله دوم، از GP برای ایجاد صفات و ویژگیهای جدید از هر زیرمجموعهی صفات اولیه دیابتها استفاده میشود، که اینکار با ایجاد ترکیبهای غیرخطی از صفات اولیه انجام میشود.
گونههایی از GP که GP دارای گزینش پارتنر مقایسهای (GP-CPS) خوانده میشود، و از نقاط قوت و ضعف صفات ایجاد شده GP بهره میبرد، در مرحله دوم استفاده شدهاست. اجرای صفات تولید شده GP برای طبقهبندی با استفاده از طبقهبندی کنندههای K-nearest neighbor و پشتیبانی از ماشین بردار طبقهبندی در مرحله آخر صورت میپذیرد. مقایسه این روش با روشهای دیگر نشان میدهد که روش پیشنهادی عملکرد بهتر و عالیتری نسبت به سایر متدهای جدید از خود نشان میدهد.مقایسه با متدهای موجود:
1- در سال 2008 پولات و همکارانش با استفاده از GDA و LS-SVM دقت طبقهبندی خود را تا حدود 79.2 درصد رساندهاند. در مرحله اول از GDA برای پردازش مجموعه دادهها استفاده شد و از LS-SVM هم در مرحله دوم برای طبقهبندی استفاده گردید که در برابر دقت بدست آمده در این مقاله (80.5 درصد) قابل مقایسه نیست.
2- پولات و گونز با استفاده از PCA به عنوان تولید کننده صفت، دقتی برابر با 89.5 درصد گزارش دادند که این دقت توسط تمورتاز و همکارانش زیر سوال رفته است و این شک و تردید در مورد آن مقدار دقت، توسط تحقیق فعلی و حاضر تایید میشود.
3- تمورتاز و همکارانش دقت 82.4 درصد (متعارف) و دقت 79.6 درصد را با استفاده از MLNN به همراه LM گزارش دادند که نسبت به دقت بدست آمده در این تحقیق (80.5 و 87.0 درصد) پایین تر میباشد.
4- گاداراس و میخالُف دقت طبقه بندی 92.3 درصد گزارش دادند که اگر چه از نتایج نامشخص استفاده کردند اما آموزش و دادههای تستی متفاوتی را بکار گرفتند(50/50 درصد). به علاوه اینکه آنها از اعتباریابی 2*fc استفاده کردند که همانطور که در بخش قبلی نشان داده شد میتواند تاثیر شگرفی روی عملکرد داشته باشد.
5- یک متد مبتنی بر GP لایه بندی شده توسط لین، کی، چیِن و یانگ استفاده شد. آنها متذکر شدند که ارزشهای مفقود بدون ارائه کردن هیچ گونه جزئیاتی کامل شدند. بهترین دقتی که آنها گزارش دادند 73.5 بود که درمقایسه با دقت این مقاله (80.5) کمتر است.
6- برامیِر و بنژاف از GP خطی برای طبقهبندی دیابت استفاده کردند که تمرکز اصلی آنها روی کاهش میزان آموزش و پیچیدگی الگوریتم GP بود. آنها دقت عالی در حد 81 درصد گزارش دادند که در مقایسه با بهترین دقت بدست آمده در این تحقیق (87 درصد) کمتر می باشد. آنها دادهها را به گروههای مختلفی بر اساس سن بیماران تقسیم کردند و برای هر گروه دقت طقبهبندی جداگانهای گزارش دادند. دقت طبقهبندیای که گزارش دادند برای سنین بالاتر، بیشتر بود. با این حال، میانگین همه دقتها 85 درصد ( متعارف) است که در مقایسه با این مقاله (87 درصد) کمتر میباشد.
7- کالا و همکارانش با استفاده از ANN برای همان سناریویی که در این مقاله 87 درصد بدست آمده بود، دقت طبقهبندیای در حدود 82.4 درصد (متعارف) گزارش دادند. لِکاس و میخالُف دقت 79.4 درصد را با استفاده از طبقهبندی Fuzzy و برای همان شرایطی که ما 87 درصد تولید کردیم، بدست آوردند.
8- گانکالوس و ولاسکو، پاچیکو و سوزا از سیستم Neuro-Fuzzy سلسلهوار معکوس (IHNFS) استفاده نموده و دقت طبقه بندی 78.6 درصد را گزارش دادند.
9- بالاک ریشنان و همکارانش دقتی برابر با 98.9 درصد گزارش دادند ولی از کل مجموعه دادهها استفاده نکرده بودند. آنها از مجموعه دادههای تخفیف داده شده استفاده کرده و ارزشهای مفقودی را بدون ارائه هرگونه جزئیاتی که این ارزشها نادیده انگاشته میشوند، در نظر نگرفته بودند. در نظر نگرفتن و صرف نظر کردن از ارزشهای مفقودی میتواند باعث افزایش عملکرد شود.
با توجه به مطالب فوق، میتوان فهمید که متدهای پیشنهاد شده نتایج عالیتری را بدست میدهند البته زمانیکه با سایر متدهایی که از همان آموزش یا بخشهای اطلاعاتی مربوط به تست استفاده میکنند مقایسه میشوند.
نتیجه کلی: