Genetic Programming

معرفی مقاله

Feature generation using genetic programming with comparative partner selection for diabetes classification

نسل ویژگی با استفاده از برنامه نویسی ژنتیک با انتخاب شریک زندگی تطبیقی برای طبقه بندی دیابت


هدف این مقاله، آسان نمودن تشخیص دیابت می‌باشد. در این مقاله از یک روش مبتنی بر برنامه‌نویسی ژنتیک برای طبقه‌بندی انوع دیابت استفاده شده‌است. از GP برای ایجاد صفات جدید استفاده شده، که اینکار با ترکیب صفات دیابتهای موجود و بدون اطلاع قبلی از پراکندگی احتمالی آنها انجام شده است. متد پیشنهاد شده سه مرحله دارد: انتخاب و گزینش صفات در مرحله اول با استفاده از T-test، تست Kolmogorov-Smirnov، تست انحراف Kullback-Leibler، انتخاب F-scare و GP انجام می‌شود. نتایج حاصل از روش‌های انتخاب صفات برای تهیه یک لیست مرتب شده بر‌اساس ویژگی‌ها و صفات اولیه و اوریجینال بکار می‌رود، لیستی که صفات بر‌اساس کاهش اهمیت اولویت بندی می‌شوند. زیرمجموعه‌های متفاوتی از صفات اولیه از طریق اضافه کردن یکی یکی صفات موجود در هر زیرمجموعه آماده می‌شود که از متد گزینش فوروارد زنجیره‌ای یا پی‌در‌پی طبق لیست مرتب شده استفاده می‌کند. در مرحله دوم، از GP برای ایجاد صفات و ویژگی‌های جدید از هر زیرمجموعه‌ی صفات اولیه دیابت‌ها استفاده می‌شود، که اینکار با ایجاد ترکیب‌های غیرخطی از صفات اولیه انجام می‌شود.   گونه‌هایی از GP که GP دارای گزینش پارتنر مقایسه‌ای (GP-CPS) خوانده می‌شود، و از نقاط قوت و ضعف صفات ایجاد شده GP بهره می‌برد، در مرحله دوم استفاده شده‌است. اجرای صفات تولید شده GP برای طبقه‌بندی با استفاده از طبقه‌بندی کننده‌های K-nearest neighbor و پشتیبانی از ماشین بردار طبقه‌بندی در مرحله آخر صورت می‌پذیرد. مقایسه این روش با روشهای دیگر نشان می‌دهد که روش پیشنهادی عملکرد بهتر و عالی‌تری نسبت به سایر متدهای جدید از خود نشان می‌دهد.

مقایسه با متدهای موجود:

1- در سال 2008 پولات و همکارانش با استفاده از GDA و LS-SVM دقت طبقه‌بندی خود را تا حدود 79.2 درصد رسانده‌اند. در مرحله اول از GDA برای پردازش مجموعه داده‌ها استفاده شد و از LS-SVM هم در مرحله دوم برای طبقه‌بندی استفاده گردید که در برابر دقت بدست آمده در این مقاله (80.5 درصد) قابل مقایسه نیست.

2- پولات و گونز با استفاده از PCA به عنوان تولید کننده صفت، دقتی برابر با 89.5 درصد گزارش دادند که این دقت توسط تمورتاز و همکارانش زیر سوال رفته است و این شک و تردید در مورد آن مقدار دقت، توسط تحقیق فعلی و حاضر تایید می‌شود.

3- تمورتاز و همکارانش دقت 82.4 درصد (متعارف) و دقت 79.6 درصد را با استفاده از MLNN به همراه LM گزارش دادند که نسبت به دقت بدست آمده در این تحقیق (80.5 و 87.0 درصد) پایین تر می‌باشد.

4- گاداراس و میخالُف دقت طبقه بندی 92.3 درصد گزارش دادند که اگر چه از نتایج نامشخص استفاده کردند اما آموزش و داده‌های تستی متفاوتی را بکار گرفتند(50/50 درصد). به علاوه اینکه آنها از اعتباریابی 2*fc استفاده کردند که همانطور که در بخش قبلی نشان داده شد می‌تواند تاثیر شگرفی روی عملکرد داشته باشد.

5- یک متد مبتنی بر GP لایه بندی شده توسط لین، کی، چیِن و یانگ استفاده شد. آنها متذکر شدند که ارزش‌های مفقود بدون ارائه کردن هیچ گونه جزئیاتی کامل شدند. بهترین دقتی که آنها گزارش دادند 73.5 بود که درمقایسه با دقت این مقاله (80.5) کمتر است.

6- برامیِر و بنژاف از GP خطی برای طبقه‌بندی دیابت استفاده کردند که تمرکز اصلی آنها روی کاهش میزان آموزش و پیچیدگی الگوریتم GP بود. آنها دقت عالی در حد 81 درصد گزارش دادند که در مقایسه با بهترین دقت بدست آمده در این تحقیق (87 درصد) کمتر می باشد. آنها داده‌ها را به گروه‌های مختلفی بر اساس سن بیماران تقسیم کردند و برای هر گروه دقت طقبه‌بندی جداگانه‌ای گزارش دادند. دقت طبقه‌بندی‌ای که گزارش دادند برای سنین بالاتر، بیشتر بود. با این حال، میانگین همه دقتها 85 درصد ( متعارف) است که در مقایسه با این مقاله (87 درصد) کمتر می‌باشد.

7- کالا و همکارانش با استفاده از ANN برای همان سناریویی که در این مقاله 87 درصد بدست آمده بود، دقت طبقه‌بندی‌ای در حدود 82.4 درصد (متعارف) گزارش دادند. لِکاس و میخالُف دقت 79.4 درصد را با استفاده از طبقه‌بندی Fuzzy و برای همان شرایطی که ما 87 درصد تولید کردیم، بدست آوردند.

8- گانکالوس و ولاسکو، پاچیکو و سوزا از سیستم Neuro-Fuzzy سلسله‌وار معکوس (IHNFS) استفاده نموده و دقت طبقه بندی 78.6 درصد را گزارش دادند.

9- بالاک ریشنان و همکارانش دقتی برابر با 98.9 درصد گزارش دادند ولی از کل مجموعه داده‌ها استفاده نکرده بودند. آنها از مجموعه داده‌های تخفیف داده شده استفاده کرده و ارزشهای مفقودی را بدون ارائه هرگونه جزئیاتی که این ارزش‌ها نادیده انگاشته می‌شوند، در نظر نگرفته بودند. در نظر نگرفتن و صرف نظر کردن از ارزشهای مفقودی می‌تواند باعث افزایش عملکرد شود.

با توجه به مطالب فوق، می‌توان فهمید که متدهای پیشنهاد شده نتایج عالی‌تری را بدست می‌دهند البته زمانیکه با سایر متدهایی که از همان آموزش یا بخش‌های اطلاعاتی مربوط به تست استفاده می‌کنند مقایسه می‌شوند.

نتیجه کلی:

این مقاله به ارائه یک روش مبتنی بر برنامه ریزی ژنتیکی برای طبقه بندی داده های مربوط به بیماری دیابت می‌پردازد که از روش‌های مختلفی برای ارزیابی تاثیر ویژگی‌های دیابت جهت تسهیل در انتخاب و گزینش ویژگی‌ها، استفاده شده است. GP برای اتوماتیک کردن پروسه تولید ویژگی‌های جدید با استفاده از ترکیب ویژگی‌های انتخاب شده بکار گرفته شده است. یک گونه از GP به نام GP دارای CPs استفاده شده است که بهتر از GP استاندارد عمل می‌کند. GP نه فقط عملکرد را بهبود می‌بخشد بکله ورودی هشت بُعدی را به یک بُعد کاهش می‌دهد. ویژگی‌های تولید شده توسط GP توسط KNN و SVM جهت ارزیابی عملکرد آزمایش شده‌اند و نتایج نشان می‌دهد که GP ویژگی‌های تولید شده GP پیشرفت قابل توجهی در عملکرد نسبت به عملکرد ناشی از استفاده از ویژگی‌های اولیه دیابت نشان می‌دهد. مقایسه این روش با سایر متدها موجود برتری این متد پیشنهاد شده را نشان می دهد.


لینک دانلود

نظرات (0)
امکان ثبت نظر جدید برای این مطلب وجود ندارد.