پایان نامه با کلید واژه های بهبود عملکرد، آموزش توجه

دارند. چون هدف نهايي داده کاوي روي اين مجموعه داده ها يافتن نظام حاکم بر آنهاست بنابراين کارايي مدل دسته بندي بسيار مهم است. از طرف ديگر اين که چه بخشي از مجموعه داده اوليه براي آموزش و چه بخشي به عنوان آزمايش استفاده شود بستگي به روش ارزيابي مورد استفاده دارد که در ادامه انواع روشهاي مشهور را بررسي خواهيم کرد]صنيعي آباده 1391[.
روش Holdout
در اين روش چگونگي نسبت تقسيم مجموعه داده ها بستگي به تشخيص تحليلگر داشته اما روش هاي متداول ازنسبت 50-50 و يا دو سوم براي آموزش و يک سوم براي آزمايش و ارزيابي استفاده ميکنند.
مهم ترين حسن اين روش سادگي و سرعت بالاي عمليات ارزيابي مي باشد اما معايب اين روش بسيارند. اولين ايراد اين روش آن است که بخشي از مجموعه داده اوليه که به عنوان داده آزمايشي است، شانسي براي حضور در مرحله آموزش ندارد. بديهي است مدلي که نسبت به کل داده اوليه ساخته مي شود، پوشش کلي تري را بر روي داده مورد بررسي خواهد داشت. بنابراين اگر به رکوردهاي يک دسته در مرحله آموزش توجه بيشتري شود به همان نسبت در مرحله آزمايش تعدادرکوردهاي آن دسته کمتر استفاده مي شوند.
دومين مشکل وابسته بودن مدل ساخته شده به، نسبت تقسيم مجموعه داده ها است. هرچقدر داده آموزشي بزرگتر باشد، بدليل کوچکتر شدن مجموعه داده آزمايشي دقت نهايي براي مدل يادگرفته شده غيرقابل اعتماد تر خواهد بود. و برعکس با جابجايي اندازه دو مجموعه داده چون داده آموزشي کوچک انتخاب شده است، واريانس مدل نهايي بالاتربوده و نمي توان دانش کشف شده را به عنوان تنها نظم ممکن درمجموعه داده اوليه تلقي کنيم.
روش Random Subsampling
اگر روش Holdout را چند مرتبه اجرا نموده و از نتايج بدست آمده ميانگين گيري کنيم روش قابل اعتماد تري را بدست آورده ايم که Random Subsampling ناميده مي شود.
ايراد اين روش عدم کنترل بر روي تعداد استفاده از يک رکورد در آموزش يا ارزيابي مي باشد.
3-8-3-روش Cross-Validation
اگر در روش Random Subsampling هرکدام از رکوردها را به تعداد مساوي براي يادگيري و تنها يکبار براي ارزيابي استفاده کنيم روشي هوشمندانه تر اتخاذ کرده ايم. اين روش در متون علمي Cross-Validation ناميده مي شود. براي مثال مجموعه داده را به دوقسمت آموزش و آزمايش تقسيم ميکنيم و مدل را بر اساس آن مي سازيم. حال جاي دوقسمت را عوض کرده و از مجموعه داده آموزش براي آزمايش و از مجموعه داده آزمايش براي آموزش استفاده کرده و مدل را مي سازيم. حال ميانگين دقت محاسبه شده به عنوان ميانگين نهايي معرفي مي شود. روش فوق 2-Fold Cross Validation نام دارد. اگر بجاي 2 قسمت مجموعه داده به K قسمت تقسيم شود، و هر بار با K-1 قسمت مدل ساخته شود و يک قسمت به عنوان ارزيابي استفاده شود درصورتي که اين کار K مرتبه تکرار شود بطوري که از هر قسمت تنها يکبار براي ارزيابي استفاده کنيم، روش K-Fold Cross Validation را اتخاذ کرده ايم. حداکثر مقدار k برابر تعداد رکوردهاي مجموعه داده اوليه است.
3-8-4-روش Bootstrap
در روشهاي ارزيابي که تاکنون اشاره شدند فرض برآن است که عمليات انتخاب نمونه آموزشي بدون جايگذاري صورت مي گيرد. درواقع يک رکورد تنها يکبار در يک فرآيند آموزشي شرکت داده مي شود. اگر يک رکورد بيش از يک مرتبه در عمليات يادگيري مدل شرکت داده شود روش Bootstrap را اتخاذ کرده ايم. در اين روش رکوردهاي آموزشي براي انجام فرآيند يادگيري مدل ازمجموعه داده اوليه به صورت نمونه برداري با جايگذاري انتخاب خواهند شد و رکوردهاي انتخاب نشده جهت ارزيابي استفاده مي شود.
3-9-الگوريتمهاي دسته بندي
در اين بخش به اجراي الگوريتم هاي دسته بندي پرداخته و نتايج حاصل را مشاهده خواهيم کرد.
درالگوريتمهاي اجرا شده از هر سه روش Holdout, k fold Validation, Bootstrap استفاده شده است و نتايج با هم مقايسه شده اند. در روشHoldout که در نرم افزار با نام Split Validation آمده است از نسبت استاندارد آن يعني 70 درصد مجموعه داده اوليه براي آموزش و 30 درصد براي آزمايش استفاده شده است. براي k fold Validation مقدار k برابر 10 درنظر گرفته شده است که مقدار استانداردي است. در Bootstrap نيز مقدار تقسيم بندي مجموعه داده برابر 10 قسمت درنظر گرفته شده است. مقدار local random seed نيز برابر عدد 1234567890 مي باشد که براي همه مدلها، نرم افزار از آن استفاده مي کند مگر اينگه در مدل خاصي عدم استفاده از آن ويا تغيير مقدارموجب بهبود عملکرد الگوريتم شده باشد که قيد ميگردد. اشکال 3-6و3-7 چگونگي استفاده از يک مدل ارزيابي را در Rapidminer نشان مي دهد.
شکل 3-6: نماي کلي استفاده از روشهاي ارزيابي
شکل 3-7: نماي کلي استفاده از يک مدل درون يک روش ارزيابي
الگوريتم KNN
در انتخاب مقدار k اعداد بين 1 تا 20 و همچنين اعداد 25 تا 100 با فاصله 5 آزمايش شدند. بهترين مقدار عدد 11 بوده است.
پس از اجراي الگوريتم، بهترين نتيجه مربوط به ارزيابي Split Validation با دقت91.23%بوده است. نمودار AUC آن در شکل 3-8 ترسيم شده است.
شکل 3-8: نمودار AUC الگوريتم KNN
الگوريتم Naïve Bayes
اين الگوريتم پارامترخاصي براي تنظيم ندارد.
بهترين نتيجه مربوط به ارزيابي Split Validation با دقت 96.09% بوده است. نمودار AUC آن در شکل 3-9 ترسيم شده است.
شکل 3-9: نمودار AUC الگوريتم Naïve Bayes
الگوريتم Neural Network
تکنيک شبکه عصبي استفاده، مدل پرسپترون چندلايه با 4 نرون در يک لايه نهان بوده است.
تنظيمات الگوريتم شبکه عصبي به شرح زير بوده است:
Training cycles=500
Learning rate=0.3
Momentum=0.2
Local random seed=1992
چون اين الگوريتم فقط از ويژگيهاي عددي پشتيباني مي کند، از عملگرهاي مختلفي براي تبديل مقادير غيرعددي به عدد استفاده شده است. به همين دليل تنها از روش Split validation با نسبت 70-30براي ارزيابي استفاده شده است که تقسيم ورودي ها نيز توسط کاربر انجام گرفت.
شکل3-10 عمليات انجام شده را نشان مي دهد.
شکل 3-10: تبديل ويژگي هاي غير عددي به عدد در الگوريتم شبکه عصبي
نتيجه اجراي الگوريتم Neural Network دقت 91.25%بوده ماتريس آشفتگي آن و نمودار AUC در شکل 3-11 رسم شده است.
شکل 3-11: نمودار AUC و ماتريس آشفتگي الگوريتم Neural Net
الگوريتم SVM خطي
در اين الگوريتم نيز بدليل عدم پشتيباني از نوع داده اسمي از عملگرهاي مختلفي براي تبديل مقادير غيرعددي به عدد استفاده شده است. به همين دليل تنها از روش Split validation با نسبت 70-30 براي ارزيابي استفاده شده است که تقسيم ورودي ها نيز توسط کاربر انجام شد.
شکل3-12 عمليات انجام شده را نشان مي دهد.
شکل 3-12: تبديل ويژگي هاي غير عددي به عدد در الگوريتم SVM خطي
پارامترهاي الگوريتم عبارتند از :
Kernel cache=200
Max iteretions=100000
نتيجه حاصل از اجراي الگوريتم SVM خطي دقت 98.54% است. ماتريس آشفتگي آن و نمودار AUC در شکل 3-13 رسم شده است.
شکل 3-13 : نمودار AUC الگوريتم SVM Linear
3-9-5-الگوريتم رگرسيون لجستيک
در اين الگوريتم از روش Split validation با نسبت 70-30براي ارزيابي استفاده شده است که تقسيم ورودي ها نيز توسط کاربر انجام شد.
نتيجه حاصل از اجراي الگوريتم رگرسيون لجستيک دقت 98.54% است. ماتريس آشفتگي آن و نمودار AUC در شکل 3-14 رسم شده است.
شکل 3-14 : نمودار AUC الگوريتم رگرسيون لجستيک
3-9-6- الگوريتم Meta Decision Tree
در اين الگوريتم که يک درخت تصميم است، از روش Split validationبا نسبت 70-30 براي ارزيابي استفاده شده است که دقت 96.64% اقدام به پيش بيني خسارت احتمالي نموده است. ماتريس آشفتگي آن و نمودار AUC در شکل 3-15 رسم شده است.
شکل 3-15 : نمودار AUC الگوريتم Meta Decision Tree
با توجه به اندازه بزرگ درخت خروجي فقط قسمتي از آن در شکل 3-16 بصورت درخت نمايش داده مي شود. در شکل 3-17 درخت بصورت کامل آمده است اما نتايج آن در فصل چهارم مورد تفسير قرار خواهند گرفت.
شکل 3-16 : قسمتي از نمودارtree الگوريتم Meta Decision Tree
شکل 3-17 : نمودار radial الگوريتم Meta Decision Tree
3-9-7-الگوريتم درخت Wj48
چون RapidMiner توانايي استفاده ازالگوريتمهاي نرم افزار WEKA را نيز دارد، در بسياري از الگوريتم ها قدرت مند تر عمل ميکند. Wj48 نسخه WEKA از الگوريتمj48 است.
پارامترهاي اين الگوريتم عبارتند از:
C=0.25
M=2
در اين الگوريتم از روش ارزيابي 10 Fold Validation استفاده شده است و دقت پيش بيني آن برابر 99.52% است. ماتريس آشفتگي آن و نمودار AUC در شکل 3-18 رسم شده است. نماي درخت در شکل 3-19 ترسيم شده است.
شکل 3-18: نمودار AUC الگوريتم Wj48
شکل 3-19 : نمودار tree الگوريتم Wj48
3-9-8-الگوريتم درخت Random forest
در اين الگوريتم از هر سه روش ارزيابي بيان شده در قسمت 3-9 استفاده شده است، که بهترين کارايي مربوط به ارزياب Split Validation با دقت96.72% است. ماتريس آشفتگي آن و نمودار AUC در شکل 3-20 رسم شده است.
شکل 3-20 : نمودار AUC الگوريتم Random forest
تنظيمات اين الگوريتم براي توليد 20 درخت، بطوري که هر درخت حداقل 6 برگ را شامل شود به همراه هرس و بدون پيش هرس انجام گرفته است. شکل کلي درختهاي توليد شده و يک نمونه از درخت توليدي در شکلهاي 3-21و3-22 قابل مشاهده است.
شکل 3-21 : نمودار توليد 20 درخت در الگوريتم Random Forest
شکل 3-22 : يک نمونه درخت توليد شده توسط الگوريتم Random Forest
3-10-معيارهاي ارزيابي الگوريتم هاي مبتني بر قانون33(کشف قوانين انجمني)
قوانين انجمني الگوهاي زيادي را توليد مي نمايند که ممکن است همه الگوها براي ما جذاب نباشند. جذابيت قوانين استخراج شده به حوزه اي که مجموعه داده مورد بررسي به آن تعلق دارد و شخص استفاده کننده از قوانين بستگي داشته و متغير است. بنابراين معيارهايي را بايد براي ارزيابي کيفيت اين قوانين تعريف نماييم.
اگر قانوني داشته باشيم که بگويد A آنگاه B ، از نسبت تعداد رکوردهايي که در آن A, B هردو حضوردارند، به کل تعداد رکوردها، معياري به دست مي آيد که Support نام دارد. اين مقدار عددي بين 0 و 1 است. معمولا براي جستجوي راحت تر قوانين، يک آستانه براي Support درنظر مي گيرند تا تعداد قوانين بدست آمده محدودتر شود.
مقدار آستانه ممکن است باعث شود قوانيني را که Support آنها از آستانه کمتر باشد اما با ارزش نيز باشد را نبينيم. پس اين معيار به تنهايي براي مشخص کردن ارزشمندي يک قانون کافي نيست.
Confidence معيارديگري است که مقداري بين 0و1 خواهد داشت. اگر اين معيار براي قانوني 98/0 اطمينان را نشان دهد به اين معني است که در 98 % حالات اگر سمت چپ قانون درست باشد، سمت راست قانون نيز درست خواهد بود.
(A?B)=(SUP(A?B))/(SUP(A)) Confidence
الگوريتم FPgrowth
قوانين حاصل از اين الگوريتم طبق جدول3-10 مي باشد.

دیدگاهتان را بنویسید

Close Menu