مقاله درمورد دانلود تشخيص، نمونه‌هاي، ناهنجاري

مشاهده‌ي ترکيب عطفي را از ضرب احتمال هر ويژگي بدست آورد. کلاسي که بالاترين مقدار احتمال ثانويه را داشته باشد به عنوان کلاس پيش‌بيني شده براي آن داده‌ي آموزشي در نظر مي‌گيريم. بزرگترين ويژگي اين روش اين است که حجم آموزش اندکي براي شروع کار و تخمين پارامترها نياز دارد. سبيالا8 و همکاران(2002)، در تشخيص نفوذ از اين روش استفاده کرده اند .
تکنيک‌هاي تشخيص ناهنجاري مبتني بر قوانين از طريق قوانين9 ياد گرفته شده رفتارهاي نرمال سيستم را شناسايي مي‌کنند. داده‌هايي که به هيچ يک از اين قوانين نگاشت نشوند به عنوان داده‌هاي ناهنجار تلقي مي‌شوند. اين تکنيک هم براي تک‌کلاسه و هم چندکلاسه مورد استفاده قرار مي‌گيرد. تکنيک چندکلاسه‌ي مبتني بر قوانين شامل دو مرحله است: مرحله‌ي اول شامل يادگيري قوانين از داده‌هاي آموزشي با استفاده از الگوريتم‌هاي يادگيري قوانين همانند RIPPER و درخت تصميم گيري10 است. هر قانون يک ضريب اطمينان دارد که برابر است با نسبت تعداد نمونه‌هاي آموزشي که به درستي طبقه‌بندي شده‌اند به تعداد کل نمونه‌هاي آموزش که با اين قانون پوشش داده شده‌اند. مرحله‌ي دوم به ازاي هر داده‌ي آموزشي بهترين قانون را نسبت مي‌دهيم. عکس ضريب اطمينان برابر با درجه‌ي ناهنجاري براي آن داده‌ي تست مي‌باشد(اسلاوادور11 و چان12 ،2003 ).
3-3- روش هاي مبتني بر خوشه بندها
خوشه‌بندي يکي از روش هاي‌ دسته‌بندي داده‌ها بر اساس معيار شباهت است. خوشه‌بندي از جمله روش‌هاي بدون نظارت13 مي‌باشد. از برخي روش‌هاي خوشه‌بندي در تشخيص ناهنجاري استفاده مي‌شود. روش‌هاي تشخيص ناهنجاري مبتني بر خوشه‌بندي بر يکي از دو فرض زير استوار مي‌باشند.
فرض اول : نمونه‌هاي نرمال به مرکز جرم14 نزديک‌‌ترين خوشه خود نزديک هستند و نمونه‌هاي ناهنجار به مرکز جرم نزديک‌‌ترين خوشه‌ي خود دور هستند. معيار نزديکي در اين فرض مي‌تواند فاصله اقليدسي يا ديگر معيارها باشد. بنابراين اين فرض شامل دو گام اصلي مي‌باشد: در گام اول داده‌ها بر اساس الگوريتم خوشه‌بندي دسته‌بندي مي‌شوند. در گام بعدي فاصله هر نمونه داده‌اي با مرکز جرم نزديک‌‌ترين خوشه‌ي خود محاسبه مي‌شود. از جمله الگوريتم‌هاي خوشه‌بندي مي‌توان K-means را نام برد.
فرض دوم: نمونه‌هاي نرمال به خوشه‌هاي متراکم تعلق دارند و نمونه‌هاي ناهنجار به خوشه‌هايي با تراکم کم و پراکنده تعلق دارند.
مزاياي خوشه بندي: از مزاياي مهم استفاده از خوشه‌بندي در تشخيص ناهنجاري را مي‌توان کارکرد اين روش در مد بدون نظارت نام برد. همچنين اين روش در فاز تست سريع مي‌باشد چون فقط مستلزم مقايسه نمونه‌هاي تست با خوشه‌ها مي‌باشد.
معايب روش خوشه‌بندي : کارايي اين روش به کارايي الگوريتم خوشه‌بندي مورد استفاده بستگي دارد. همچنين بسياري از نمونه‌هاي ناهنجار در چندين خوشه مي‌توانند جاي گيرند و باعث توليد آلارم اشتباه شوند. (چاندولا و همکاران ، 2009).
3-3-1- K-means
اين روش علي‌رغم سادگي آن يک روش پايه براي بسياري از روش‌هاي خوشه‌بندي ديگر (مانند خوشه‌بندي فازي) محسوب مي‌شود. اين روش روشي انحصاري و مسطح محسوب مي‌شود. براي اين الگوريتم شکل‌هاي مختلفي بيان شده است. ولي همه‌ي آنها داراي روالي تکراري هستند که براي تعدادي ثابت از خوشه‌ها سعي در تخمين موارد زير دارند: (چاندولا و همکاران ، 2009)
بدست آوردن نقاطي به عنوان مراکز خوشه‌ها اين نقاط در واقع همان ميانگين نقاط متعلق به هر خوشه هستند.
نسبت دادن هر نمونه داده به يک خوشه که آن داده کمترين فاصله تا مرکز آن خوشه را دارا باشد.
در نوع ساده‌اي از اين روش ابتدا به تعداد خوشه‌‌هاي مورد نياز نقاطي به صورت تصادفي انتخاب مي‌شود. سپس داده‌ها با توجه با ميزان نزديکي (شباهت) به يکي از اين خوشه‌ها نسبت داده‌ مي‌شوند و بدين ترتيب خوشه‌هاي جديدي حاصل مي‌شود. با تکرار همين روال مي‌توان در هر تکرار با ميانگين‌گيري از داده‌ها مراکز جديدي براي آنها محاسبه کرد و مجدادا داده‌ها را به خوشه‌هاي جديد نسبت داد. اين روند تا زماني ادامه پيدا مي‌کند که ديگر تغييري در داده‌ها حاصل نشود.
معايب روش خوشه‌بندي K-means
با اينکه خاتمه‌پذيري الگوريتم بالا تضمين شده است ولي جواب نهايي آن واحد نبوده و همواره جوابي بهينه نمي‌باشد. به طور کلي اين روش داراي مشکلات زير است:
1)جواب نهايي به انتخاب خوشه‌هاي اوليه بستگي دارد.
2)روالي مشخص براي محاسبه‌ي اوليه مراکز خوشه‌ها وجود ندارد.
3)اگر در تکراري از الگوريتم تعداد داده‌هاي متعلق به خوشه‌اي صفر شد راهي براي تغيير و بهبود ادامه‌ي روش وجود ندارد.
4)در اين روش فرض شده است که تعداد خوشه‌ها از ابتدا مشخص است. اما معمولا در کاربردهاي زيادي تعداد خوشه‌ها مشخص نمي‌باشد.
3-3-2- خوشه‌بندي پويا15 براي تشخيص ناهنجاري
به دليل تغييرات زياد در توپولوژي شبکه‌هاي موردي سيار، بکاربردن پروفايل استاتيک نشان دهنده‌ي موقعيت جاري شبکه نيست. اين روش اجازه مي‌دهد تا پروفايل نرمال به طور پويا به‌روزرساني شود. در فاز يادگيري از الگوريتم خوشه‌بندي وزن‌دار با عرض ثابت 16براي ساخت پروفايل نرمال استفاده مي‌شود و در فاز تشخيص از ضرايب وزني 17و معادله‌ي فراموشي 18استفاده مي‌شود.
3-3-3- استفاده از روش نزديکترين همسايه در تشخيص ناهنجاري19
اين روش بر اساس اين فرض است که نمونه‌هاي نرمال در همسايه‌هاي متراکم اتفاق مي‌افتد و نمونه‌هاي ناهنجار دور از همسايه‌هاي نزديک اتفاق مي‌افتد. تکنيک نزديکترين همسايه نياز به تعريف فاصله يا يک مقدار قابل اندازه‌گيري بين دو نمونه داده دارد. فاصله بين دو نمونه داده به طرق مختلف قابل محاسبه است. براي داده‌هاي پيوسته فاصله‌ي اقليدسي بهترين گزينه براي تعيين معيار شباهت مي‌باشد. تکنيک‌هاي تشخيص ناهنجاري از طريق نزديکترين همسايه به دو دسته‌ي کلي تقسيم‌بندي مي‌شود:
از طريق محاسبه فاصله تا k نزديکترين همسايه ، درجه ناهنجاري مشخص مي‌شود.
از طريق محاسبه‌ي تراکم نمونه‌هاي داده درجه ناهنجاري تعيين مي‌شود.
در واقع دسته‌ي اول بدين صورت است که فاصله مجموعه داده‌هاي موجود تا K نزديکترين همسايه‌هاي خود را بدست مي‌آورد. روش ديگر در تعيين درجه ناهنجاري شمارش n نزديکترين همسايه است به طوري که فاصله‌اش از d کمتر باشد. از اين تکنيک براي تخمين تراکم عمومي براي هر نمونه داده استفاده مي‌شود. براي مثال براي مجموعه داده‌ي دو بعدي تراکم نمونه داده برابر با n/(?d^2 ) است. معکوس تراکم درجه ناهنجاري مي‌باشد که در بسياري از مراجع همان 1/n را به عنوان درجه‌ي ناهنجاري در نظر مي‌گيرند. براي بهبود تاثير اين تکنيک در (وو و جرمني20 ، 2006) از تکنيک نمونه‌برداري استفاده شد. بدين صورت که نزديکترين همسايه‌ها را تا نمونه‌هايي از مجموعه داده‌ها بدست مي‌آورد. بنابراين پيچيدگي اين الگوريتم را به O(MN) کاهش مي‌دهد.
تکنيک دوم بر اين فرض استوار است که نمونه‌هاي ناهنجار در جاهايي که تراکم داده کم است ظاهر مي‌شوند و در جاهايي که تراکم زياد است نمونه‌ها نرمال هستند. اين تکنيک زماني که داده‌ها پراکنده هستند خوب عمل نمي‌کند. براي مثال مجموعه داده‌ي دو بعدي شکل 3-1را در نظر بگيريد همانطور که پيداست خوشه‌ي C1 از تراکم کمي برخوردار است بنابراين به ازاي هر نمونه q که در داخل خوشه‌ي C1 هست فاصله‌اش تا نزديکترين همسايه‌اش از فاصله‌ي نمونه‌ي p2 که در داخل خوشه‌ي C2 هست تا نزديکترين همسايه‌اش بزرگتر مي‌باشد. يکي از مشکلات روش نزديکترين همسايه اين است که کارايي آن به اندازه فاصله وابستگي دارد(وو و جرمني ، 2006).

شکل 3-1: تکنيک نزديکترين همسايه (تراکم نمونه‌هاي کلاس C1 از نمونه‌هاي کلاس C2 کمتر مي‌باشد) (وو و جرمني21 ، 2006).
3-4- روش تشخيص ناهنجاري مبتني بر سيستم ايمني مصنوعي

اغلب روش‌هاي تشخيص ناهنجاري مبتني بر سيستم ايمني مصنوعي در گروه دسته‌بندهاي تک کلاسي قرار دارند. اما به دليل تفاوت‌هاي بسياري که بين روش‌‌هاي مبتني بر سيستم ايمني مصنوعي و دسته‌بندها وجود دارد، آنها به صورت جداگانه مورد بررسي قرار مي‌گيرد. در اين روش‌ها تشخيص ناهنجاري با استفاده از الگوريتم انتخاب منفي انجام مي‌شود و هدف توليد مجموعه‌اي از شناسگرها براي پوشش فضاي غيرعادي است(باراني،1390). داسکوپتا و گونزالس (2002)، روشي براي توصيف ناهنجاري‌ها در شبکه‌هاي کامپيوتري ارائه دادند که از الگوريتم ژنتيک براي توليد شناسگرهاي فرامکعبي شکل براي پوشش فضاي غيرعادي استفاده مي‌کند. در واقع اين شناسگرها در قالب مجموعه‌اي از قوانين نمايش داده مي‌شوند که قسمت شرط قوانين با همان فرامکعب‌ها نمايش داده مي‌شوند. برازندگي هر قانون مبتني بر حجم فرامکعب متناظر با آن قانون و تعداد فراکره‌هاي عادي هم‌پوشان با آن فرامکعب محاسبه مي‌شود. شکل 3-2 الگوريتم توزيع شناساگرهاي فرامکعبي در فضاي غيرعادي با استفاده از نمونه‌هاي عادي کروي شکل را نشان مي‌دهد.

شکل 3-2: توليد شناسگر فرامکعبي شکل براي پوشش فضاي غيرعادي با استفاده از نمونه‌هاي عادي کروي شکل (داسکوپتا و گونزالس ،2002).

استازوسکي 22 و همکاران (2006)، روشي مشابه روش فوق براي تشخيص ناهنجاري ارائه کرده‌اند که در آن هم شناساگرهاي منفي و هم نمونه‌هاي عادي توسط فرامکعب‌ها نمايش داده مي‌شوند. شکل 3-3 اين موضوع را به تصوير کشيده است.

شکل 3-3: توزيع شناسگرهاي فرامکعبي در فضاي غيرعادي با استفاده از نمونه‌هاي عادي مکعبي شکل(استازوسکي و همکاران ،2006).
سرافي جانويک23 و همکاران (2004) يک روش تشخيص ناهنجاري مبتني بر الگوريتم انتخاب منفي، تئوري خطر و انتخاب کلون، براي تشخيص گره‌هاي بدخواه در شبکه‌هاي اقتضايي متحرک مبتني بر پروتکل DSR ارائه کرده اند که اين روش چهار مرحله دارد. در مرحله اول ، مجموعه اوليه شناساگرها توليد مي شوند. در مرحله دوم، تشخيص و دسته‌بندي گره بدخواه در شبکه انجام مي‌شود و همچنين به طور هم‌زمان اين شناساگرها با استفاده از الگوريتم انتخاب کلون با رفتارهاي بدخواهانه انجام شده در طول اين مرحله تطيبيق پيدا مي‌کنند. در مرحله سوم، هيچ رفتار بدخواهانه‌اي در شبکه انجام نمي‌شود و سيستم گره‌هاي تشخيص داده شده به عنوان بدخواه را فراموش کرده و مجموعه شناساگرهاي توليد شده در پايان مرحله دوم بدون تغيير باقي مي‌مانند. در مرحله چهارم، رفتارهاي بدخواهانه‌اي مشابه مرحله دوم در شبکه انجام مي‌شود و تشخيص و دسته‌بندي گره‌هاي بدخواه در اين مرحله با استفاده از شناساگرهاي متفاوتي انجام خواهد شد.
به طور مشابه، بالچاندران و همکاران(2007)، يک روش تشخيص ناهنجاري مبتني بر رفتار پروتکل DSR ارائه کرده‌اند که در آن شناساگرها با ساختارهاي متفاوت نمايش داده شده و با استفاده از يک الگوريتم ژنتيک ساخت‌يافته (SGA24) توليد مي‌شوند. شکل 3-4 يک کرومزوم چند سطحي متشکل از سه نوع شناساگر فراکروي، فرامکعبي و فرابيضوي نمايش مي‌دهد. بيت کنترلي معرف شناساگر فعال در هر کرومزوم مي‌باشد.

شکل 3-4: نمايش يک کرومزوم چند سطحي(بالچاندران و همکاران،2007).

زي25 و همکاران (2006) ، سيستمي به نامAISANIDS براي تشخيص حملات در شبکه هاي اقتضايي متحرک ارائه دادند که شامل دو زير سيستم IDS اوليه و IDS ثانويه است. IDS اوليه از يک مولفه تحليل به صورت متمرکز براي ساخت تشخيص دهنده استفاده مي کند. IDS ثانويه به صورت توزيع شده دادهها را جمع آوري و دسته بندي مي کند و سپس تشخيص و پاسخگويي به نفوذ را انجام مي دهد.
کارهاي صورت گرفته در ادبيات موضوع نشان دهنده اين مطلب است که الگوريتم انتخاب منفي در حوزه تشخيص نفوذ از کارايي بالايي

دیدگاهتان را بنویسید