دوشنبه, ۶ اسفند, ۱۴۰۳ / 24 February, 2025
مروری بر روش های داده كاوی در پایگاه داده های بزرگ

امروزه به دلیل وجود ابزار های مختلف برای جمع آوری داده ها و پیشرفت قابل قبول تكنولوژی پایگاه داده ، حجم انبوهی از اطلاعات در انبار داده های مختلف ذخیره شده است . این رشد انفجاری داده ها ، احتیاج به یك سری تكنیك ها و ابزار های جدید كه توانایی پردازش هوشمندانه اطلاعات را دارا باشند ، نمایان می سازد .
داده كاوی با پیدا كردن مجموعه ای از الگوهای جالب از دل داده های موجود در انباره ها ، می تواند چنین نیازی را مرتفع كند .
در حال حاضر داده كاوی در پایگاه داده های بزرگ ، توسط بسیاری از محققان به عنوان یك موضوع تحقیقاتی مهم به شمار می آید .
محققان در بسیاری از رشته ها نظیر پایگاه داده ها ، یادگیری ماشین و آمار ، این موضوع را پیگیری كرده و تكنیك های مختلفی را برای داده كاوی ، تكنیك ها و روش های مختلف ارائه شده در این زمینه را معرفی كرده و آنها را طبقه بندی كند .
داده كاوی یكی از مهم ترن مراحل فرایند استخراج دانش در پایگاه داده به حساب می آید . مراحل مختلف استخراج دانش در پایگاه داده ها به شرح ذیل است :
۱. درك دامنه مسئله : شامل دانش های موجود و اهداف مسئله .
۲. استخراج یك مجموعه داده : شامل انتخاب یك مجموعه داده ای و تمركز ر روی قسمتی از داده ها .
۳. آماده سازی و پاكسازی داده ها : شامل عملیات پایه ای نظیر حذف و تغییر داده های دارای اشكال .
۴. یكپارچه سازی داده ها : شامل یكپارچه كردن منابع داده ای ناهمگون .
۵. كاهش و تغییر شكل داده ها : شامل روش هایی برای تغییر شكل و كاهش ابعاد داده ها .
۶. انتخاب نوع كاوش داده ها : شامل تعمیم و تقلیل ، طبقه بندی ، رگرسیون ، گروه بندی ، وب كاوی ، بازیابی تصویر ، كشف قوانین پیوندی و وابستگی های تابعی ، استخراج قوانین و یا تركیبی از اینها .
۷. انتخاب الگوریتم كاوش داده ها : شامل انتخاب متدهایی برای جست و جوی الگوها .
۸. كاوش داده ها : شامل جست و جوی الگوهای جالب .
۹. تفسیر : شامل تفسیر ، بازنمایی و آنالیز الگوی كشف شده .
۱۰. استفاده از دانش كشف شده : شامل پیاده سازی دانش كشف شده در سیستم های اجرایی و اتخاذ تصمیماتی برپایه دانش مراحل مختلف كشف دانش .
● تكنیك های مختلف داده كاوی .
تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته « پیش بینی كننده » و « تشریح كننده » تقسیم كرد . تكنیك های پیش بینی كننده با ساخت مدلی برای پیگاه داده ، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند . در حالی كه تكنیك های تشریح كننده ، الگوهایی قابل فهم از داده ها را برای انسان كشف می كنند .
● طبقه بندی .
هدف از طبقه بندی ، مشخص كردن ویژگی هایی است كه بتوان توسط آن ، كلاس های مختلف را از یكدیگر متمایز كرد طبقه بندی در داده كاوی طی دو مرحله انجام می گیرد .
ابتدا از روی داده های قدیمی ، كلاس های مختلف تشخیص داده شده و سپس تعلق داشتن داده های جدید به كلاس های موجود ، پیش بینی می شود . طبقه بندی جزو تكنیك های یادگیری با ناظر است زیرا با در اختیار داشتن یك مجموعهداده آموزشی ( به عنوان راهنما ) ، داده های جدید را طبقه بندی می كند .
این روش جزو روش های پیش بینی كننده نیز به شمار می آید .
در ادامه به روش های مختلف طبقه بندی داده ها می پردازیم .
● درخت تصمیم .
متد طبقه بندی بر اساس تولید درخت تصمیم ، یكی از روش های یادگیری ماشین به حساب می آید كه به دلیل استفاده از یك مجموعه آموزشی اولیه ، جزو روش های یادگیری با ناظر است .
برای تولید درخت تصمیم ، ابتدا یك مجموعه اولیه در نظر گرفته می شود و درخت تصمیم آن ساخته می شود . چنانچه این درخت پاسخگوی همه حالات نبود ، با انتخاب مجموعه ای دیگر ، درخت توسعه داده می شود . این فرایند تا تكمیل درخت برای پاسخگویی به همه حالات ادامه می یابد . درخت تصمیم تولید شده ، درختی است كه برگ های آن كلاس های مختلف و گره های میانی ، ویژگی ها و حالات مختلف آنها را نشان می دهد .
● شبكه های عصبی .
شبكه عصبی نیز از جمله روش های یادگیری ماشین برای انجام طبقه بندی است . در این روش یك نگاشت از ورودی به خروجی به صورت غیر خطی انجام می گیرد . هدف اصلی در این روش ، پیدا كردن مجموعه وزن های مناسب برای شبكه به نحوی است كه كلیه داده های آموزشی اولیه را به صورت صحیح طبقه بندی كند .
از مزایای این روش می توان به دقت پیش بینی بالا و توان مقاومت در بابر خطاهای داده های آموزشی اشاره كرد . زمان یادگیری طولانی و مشكل بودن فهم تابع یاد گرفته شده توسط شبكه نیز از معایب این روش به حساب می آید .
● تئوری بیز .
تئوری بیز یكی از روش های آماری برای طبقه بندی به شمار می آید . در این روش كلاس های مختلف ، هر كدام به شكل یك فرضیه دارای احتمال در نظر گرفته می شوند .
هر ركورد آموزشی جدید ، احتمال درست بودن فرضیه های پیشین را افزایش و یا كاهش می دهد و در نهایت ، فرضیاتی كه دارای بالاترین احتمال شوند ، به عنوان یك كلاس در نظر گرفته شده و برچسبی بر آنها زده می شود . این تكنیك با تركیب تئوری بیز و رابطه سببی بین داده ها ، به طبقه بندی می پردازد .
● رگرسیون .
رگرسیون نیز یكی از روش های آماری برای طبقه بندی به شمار می آید . هدف از رگرسیون ، پیش بینی مقدار یك متغیر پیوسته بر اساس مقادیر متغیر های دیگر است . رگرسیون به دو دسته خطی و غیر خطی تقسیم می شود .
برای مثال می توان پیش بینی میزان فروش یك محصول جدید را بر اساس میزان تبلیغات صورت گرفته بر روی آن ، از روش رگرسیون انجام داد .
به جز روش های ذكر شده ، روش های دیگری نیز برای طبقه بندی موجود است كه می توان به K_ Nearest Neighborhood ، Case_ Based Reasoning و الگوریتم ژنتیك اشاره كرد .
● گروه بندی داده ها .
به فرایند دسته بندی اشیای فیزیكی یا انتزاعی به كلاس هایی از اشیاء متشابه ، گروه بندی ( طبقه بندی بدون ناظر ) می گویند .
گروه بندی جزو روش های تشریح كننده به حساب می آید . این روش با تفكر تقسیم و حل ، به دسته بندی داده های موجود در یك سیستم بزرگ پرداخته و آنها را به مولفه های كوچك تر تقسیم می كند .
یك گروه بندی را زمانی مناسب گویند كه اشیای داده ای درون هر گروه بسیار به یكدیگر شبیه بوده و با اشیای گروه های دیگر تفاوت بسیار داشته باشند . معیار شباهت و تفاوت بین اشیای داده ای توسط یك تابع فاصله مشخص می شود . بسته به نوع داده ، توابع فاصله متفاوتی موجود است كه از آن جمله می توان به تابع فاصله Minkowski ، تابع فاصله اقلیدسی ضریب Jaccark اشاره كرد . در ادامه به روش های مختلف برای گروه بندی داده ها پرداخته می شود.
● بخش بندی
در این تكنیك یك بخش بندی از پایگاه داده D با n شیء به k گروه انجام می گیرد . این كار توسط معیاری كه برای گروه بندی در نظر گرفته شده ، انجام می شود . روش های مختلفی از جمله K_ means ، K_ medoids ، PAM ، CLARA و CLARANS برای دسته بندی موجود است .
● سلسله مراتبی .
این تكنیك از فاصله ماتریسی به عنوان شرط گروه گروه بندی استفاده می كند . این روش به جای مشخص كردن تعداد گروه ها در ابتدای كار ، احتیاج به یك شرط خاتمه برای پایان دادن به عملیات گروه بندی دارد .
روش های مختلفی نیز برای این تكنیك مطرح شده است كه از آن جمله می توان به روش AGNES ، DLANA ، BLRCH ، CURE و CHAMELEON اشاره كرد .
● گروه بندی بر اساس تراكم .
در این تكنیك ، گروه بندی بر اساس میزان تراكم نقاط به هم پیوسته مشخص می شود . دو پارامتر Eps و MinPts در این تكنیك در نظر گرفته می شود كه Eps مشخص كننده ماكزیمم شعاع همسایگی و MinPts مشخص كننده مینمم تعداد نقاط درون همسایگی Eps است .
روش های مختلفی نظیر DBSCAN ، OPTLCS ، DENCLUE و CLlQUE نیز در این تكنیك مورد مطالعه قرار گرفته است.
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست