چهارشنبه, ۱۰ بهمن, ۱۴۰۳ / 29 January, 2025
مجله ویستا
داده کاوی؛ نگاهی کوتاه به اصول ها و کاربردها
● ضرورت
از سال ۱۹۵۰ رایانهها در تحلیل و ذخیرهسازی دادهها به کار گرفته شدند. پس از حدود ۲۰ سال حجم دادهها دو برابر شد و پس از آن تقریبا هر دو سال یکبار همزمان با پیشرفت فناوری اطلاعات، حجم دادهها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه دادهها به چند صد میلیارد رسید. پدیده شبکه جهانی وب، استفاده گسترد ه از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمعآوری داد ه ، انفجاری را در مجموعههای اطلاعاتی سازمانها و موسسات ایجاد کرد ه است. حجم زیاد اطلاعات، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرد ه است. دادهکاوی، ابزار مناسب را برای تجزیه و تحلیل اطلاعات و کشف و استخراج روابط پنهان در مجموعههای دادهای سنگین فراهم میکند.
● تعریف و اهداف
دادهکاوی، فرآیند کشف الگوهای پنهان، جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از دادههاست و فعالیتی در ارتباط با تحلیل دقیق دادههای سنگین بیساختار است که علم آمار ناتوان از تحلیل آنهاست. بعضی مواقع دانش کشف شده توسط دادهکاوی عجیب به نظر میرسد؛ مثلا ارتباط افراد دارای کارت اعتباری و جنسیت با داشتن دفترچه تامین اجتماعی یا سن، جنسیت و درآمد اشخاص با پیشبینی خوشحسابی او در بازپرداخت اقساط وام. دادهکاوی از علو می مانند یادگیری ماشین، هوش مصنوعی، آمار، پایگاه داده و شناسایی الگو به طور همزمان بهره گرفته و در حوزههای تصمیمگیری، پیشبینی، و تخمین مورد استفاده قرار میگیرد.
● کشف دانش
واژه کشف دانش در پایگاه دادهها (Knowledge Discovery in Database (KDD)I) در اوایل دهه ۸۰ در مراجعه به مفهوم کلی، گسترده، سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. این لغت به بیان دیگر به همه شیوه هایی اشاره دارد که هدف آنها پی بردن به ارتباط و نظم بین اطلاعات قابل مشاهد ه است. لغت KDD برای توصیف همه مراحل استخراج اطلاعات از پایگاه داده و نیز بیان اهداف کارهای اولیه کاربرد قوانین تصمیم گیری است. این واژه به طور رسمی اولین بار توسط Usama Fayaad در اولین کنفرانس بین المللی داده کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود، معرفی شد که به بیان ارتباط تکنیکهای آنالیز در چندین مرحله با هدف استخراج دانش های ناشناخته قبلی از داده های در دسترس می پرداخت. داده هایی که ارتباط منظم و پراهمیت آنها قبلاً به نظر نمی رسید. کم کم واژه داده کاوی جای خود را پیدا کرد و مترادفی برای همه مراحل استخراج دانش شد. هر چند که داده کاوی مرحله ای از KDD است، اما در کل KDD فرآیند یافتن اطلاعات و الگوهای مفید از داده را گویند و داده کاوی بهره گیری از الگوریتم هایی برای یافتن اطلاعات مفید در فرآیند KDD است.
فرآیند KDD عبارت است از:
۱) پاکسازی و یکپارچهسازی داده (پیشپردازش داده)
۲) ایجاد یک انبار داده۱ مشترک برای تمام منابع
۳) دادهکاوی
۴) بصریسازی۲ نتایج تولید شده
که مرحله پیش پردازش غالباً یکی از مراحل زمان بر و در عین حال بسیار مهم در کسب نتیجه مطلوب است.
در تعاریف قبلی جنبه بسیار مهمی که همان هدف نهایی دادهکاوی است حذف شد ه است. هدف نهایی دادهکاوی به دست آوردن نتایجی است که می تواند منافع کاری داشته باشد.
دادهکاوی کاربرد سطح بالای فنون و ابزار به کار برده شده برای معرفی و تحلیل دادههای تصمیمگیرندگان است. اصطلاح دادهکاوی را متخصصین آمار، تحلیلگران داده ها و انجمن سیستم های اطلاعات مدیریت به کار بردهاند در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی بیشتر از KDD استفاده میکنند. از نقطه نظر محققان، دادهکاوی یک نظم نسبتاً جدید است که به طور عمد ه از میان مطالعاتی که به منظور نظم بخشیدن به برخی از فعالیتها همچون تخمین زدن، بازاریابی و سرشماری و آمار انجام گرفته، توسعه یافته است. اید ه ای که مبنای داده کاوی است یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و درنهایت قابل درک در داده هاست. کشف دانش در پایگاه داده ها برای کشف اطلاعات مفید از مجموعه بزرگ داده هاست. دانش کشف شده می تواند قاعد ه ای باشد که با کمک آن ویژگی های داده ها، الگوهایی که به طور متناسب رخ می دهند، خوشه بندی موضوع های درون پایگاه داده ها و غیره را توصیف کند.
یک کاربر سیستم KDD به منظور انتخاب زیر مجموعه صحیحی از داده ها باید درک بالایی از قلمرو داده ها، رده مناسبی از الگوها و معیار خوبی برای الگوهای جالب داشته باشد. بنابراین سیستم KDD باید ابزارهایی با اثر تعاملی داشته باشد نه سیستم های تجزیه و تحلیل خودکار.
● پیشینه
پژوهش جدی روی موضوع دادهکاوی از اوایل دهه ۹۰ شروع شد. پژوهشها و مطالعه های زیادی در این زمینه صورت گرفته؛ همچنین سمینارها، دوره های آموزشی و کنفرانس هایی نیز برگزار شد ه است. نتایج پایه های نظری داده کاوی در تعدادی از مقاله های پژوهشی آورده شد ه است. سال ۱۹۹۵ با استفاد ه از داده کاوی، انبارههای داده بانکهای آمریکا را بررسی کرده و بیان کردند که چگونه این سیستمها برای بانکهای آمریکا قدرت رقابت بیشتری ایجاد میکنند. در این سال انجمن دادهکاوی همزمان با اولین کنفرانس بین المللی «کشف دانش و داده کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. سال ۱۹۹۶ دیدگاهی از داده کاوی به عنوان «پرس و جو کنند ه از پایگاه های استنتاجی» پیشنهاد شد و فیاض و شاپیرو پیشرفتهای کشف دانش و داده کاوی را اعلام کردند. همان سال دیدگا ه اقتصاد سنجی روی داده کاوی و عملکرد داده کاوی به عنوان یک مسأله بهینه ارائه و کنفرانسهای ناحیهای و بین المللی در مورد داده کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره کشف دانش و داده کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و دادهکاوی و نیز استفاد ه از وب در کاوش دادهها و کاربردهای آن ارائه شد. سال ۲۰۰۲ «داده کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد.
● وظایف دادهکاوی
اهداف سطح بالای دادهکاوی، پیشبینی (Prediction)، توصیف (Description) یا ترکیبی از پیشبینی و توصیف است. هدف پیشبینی، تمرکز بر روی دقت در توانایی پیش بینی است. هدف توصیف، تمرکز بر روی درک فرآیند تولید دادهها است. در پیشبینی، تا زمانی که مدل قدرت پیش بینی دارد، کاربر توجهی به این که مدل انعکاس دهنده واقعیت است ندارد. مثلاً مدلی که شاخصهای مالی را به شکل غیرخطی ترکیب میکند تا نرخ تبادل ارز را پیش بینی کند.
از سویی دیگر، مدل توصیفی، به عنوان انعکاس واقعیت تفسیر میشود. مثلاً مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفتهای آموزشی مرتبط میکند، به عنوان مبنایی برای توصیههای سیاست اجتماعی استفاده میشود. در عمل، اغلب کاربردهای اکتشاف دانش به درجهای از هردو مدلسازی توصیفی و پیشبینی نیاز دارند.
میتوان اکثر مسائل موجود را در قالب وظایف زیر دسته بندی کرد:
۱) ردهبندی (Classification) (یافتن مدلی برای پیشبینی)
۲) کشف قوانین انجمنی/باهمآیی (Mining Association Rule) (برای توصیف و پیشبینی وضعیت آینده)
۳) خوشهبندی (Clustering) (برای توصیف دادهها)
توضیح تک به تک موارد فوق و آوردن مثال مجال مفصل تری را میطلبد.
● کاربردها
بعضی از کاربردهای دادهکاوی را میتوان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار، تحلیل سبد بازار، پیشبینی قیمت نفت، بازاریابی هدف، فهم رفتار مشتری و تحلیل و مدیریت ریسک)، مدیریت و کشف فریب (کشف فریب تلفنی، کشف فریبهای بیمهای اتومبیل، کشف حقههای کارت اعتباری، کشف تراکنشهای مشکوک مالی و پولشویی)،متن کاوی (خلاصهسازی، یافتن متون مشابه و کلمات کلیدی، پالایش نامههای الکترونیکی، گروههای خبری و غیره)، پزشکی (کشف ارتباط علامت و بیماری، تحلیل آرایههای DNA، تصاویر پزشکی)، وبکاوی (پیشنهاد صفحات مرتبط، بهبود ماشین های جستجوگر یا شخصیسازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب، تحلیل شبکههای اجتماعی وب ۲ (وبلاگها، ویکیها)، آنالیر ترافیک وب، تشخیص نفوذی به شبکه، متن کاوی، بیوانفورماتیک، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخههای مختلف مهندسی دانست. البته دادهکاوی هر کاری را انجام نمیدهد و هر کار آماری را دادهکاوی نمینامند. برای دادهکاوی شناخت و تحلیل دادهها مورد نیاز است، به طوریکه بتوان روابط و الگوهای بین دادهها را با کمک افراد خبره پیدا کرد.
● وضعیت فعلی در ایران
در کشور ما نیز با رشد روزافزون دادهها در کارخانجات، شرکتها، فروشگاههای زنجیرهای و مراکز مختلف دولتی و خصوصی نیاز به استفاد ه از دانش نهفته در آنها یعنی انجام دادهکاوی روی دادهها ضروری به نظر میرسد. دادههای مرکز آمار ایران، داروخانهها، بیمارستانها، دادههای مرکز پلیس، مراکز قضایی، کارت سوخت، سازمان هواشناسی کشور، بانکها، بیمه و ... از جمله دادههای انبوه و بسیار ارزشمندی هستند که شایستگی دادهکاوی و تحلیل قوانین پنهان را دارند. دادهکاوی میتواند با کشف الگوهای پنهان در اصلاح روند تصمیمگیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراکگذاری اطلاعات از دستاوردهای این فناوری محروم است.
۱)Data Warehouse
۲)Visualization
نویسنده: بهروز مینایی
۲)Visualization
نویسنده: بهروز مینایی
منبع : ماهنامه تحلیلگران عصر اطلاعات
ایران مسعود پزشکیان دولت چهاردهم پزشکیان مجلس شورای اسلامی محمدرضا عارف دولت مجلس کابینه دولت چهاردهم اسماعیل هنیه کابینه پزشکیان محمدجواد ظریف
پیاده روی اربعین تهران عراق پلیس تصادف هواشناسی شهرداری تهران سرقت بازنشستگان قتل آموزش و پرورش دستگیری
ایران خودرو خودرو وام قیمت طلا قیمت دلار قیمت خودرو بانک مرکزی برق بازار خودرو بورس بازار سرمایه قیمت سکه
میراث فرهنگی میدان آزادی سینما رهبر انقلاب بیتا فرهی وزارت فرهنگ و ارشاد اسلامی سینمای ایران تلویزیون کتاب تئاتر موسیقی
وزارت علوم تحقیقات و فناوری آزمون
رژیم صهیونیستی غزه روسیه حماس آمریکا فلسطین جنگ غزه اوکراین حزب الله لبنان دونالد ترامپ طوفان الاقصی ترکیه
پرسپولیس فوتبال ذوب آهن لیگ برتر استقلال لیگ برتر ایران المپیک المپیک 2024 پاریس رئال مادرید لیگ برتر فوتبال ایران مهدی تاج باشگاه پرسپولیس
هوش مصنوعی فناوری سامسونگ ایلان ماسک گوگل تلگرام گوشی ستار هاشمی مریخ روزنامه
فشار خون آلزایمر رژیم غذایی مغز دیابت چاقی افسردگی سلامت پوست