یکشنبه, ۹ اردیبهشت, ۱۴۰۳ / 28 April, 2024
مجله ویستا

داده کاوی ؛ تعمیق نگاه به دنیا


داده کاوی ؛ تعمیق نگاه به دنیا
حتماً تاکنون بارها عبارت «انقلاب دیجیتال» به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟
انسان متفکر، هر اندازه که بیشتر عمر می کند و با واقعیت های بیشتری روبه رو می شود، اصطلاحاً موی سپید می کند و در عوض تجربه کسب می کند، باتجربه تر می شود و در شئون مختلف زندگی خبره تر. در این میان، انفجار اطلاعات و انقلاب دیجیتال که در دوره های اخیر زندگی بشری رخ داده است، چه امتیاز و برتری به بشر امروزی داده است که انسان قدیم از آن محروم بود؟
در کنار فناوری های تصویری، دستگاه های بی سیم و ابزارهای ارتباطی که به مدد انقلاب دیجیتال و فناوری اطلاعات به وجود آمده اند، دانش بزرگترین هدیه فناوری اطلاعات است. دانشی که انسان امروزی را خِبره تر و باتجربه تر از انسان دیروز می کند.
فناوری اطلاعات، به ابزارها، روش ها و فنونی اطلاق می شود که از اطلاعات برای فهم بهتر از جهان، کاهش هزینه و وقت مصرفی و افزایش بهره وری و در نتیجه زندگی راحت تر استفاده می کند. رخداد انقلاب دیجیتال باعث شد تا حجم بسیار بالای اطلاعات دیجیتالی به وجود آید و روزبه روز حجم اطلاعات و سرعت پردازش، انتقال و دسترسی به آنها افزایش یابد.
داده کاوی، یکی از فناوری هایی است که از در کنار هم قرار دادن این اطلاعات دیجیتالی، تولید دانش می کند. داده کاوی از ابزار محاسبه گر قدرتمندی به نام کامپیوتر استفاده می کند تا به این حجم بالای اطلاعات دیجیتالی دسترسی داشته باشد و بتواند آنها را پردازش کند. سرعت بالای کامپیوتر در دسترسی به اطلاعات و پردازش آنها در کنار حجم بالای اطلاعات دیجیتالی، همان مزایایی هستند که مختص بشر امروزی است. در نتیجه دانش به وجود آمده از این اطلاعات، امتیازی است که انسان قدیم نداشت.
فرایندی که تلاش می کند اطلاعات را در کنار هم قرار دهد و ارزش افزوده ای به وجود آورد، استخراج دانش از پایگاه داده یا Knowledge discovery in database نامیده می شود. داده کاوی که مهمترین قسمت این فرایند است، از روش های خودکاری استفاده می کند که توسط الگوریتم های پیچیده، الگوهای پنهان، وابستگی ها، وضعیت های نامطلوب و ساختار اطلاعات ذخیره شده را اعلام می کند و اطلاعات مورد نیاز را از بین مجموعه های داده انتخاب می کند.
داده کاوی از علومی مانند یادگیری ماشین، هوش مصنوعی، آمار، شناسایی الگو، پایگاه داده، نظریه اطلاعات، سیستم های خِبره (باتجربه)، پردازش با کارایی بالا، مصورسازی و برنامه ریزی فرایندهای تصادفی استفاده می کند. در نتیجه این فرایند، داده های کم ارزش به دانش پرارزش تبدیل می شوند.
دانشی که داده کاوی در اختیار ما قرار می دهد، یا توصیف وضعیت موجود است و یا پیش بینی وضعیت آینده.
بدین ترتیب که با در اختیار داشتن مقداری داده نمونه، داده کاوی وابستگی داده ها به یکدیگر، تقدم و تاخر رخدادها، شباهت های مختلف داده ها به یکدیگر، نوع داده ها مطابق نظر کاربر و قوانین و الگوهای حاکم بر این داده ها را مشخص می کند. اگر نمونه آماری مناسب انتخاب شده باشد، نتایج را می توان به کل داده ها تعمیم داد و مهمتر آنکه می توان از این نتایج برای پیش بینی وقایع آینده استفاده کرد. این همان تجربه ای است که مشاهده جهان به کمک فناوری اطلاعات، در اختیار ما قرار می دهد.
قبل از بیان چند مثال کاربردی، با برخی از مهمترین روش های داده کاوی آشنا شویم. دسته بندی، که نوعی یادگیری بدون نظارت است، یکی از این روش هاست. در این روش، داده ها براساس شباهت هایی که با هم دارند، دسته بندی می شوند و هیچ عامل بیرونی دسته بندی ها را تعیین نمی کند.
به همین دلیل به آن یادگیری بدون نظارت نیز می گویند. مانند دسته بندی خانه های روستایی براساس فاصله از یکدیگر. یعنی خانه هایی که به هم نزدیکترند، در یک دسته قرار می گیرند و عامل تعیین دسته ها، خود داده ها هستند و نه یک ناظر بیرونی.
روش دیگر، طبقه بندی، یا یادگیری با نظارت است. یعنی کلاس ها و طبقات از پیش تعیین شده ای وجود دارند که داده ها به داخل این طبقات نگاشت می شوند. سپس خصوصیات داده های هر طبقه را به دست آورده و از این خصوصیات برای پیش بینی نوع و طبقه داده های بعدی استفاده می کنند. قانون کاوی روش دیگری است که به یافتن قوانینی به شکل y >-x می پردازد. مثل اینکه یک پزشک بر اثر تجربه متوجه شده باشد که هرگاه بیمار خصوصیات بالینی به خصوصی داشته باشد، آزمایشات نیز نتیجه خاصی خواهند داشت. در نتیجه او می تواند با شرح حال گرفتن، حتی الامکان در موارد مشابه از انجام آزمایش جلوگیری کند.
به عنوان یک مثال، فرض کنید که یک کاندیدای انتخابات ریاست جمهوری تلاش می کند تا نیازهای مردم را شناسایی کند و براساس این شناخت، برنامه های خود را تنظیم و ارائه کند. اطلاعات انتخابات های قبلی را در کنار نمونه های آماری که دارای پراکندگی مناسبی از لحاظ جغرافیایی، میزان تحصیلات و وضعیت اقتصادی است به عنوان داده نمونه در نظر می گیرد.
ممکن است با کاویدن این داده ها، متوجه شود که در چند سال گذشته هرگاه فلان موضوع فرهنگی مطرح شده است، مردم تمایل بیشتری به خرید فلان کالای فرهنگی داشته اند و یا می تواند دریابد مردم مناطقی که از لحاظ اقتصادی وضعیت مشابهی دارند، در چه تصمیماتی مشابه عمل می کنند و در چه مواقعی تصمیم های متفاوت می گیرند. و البته می تواند نتایج بسیار دیگری استخراج کند.
نتایجی که از در کنار هم قرار دادن داده ها و کاویدن آنها حاصل می شود. یک سهامدار بورس را در نظر بگیرید که می خواهد وضعیت بورس را طی هفته های آتی پیش بینی کند. او داده های آماری هفته های اخیر را در کنار هم قرار می دهد. ممکن است متوجه شود که در ابتدای هر ماه، شاخص سهام کاهش پیدا می کند، مصاحبه های وزیر برخی شاخص ها را که از فلان لحاظ با یکدیگر مشابه هستند، تغییر می دهد و در مقابل، شاخص برخی شرکت ها نوسان بسیار کمی دارد. حال او می تواند تا حدی وضعیت آینده بازار بورس را پیش بینی کند. این نتیجه به کار بردن فناوری اطلاعات و استخراج دانش از داده ها است.
● تصویر کاوی
حجم زیادی از داده ها، امروزه به شکل تصاویر ذخیره می شوند. تصاویر ماهواره های نقشه برداری و عکس های دیجیتالی نمونه هایی از این نوع داده ها هستند. شناسایی شباهت ها، الگوها، وابستگی ها و توالی تصاویر، وظیفه تصویرکاوی است. مقایسه عکس های ساختمان های یک شهر و یافتن الگوهای مشترک در این ساختمان ها، می تواند در شناسایی الگوی معماری آن شهر موثر باشد.
کاویدن تصاویر به دو صورت انجام می شود.
۱) براساس مشخصات متنی مانند نام، حجم و نوع که مشخصاتی متنی هستند.
۲) براساس محتوای درون عکس. این خصوصیات محتوایی شامل رنگ، روشنایی و تیرگی رنگ، شدت و ضعف رنگ، بافت عکس، شکل هندسی عناصر تصویر، موقعیت مکانی عناصر تصویر و اندازه آنها و... شامل می شود. یک مورد پرکاربرد تصویرکاوی، جست وجوی تصاویر نه براساس نام آنها، بلکه براساس محتوای آنها است. در شکل، نمونه ای از جست وجوی تصاویر را می بینید.
یک عکس به عنوان عکس مورد جست وجو به موتور جست وجوگر داده شده و عکس های مشابهی از لحاظ رنگ، شکل (همبندی) گل، جهت گیری گل و موقعیت آن در صفحه، از داده های تصویری استخراج شده است. برای پردازش تصویر، از مدلی برای نمایش آن استفاده می کنند. مثلاً برای پردازش رنگ ها، از ماتریس های چندبعدی برای نشان دادن خصوصیات هر پیکسل استفاده می کنند و برای پردازش شکل ها، تلاش می کنند شکل هندسی عناصر را توسط گراف بیان کنند، آنگاه می توانند با تکنیک های نظریه گراف ها، شباهت ها را تشخیص دهند.
● وب کاوی
اینترنت بزرگترین بانک اطلاعاتی موجود در دنیا است. اطلاعاتی که تقریباً هر ۱۸ ماه دو برابر می شوند و به طور دائم در حال تغییرند. موتورهای جست وجو از مهمترین ابزارهای کاوش در وب است. اما این جست وجوگرها به بسیاری از منابع دسترسی ندارند و معمولاً اطلاعات نامناسبی به کاربران ارائه می دهند. چرا که متکی به کلمات کلیدی هستند و به ندرت موتور جست وجویی پیدا می شود که براساس معانی کلمات جست وجو کند.
وب کاوی به تکنیک های خودکار بازیابی، استخراج و ارزیابی اطلاعات از پرونده ها و سرویس های تحت وب به منظور کشف دانش اشاره دارد. وب کاوی از سه دیدگاه وب را مورد کاوش قرار می دهد:
۱) محتوا: کشف دانش از محتوا، فایل ها و پرونده های موجود در وب که شامل صوت، تصویر، متن و دیگر انواع چندرسانه ای می شود.
۲) ساختار: برای پی بردن به ارتباط بین لینک ها و پرونده های درونی در یک وب سایت. معمولاً یک گراف دو یا سه بعدی برای نمایش این ساختار به کار می رود. در نتیجه می توان میزان دسترسی به صفحات و لینک های مختلف یک سایت را به دست آورد و از این نتایج برای مدیریت بهتر سایت بهره برد.
۳) استفاده و کاربرد: داده هایی که توسط تعامل کاربران با وب تولید شده است، مورد بررسی قرار می گیرد. این داده ها شامل شناسه کاربر، درخواست های کاربر، ورودها و خروج های یک سرور از سایت و... است. از نتایج این کاوش می توان برای بهبود ارتباط با کاربران، تجارت الکترونیکی و شناسایی مشتریان استفاده کرد. اینکه هر کسی معمولاً چه کلماتی را جست وجو می کند و به چه اطلاعاتی بیشتر علاقه مند است، می تواند در نمایش نتایج جست وجوهای او موثر باشد.
امروزه داده کاوی به خاطر رشد فناوری اطلاعات و کامپیوتر و به اشتراک گذاشتن بسیاری از اطلاعات از یک سو و دنیای رقابتی و نیاز به روش های تحلیل پیشرفته از سوی دیگر، بسیار مورد توجه قرار گرفته است. یافتن الگوها در سایه داده کاوی می تواند بسیاری از شئون زندگی ما را علمی تر و بهینه کند. همانند ورزشکار رزمی کاری که با اعمال داده کاوی بر روی حرکات رقیب خود، تکنیک های او و چگونگی اعمال تکنیک هایش را از روی فیلم مسابقات او استخراج می کند و براساس این الگو به طراحی روش های مبارزاتی می پردازد.
با تکمیل نقشه ژنوم انسان، که دارای تعداد بسیار زیادی ژن است، مجموعه عظیمی از داده های زیستی انسان های زنده به وجود می آید. کاوش در این داده ها می تواند منجر به شناسایی بسیاری از حقایق و عوامل موثر در زیست بشر، عوامل بسیاری از بیماری ها و خصوصیات وراثتی شود. می توان داده های زلزله های رخ داده را کاوید و نشانه های مشترکی که قبل از وقوع زلزله ها نمایان می شوند را یافت تا شاید بتوان زلزله ها را پیش بینی کرد. در عرصه تجارت و اقتصاد می توان مناطق مناسب برای سرمایه گذاری را پیدا کرد، رابطه با مشتریان را مدیریت کرد (CRM) و خدمات مناسب به مشتریان ارائه داد. در عرصه مدیریت می توان برنامه های راهبردی را براساس داده های قبلی تدوین کرد و در عرصه امنیتی نیز داده کاوی در شناسایی اثر انگشت و چهره به کار می آید.
انقلاب دیجیتال باعث می شود که دنیای واقعی را به شکل اطلاعات دیجیتالی بیان کنیم و آنگاه با داده کاوی، به اطلاعات جدید برسیم. در نتیجه می توانیم بسیاری از شئون زندگی را تحت تاثیر قرار دهیم. این ابزاری است که در اختیار انسان امروزی قرار گرفته است تا در خشت خام همان بیند که گذشتگان در آینه می دیدند.
[ حنیف - رهبری ]
منبع : بنیاد آینده نگر ایران


همچنین مشاهده کنید