ایجاد انبارداده سازمانی بعنوان تسهیلگر بهره برداری از داده‌کاوی

ششمین همایش ملی تجارت و اقتصاد الکترونیکی- همایش کاربردها و نوآوری

چکيده در دنیای امروز، بهره برداری از سیستم های هوش تجاری در سطح سازمان، بترین راه برای استفاده اثر بخش و هدف مند از داده ها، اطلاعات و دانش سازمان هاست. یکی از مهمترین و مترقی ترین ابزارهای هوش تجاری، داده کاوی است و بهره مندی از مزایای داده کاوی در سطح سازمانی و بین سازمانی، مستلزم طی شدن مراحلی است. در حال حاضر این مراحل بصورت جزیره ای در سازمان ها طی میشود و این امر منتج به بهره برداری های محدود تری از داده کاوی میشود. در این مقاله به بررسی نقش ایجاد انباردادههای سازمانی در شناخت هرچه بهتر و دقیق تر داده های سازمان پرداخته شده است و نقش تسهیلگر ایجاد انبار دادها در بهبود اثر بخشی و افزایش محدوده نفوذ داد کاوی تا سطوح بین سازمانی بررسی شده است.
كليد واژه داده کاوی، انبار داده.
۱. مقدمه استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات میکند. این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی بطور همزمان از چندین رشته علمی بهره می برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش، حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده . داده کاوی در اواخر دهه ۱۹۸۰ پدیدار گشته، در دهه ۱۹۹۰ گامهای بلندی در این شاخه از علم برداشته شده و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد]۲[.
واژه های «داده کاوی» و «کشف دانش در پایگاه داده» اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها می باشد.داده کاوی، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند [‎۱]. به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می شود. تعریف دیگر اینست که، داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می باشد، به نحوی که با استخراج آنها، در حوزه های تصمیم گیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. داده ها اغلب حجیم ، اما بدون ارزش می باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه گفته می شود.
انبارداده مجموعهای از اطلاعات است که به گونهای مناسب برای انجام عملیات گزارشگیری و تحلیلی دادهها بر اساس پارامترهایمختلف، طراحی شده است.این سیستم اغلب به صورت جداگانهای از سیستمهای عملیاتی روزانه قرار میگیرد.در انباره داده اطلاعات موجود در پایگاهداده از سراسر سازمان جمعآوری شدهاند و با هم سازگاری دارند
حال در ادامه مقاله به نقش انباره داده سازمانی بهعنوان تسهیلگر بهرهبرداری از دادهکاوی میپردازیم.
۲. انبارداده و دلایل استفاده از آن تكنولوژي انبار دادهها شامل مجموعهای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) در تصميم گيری پشتيباني مينمايد. دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است، در واقع دسترسي به دادهها از هر جا درون سازمان دادهها از منابع داخلي و خارجي تهيه ميشوند و به اشكال گوناگون از دادههای ساختاری گرفته تا دادههای ساخت نيافته مانند فايلهاي متني يا چند رسانهای، در مخزني مجتمع ميشوند. انبار دادهها مخزني از اين دادههاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار ميگيرد.
از اواسط سالهای ۱۹۸۰ نياز به انبار دادهها به وجود آمد و دريافتند كه سيستم های اطلاعاتي بايد به صورت سيستمهای عملياتي و اطلاعاتي مشخص شوند. سيستمهای عملياتي از فعاليتهای روزانه كسب و كار پشتيباني مينمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. دادههای عملياتي ارائه بيدرنگ و فعلي وضعيت كسب و كار ميباشند. اما سيستمهای اطلاعاتي براي مديريت و كنترل كسب وكار به كار ميروند. اين سيستمها از تجزيه و تحليل دادهها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني ميكنند و برای درخواستهاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شدهاند.دادههاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني ميباشند.
انبار داده بـه مجـموعـه ای از داده هــا گفـتـه می شود که از منابع مختلف اطلاعاتی سازمان جمع آوری ، دسته بندی و ذخیره می شود. در واقع یک انبار داده مخزن اصلی کلیه داده های حال و گذشته یک سازمان می باشد که برای همیشه جهت انجام عملیات گزارش گیری و آنالیز در دسترس مدیران می باشد. انبارهای داده حاوی داده هایی هستند که به مرور زمان از سیستم های عملیاتی آنلاین سازمان (OLTP) استخراج می شوند، بنابراین سوابق کلیه اطلاعات و یا بخش عظیمی از آنها را می توان در انبار داده ها مشاهده نمود.
از آنجائیکه انجام عملیات آماری و گزارشات پیچیده دارای بارکاری بسیار سنگینی برای سرورهای پایگاه داده می باشند، وجود انبار داده سبب می گردد که اینگونه عملیات تاثیری بر فعالیت برنامه های کاربردی سازمان (OLTP) نداشته باشد.
همانگونه که پایگاه داده سیستمهای عملیاتی سازمان (برنامه های کاربردی) به گونه ای طراحی می شوند که انجام تغییر و حذف و اضافه داده به سرعت صورت پذیرد، در مقابل انبار داده ها دارای معماری ویژه ای می باشند که موجب تسریع انجام عملیات آماری و گزارش گیری می شود (OLAP) .
سیستمهای عملیاتی سازمان (OLTP) دارای نقاط ضعفی می باشند که انبار های داده آنها را رفع می کنند.
از جمله:
  • بار پردازش گزارشات موجب کندی عملکرد برنامه های کاربردی می گردد.
  • پایگاه های داده برنامه های کاربردی دارای طراحی مناسبی جهت انجام عملیات آماری و گزارش نیستند.
  • بسیاری از سازمانها دارای بیش از یک برنامه کاربردی ( منابع اطلاعاتی) می باشند، بنابراین تهیه گزارشات در سطح سازمان غیر ممکن می شود.
  • تهیه گزارشات در سیستمهای عملیاتی غالبا نیازمند نوشتن برنامه های مخصوص می باشد که معمولا کند و پرهزینه هستند .

سيستم انبار داده‌ها:
سيستم انبار داده‌ها شامل انبار داده‌ها و همه مولفه‌هايي است كه براي ساخت، دستيابي و نگهداری انبار داده‌ها به كار مي‌روند. انبار داده‌ها بخش مركزی سيستم انبار داده‌ها را تشكيل مي‌دهد. گاهي اوقات انبار داده‌ها حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نامData Mart نگهداري مي‌كند. مولفه آماده سازی، مسووليت كسب يا دريافت داده‌ها را بر عهده دارد. اين مولفه شامل همه برنامه‌ها و‌برنامه‌های كاربردی‌ای است كه مسوول استخراج داده‌ها از منابع عملياتي هستند. مولفه دستيابي شامل برنامه‌های كاربردی مختلف (OLAP يا برنامه‌های كاربردی داده كاوی) است كه امكان استفاده از اطلاعات ذخيره شده در انبار داده‌ها را فراهم مي‌آورند.
۳. .دادهکاوی و دلایل استفاده از آن اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی از مدیریت کسب و کار وکنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می گیرد.
داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات: جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها]۳[.
تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.
ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای دادهای را کشف می کنند که می توان از آن در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانش و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم ]۲[.
۴. مراحل کشف دانش کشف دانش دارای مراحل تکراری زیر است:
  1. پاکسازی داده ها (از بین بردن نویز و ناسازگاری داده ها)
  2. یکپارچه سازی داده ها (چندین منبع داده ترکیب می شوند)
  3. انتخاب داده ها (داده های مرتبط با آنالیزازپایگاه داده بازیابی می شوند)
  4. تبدیل کردن داده ها (تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی و همسان سازی)
  5. داده کاوی (فرایند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته می شوند)
  6. ارزیابی الگو (برای مشخص کردن الگوهای صحیح و مورد نظربه وسیله معیارهای اندازه گیری)
  7. ارائه دانش(یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می شود)]۲[.
هر مرحله داده کاوی باید با کاربر یا پایگاه دانش تعامل داشته باشد. الگوهای کشف شده به کاربر ارائه می شوند و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می شوند. توجه شود که بر طبق این دیدگاه داده کاوی تنها یک مرحله از کل فرآیند است، البته به عنوان یک مرحله اساسی که الگوهای مخفی را آشکار می سازد. با توجه به مطالب عنوان شده، دراینجا تعریفی از داده کاوی ارائه می دهیم:
"داده کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاه داده، انباره داده ویا دیگر مخازن اطلاعات" .

بر اساس این دیدگاه یک سیستم داده کاوی به طور نمونه دارای اجزاء اصلی زیر است:
  1. پایگاه داده، انباره داده یا دیگر مخازن اطلاعات: که از مجموعه ای از پایگاه داده ها، انباره داده، صفحه گسترده، یا دیگر انواع مخازن اطلاعات. پاکسازی داده ها و تکنیکهاییکپارچه سازی روی این داده ها انجام می شود.
  2. سرویس دهنده پایگاه داده یا انباره داده: که مسئول بازیابی داده های مرتبط بر اساس نوع درخواست داده کاوی کاربر می باشد.
  3. پایگاه دانش: این پایگاه از دانش زمینه تشکیل شده تا به جستجو کمک کند، یا برای ارزیابی الگوهاییافته شده از آن استفاده می شود.
  4. موتور داده کاوی : این موتور جزء اصلی از سیستم داده کاوی است و به طور ایدآل شامل مجموعه ای از پیمانه هایی نظیر توصیف، تداعی، کلاسبندی، آنالیزخوشه ها، و آنالیز تکامل وانحراف، است.
  5. پیمانه ارزیابی الگو : این جزء معیارهای جذابیت را به کار می بندد و با پیمانهء داده کاوی تعامل می کند بدینصورت که تمرکز آن بر جستجو بین الگوهای جذاب می باشد، و از یک حد آستانه جذابیت استفاده می کند تا الگوهای کشف شده را ارزیابی کند.
  6. واسط کاربرگرافیکی : این پیمانه بین کاربر و سیستم داده کاوی ارتباط برقرار می کند، به کاربر اجازه می دهد تا با سیستم داده کاوی از طریق پرس وجو ارتباط برقرار کند، این جزء به کاربر اجازه می دهد تا شمای پایگاه داده یا انباره داده را مرور کرده، الگوهاییافته شده را ارزیابی کرده و الگوها را در فرمهای بصری گوناگون بازنمایی کند.
با انجام فرآیند داده کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می شود و قابل مرور از دیدگاههای مختلف خواهد بود. دانش کشف شده در سیستم های تصمیم یار، کنترل فرآیند، مدیریت اطلاعات و پردازش پرس وجو قابل استفاده خواهد بود [‎۲].
بنابراین داده کاوی به عنوان یکی از شاخه های پیشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان یکی از نوید بخش ترین زمینه های توسعه بین رشته ای در صنعت اطلاعات است.
۵. داده کاوی و انبار دادهها معمولا داده هایی که در داده کاوی مورد استفاده قرار می گیرند از یک انبار داده استخراج می گردند و در یک پایگاه داده یا مرکز داده ای ویژه برای داده کاوی قرار می گیرند.
اگر داده های انتخابی جزیی از انبار داده ها باشند بسیار مفید است زیرا چهار مرحله زیر که برای ساختن انبار داده ها انجام می گیرد با اعمال مقدماتی داده کاوی مشترک است و در نتیجه نیاز به انجام مجدد این اعمال وجود ندارد.این مراحل عبارتند از:
  1. پاکسازی داده ها
  2. یکپارچه سازی داده ها
  3. انتخاب داده ها
  4. تبدیل کردن داده ها
پایگاه داده مربوط به داده کاوی می تواند جزیی از سیستم انبار داده ها باشد و یا می تواند یک پایگاه داده جدا باشد.
ولی با این حال وجود انباره داده ها برای انجام داده کاوی شرط لازم نیست و بدون آن هماگر داده ها دریک یا چندین پایگاه داده باشند می توان داده کاوی را انجام داد و بدین منظور فقط کافیست داده ها را در یک پایگاه داده جمع آوری کنیم و اعمال جامعیت داده ها و پاکسازی داده ها را روی آن انجام دهیم. این پایگاه داده جدید مثل یک مرکز داده ای عمل می کند.
تصمیم گیری در خصوص استفاده از انبار داده کلی سازمانی یا بازار داده برای داده کاوی تا حد زیادی در گرو تعیین استراتژی سازمان در قبال استقرار هوش تجاری است.
به طور کلی ۲ رویکرد نسبت به استقرار هوش تجاری در سازمانها وجود دارد.[۵]
  1. رویکرد کوتاه مدت و مقطعی

    در این رویکرد که اغلب برای سازمانهای کوچکتر و با ماموریت هاییک بعدی بیشتر مورد استفاده است، تاکید مدیران بر بهره بردای از ابزارهای هوش تجاری در جهت اتخاذ تصمیمات بهتر در جهت انجام درست ماموریت سازمانی است.
    به عنوان مثال یک شرکت پخش مواد غذایی برای تصمیم گیری بهتر در خصوص نحوه توزیع جغرافیایی انبارها، یا شناخت بهتر راجع به تامین کنندگان طرف قرارداد ممکن است از ابزارهای هوش تجاری در یکیا چند بعد خاص و محدود از داده های سازمان استفاده کند.در این حالت در واقع یک بازار داده از داده های موجود در سیستم های اطلاعاتی سازمان ساخته میشود که تنها شامل داده های بخش فروش یا بخش تدارکات است. درا ین رویکرد به ابعاد دیگر داده ها توجه خاصی نمیشود زیرا ارتباط داده های زیرسیستم های مختلف سازمان کمک چندانی به اتخاذ تصمیمات سازمانی نمیکندیا اگر هم تاثیر زیادی داشته باشد، بهبه مندی از این تاثیرات از دید مدیران پوشیده مانده است.این رویکرد عموما خیلی سریع قابل پیاده سازیست و چالشهای اساسی استقرار هوش تجاری در سازمان را نیز ندارد. چالشهایی چون استاندارد سازی داده ها،تعریف و استفاده از داده های اصلی بین سیتم های اطلاعاتی مختلف و مهمتر از همه مشکلات مربوط به یکپارچه سازی داده ها.

  2. رویکرد بلند مدت استراتژیک :

    این رویکرد برای سازمان هایی که ماموریت های چند بعدی دارند بسیار ضروریست. بهره مندی از این رویکرد در گرو ایجاد همسویی استراتژیک میان کسبو کار و فناوری اطلاعات در سازمان هاست زیرا در این رویکرد کل بخشهای سازمان درگیر خواهند بود و بدنبال آن کل سازمان از تاثیرات هوشمندی خلق شده بهره مند میشوند.
    در این رویکرد کلیه سیستم های اطلاعاتی حتی اگر بصورت جزیره ای رشد یافته باشند، توسط ابزارهای هوش تجارییکپارچه شده و منجر به خلق انبار داده کل سازمان خواهند شد. سپس برای هر بعد از ابعاد ماموریتی سازمان میتوان بازارداده خاصی را طراحی کرد و از آن در جهت خلق هوش سازمانی بهره برد.این پژوهش درصدد آشکار ساختن تاثیرات مثبت بهره گیری از تکنینک های داده کاوی دررویکرد دوم نسبت به رویکرد اول میباشد.اگر در سازمان های بزرگ از رویکرد اول استفاده شود، طبیعتا بازارهای داده ایجاد شده، حاوی اطلاعات جامعی از وضعیت سازمان نمیباشند. بنابراین بهره گیری از داده کاوی نیز منجر به کشف دانش کل نگر نخواهد شد.

برای روشن تر شدن موضوع مثالی آورده میشود:
به عنوان مثال در یک کارخانه تولید خودرو، اگر با استفاده از رویکرد اول به تحلیل و داده کاوی روی رفتار مشتریان پردازیم بدون شک نتایج حاصل بیانگر دانشی است که از همین بخش بدست آمده است. اما اگر با استفاده از رویکرد دوم ابتدا انبار داده ای شامل اطلاعات سیستم های مدیریت ارتباط با مشتریان و سیستم مدیریت منابع سازمانی و مدیریت زنجیره تامین ایجاد نماییم و سپس به کشف دانش بپردازیم ممکن است دانشی جدیدی در خصوص ارتباط نحوه تغییر رفتار مشتریان نسبت به عملکرد تامین کنندگان بدست بیاوریم،یا ارتباط جالبی میان میزان خوش قولیتامین کنندگان در زمان ارائه و کیفیت ارائه قطعات با میزان رشد سهم بازار بدست آید که منجر به اتخاذ تصمیمات کلان و راهبردی شود.
بطور کلی میتوان گفت طراحی انبار داده کلی در سازمان یک عامل توانمندساز در در داده کاوی محسوب میشود و باعث دستیابی به دانش پنهان در سطح کل سازمان میگردد و محدود به یک زیرسیستم خاص نمیشود.

۶. نتیجه گیری دادهكاوي ابزاري است كه براي استخراج اطلاعات مهم از دادههاي موجود به كار گرفته ميشود و امكان تصميمگيري بهتر را فراهم مي كند. ابتدا از Data Warehouse براي تركيب دادههاي مختلف از پايگاه دادههاي مختلف در قالب يك فرمت قابل قبول استفاده ميشود و در مرحله بعد دادهها تحليل شده و اطلاعاتي استخراج ميشوند كه سازمانها ميتوانند از آنها براي پشتيباني فرآيندهاي تصميمگيري خود استفاده كنند.
داشتن انبار داده های قوی و جامع در سازمان می‌توان در بحث داده‌کاوی نیز با دقت بسیار بالایی به دانش پنهان دسترسی پیدا کرد.اگر در سازمانی فرآیند داده کاوی بر اساس کل داده‌های سازمان بنا نهاده نشود، چه بسا نتایج حاصله از آن، مغایر نتایج واقعی شود.بنابراین برای دستیابی به نتایج مطلوب در داده کاوی نیاز به داده‌های جامع و کامل می‌‌باشد، که انباره داده ها می تواند سهم بسیار زیادی در فراهم کردن داده‌ها داشته باشد.

نویسندگان

محمدرضا قنبری ادیب،دانشجوی کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه شهید بهشتی

علیرضا طالب پور ، عضو هيئت علمی و استاد دانشگاه شهید بهشتی
سید محمود شجاعی کیاسری،دانشجوی کارشناسی ارشد مدیریت فناوری اطلاعات دانشگاه شهید بهشتی

 

 

 

 

  • منابع
  • [۱] Two Crows Corporation,Introduction to Data Mining and Knowledge Discovery,۱۹۹۹
  • [۲] David Hand, Heikki Mannila , Padhraic Smyth. Principles of Data Mining. The MIT Press . ۲۰۰۱.
  • [۳] J.Han, and M.Kamber, "Data Mining: Concepts and Techniques", San Diego Academic Press, ۲۰۰۱
  • [۴] Introduction to Data Mining and Knowledge Discovery By Two Crows Corporation
  • [۵] Jeffery W. Seifert , Analyst in information science and Technology Policy, ' Data Mining : An Overview ' December ۲۰۰۴.