آشنایی کامل با انبار داده ها(آشنایی با DataWareHouse یا DW)

قصد دارید داده های خود را معناگرا کنید؟ می خواهید آنها را به صورت یک تاریخچه برای گزارشات تحلیلی خود ذخیره سازی کنید؟ با ماه همراه شوید

به منظور مشاوره رایگان آنلاین در زمینه مباحث طراحی و پیاده سازی ورهاس(طراحی انبار داده) با آی دی تلگرام Research_moghimi@ ارتباط برقرار کنید یا با شماره تلفن ۰۹۳۶۷۹۳۸۰۱۸ مقیمی تماس حاصل فرمایید. ما دوره های آنلاین و حضوری با کمترین هزینه را در اختیار شما قرار میدهیم. آنها را از اینجا مشاهده کنید.

مقدمه(طراحی ورهاس ؛ مقدمه طراحی انبار داده)

امروزه با پيشرفت فناوري، سازمان ها به دنبال راه ها و ترفندهايي مي گردند که بقايشان را در اين عرصه تضمين کنند. سازمان ها مي دانند که ديگر بقاي آنها تنها در رسيدن به وضعيت سوددهي مداوم نيست و بايد به دنبال رقابت و ابزار آن باشند. همچنين مي دانند که کليد موفقيت در عصر اطلاعات، اتخاذ تصميماتي است که بدون تناقض، بهتر و سريع تر در رقابت پيش دستي کند.

يک سازمان در طول حياتش، داده ايجاد مي کند. اين داده معمولا پيرامون دارايي، بازاريابي، فروش، منابع انساني، مديريت ارتباط با مشتري و … گروه بندي مي شوند و هر بخش يک وظيفه جدا در شرکت انجام داده و داده هاي مرتبط به خود را جمع آوري مي کند. اين حقيقت سازمان ها را ملزم به جستجوي ابزارهايي براي تسهيل فرايند کسب اثربخش داده ها، پردازش و تحليل وسيع آنها کرده است تا براساس آن پايه اي را براي کشف دانش جديد بنا نهند.

براي ساليان متوالي از سيستم هاي اطلاعات مديريت موجود مانند: MIS,DSS,ES,EIS استفاده مي شد اما اين سيستم ها قادر به ايجاد يکپارچگي ميان داده هاي پراکنده و ناهمگن و شناسايي مناسب وابستگي هاي موجود ميان داده هاي جديد نبودند. براي اينکه سازمان ها قادر به واکنش سريع در برابر تغييرات بازار باشند، نياز به سيستم هاي اطلاعات مديريتي دارند که بتوانند از سازمان و محيط آن تحليل هاي علت و معلولي مختلف انجام دهند.

بنابراين سازمان ها براي حفظ بقا همزمان با پيشرفت فناوري، بايد تسلط بر فناوري هاي جديدي مانند هوش تجاري را در کسب وکارها يک الزام و ضرورتي اجتناب ناپذير تلقي کنند. سيستم هاي هوش تجاري ابزاري را فراهم مي کنند که بر اساس آن نيازهاي اطلاعاتي سازمان به شکل مناسبي پاسخ داده شود.

واژه هوش تجاري توسط گروه گارتنر ۱در اواسط ده? ۱۹۹۱ رواج پيدا کرد. با اين حال، اين واژه اخيراً

رواج بسيار زيادي يافته است و در سيستم هاي گزارش دهي MIS ده? ۱۹۷۱ ريشه دارد. در آن دوران، سيستم هاي گزارش دهي ايستا، دو بعدي و فاقد قابليت تحليل بودند. در اوايل ده? ۱۹۸۱ ، مفهوم سيستم اطلاعات اجرايي ( EIS ) به وجود آمد. اين مفهوم سيستم هاي پشتيباني کامپيوتري را به سطوح مديران عالي و اجرايي برد. اين سيستم ها از قابليت گزارش دهي پويا و چند بعدي )ادهاک ۴ يا بر مبناي خواسته(، پيش بيني، تجزيه و تحليل روند، پرداختن به جزئيات، دسترسي به وضعيت و عوامل کليدي موفقيت برخوردار بودند. تا اواسط ده? ۱۹۹۱ بسياري از محصولات تجاري از اين ويژگي ها برخوردار بودند. سپس برخي از محصولات جديد تحت نام هوش تجاري پا به عرصه گذاشتند. امروزه همگي به اين نتيجه رسيده اند که کلي? نيازهاي اطلاعات مديران اجرايي در قالب يک سيستم اطلاعات مبتني بر هوش تجاري قابل پاسخ است. بنابراين، مفهوم اصلي سيستم اطلاعات اجرايي به هوش تجاري تغيير يافت.

هوش تجاري، شامل ابزارها، تکنولوژي ها و فرايندهاي تبديل داده ها به اطلاعات و تبديل اطلاعات به دانش مورد نياز براي بهينه سازي تصميم گيري در سازمان است . امروزه با اطمينان کامل مي توان ادعا کرد که استفاده از راه حل هوش تجاري مي تواند قدرت رقابت پذيري يک سازمان را افزايش دهد و آن را از ديگر سازمان ها متمايز نمايد. اين راه حل اين امکان را به سازمان ها مي دهد تا با به کارگيري اطلاعات موجود از مزاياي رقابتي و پيشرو بودن بهره برداري نمايند و درک بهتر تقاضاها و نيازمندي هاي مشتريان و مديريت ارتباط با آنان را ميسر مي سازند.

مفهوم هوش تجاري:

تعاريف زيادي براي هوش تجاري وجود دارد، اما به طور کلي هوش تجاري به عنوان يک رويکرد جديد در معماري سازماني مطرح شده است که اين معماري بر اساس سرعت در تحليل اطلاعات به مديران جهت اتخاذ تصميمات دقيق و هوشمند کسب و کار در حداقل زمان ممکن کمک مي کند. هوش تجاري يک چارچوب کاري شامل فرايندها، ابزار و فناوري هاي مختلف است که براي تبديل داده به اطلاعات و اطلاعات به دانش مورد نياز هستند، که با استفاده از همين دانش مديران قادر به تصميم گيري بهتر مي شوند و در نتيجه عملکرد سازمان خود را بهبود مي بخشند.

با پياده سازي راهکارهاي هوش تجاري فاصله موجود بين مديران مياني و مديران ارشد از ديدگاه ارتباط اطلاعاتي از ميان خواهد رفت و اطلاعات مورد نياز مديران در هر سطح، در لحظه و با کيفيت بالا در اختيار آنها قرار خواهد گرفت. همچنين کارشناسان و تحليل گران مي توانند با استفاده از امکانات ساده، فعاليتهاي خود را بهبود بخشند و به نتايج بهتري دست پيدا نمايند.

احساس نياز به وجود يک سيستم هوش تجاري در سازمان براي اولين بار در سطوح بالاي مديريتي احساس مي شود و از بالاي هرم ساختار سازماني به بخش هاي زيرين منتقل مي گردد. مهم ترين نياز يک مدير، تصميم گيري است. فرآيند تصميم گيري مي تواند به سه بخش کلي تقسيم شود که عبارتند از:

۱) دسترسي، جمع آوري و پالايش داده ها و اطلاعات مورد نياز.

۲) پردازش، تحليل و نتيجه گيري براساس دانش.

۳) اعمال نتيجه و نظارت بر پيامد هاي اجراي آن.

در هر يک از موارد فوق، سازمان هاي قديمي که از هوش تجاري استفاده نمي کنند، داراي مشکلاتي هستند که اغلب به دليل حجيم بودن داده ها، پيچيدگي تحليل ها و ناتواني در ردگيري پيامدهاي تصميم گرفته شده، به وجود مي آيند. هوش تجاري با کمک به حل مشکلات فوق، به دليل ساختاري که در سازمان به وجود مي آورد، خالق فرصت هاي جديدي براي سازمان است.

هوش تجاري يک چارچوب کاري شامل فرايندها، ابزار و فناوري هاي مختلف است که براي تبديل داده به اطلاعات و اطلاعات به دانش مورد نياز هستند، که با استفاده از همين دانش مديران قادر به تصميم گيري بهتر مي شوند و در نتيجه عملکرد سازمان خود را بهبود مي بخشند.

بنابراين هوش تجاري مجموعه اي از مهارت ها، فناوري ها و سيستم هاي کاربردي است که براي جمع آوري، ذخيره سازي ، تحليل و ايجاد دسترسي کارآمد به انبارهاي داده جهت کمک به سازمان ها براي تصميم گيري صحيح مورد استفاده قرار مي گيرد.

پس از آن که داده ها در انبارهاي داده و بازارهاي داده گردآوري و سازمان دهي شدند، مي توان آن ها را براي تحليل هاي آتي به کار گرفت. تحليل داده ها شامل طبقه بندي، خوشته بندي، آناليزهاي آماري، پيش بيني هاي رياضي، تحليل هاي هوشمند مبتني بر شبکه هاي عصبي و الگوريتم هاي ژنتيک مي باشد.

هوش تجاري شما را براي تصميم گيري در همه عوامل موثر بر سازمان يا شرکت توانمند مي سازد.

مجموعه اي از ابزارها کاربران را قادر مي سازند تا داده ها را براي کشف الگوها، ارتباطات و چشم اندازهاي جديدي که براي هدايت تصميم گيري ها سودمند هستند، تحليل کنند. به اين ابزارهاکه براي يکپارچه سازي، تحليل و فراهم نمودن دسترسي به انبوه داده ها براي کمک به اتخاذ تصميمات بهتر مورد استفاده قرار مي گيرند، هوش يا هوشمندي تجاري، اطلاق مي شود.

ابزارهاي اصلي هوشمندي تجاري شامل نرم افزار ارائ? پرسش و گزارش گيري، ابزارهاي تحليل چند بعدي داده (پردازش تحليلي آنلاين ) و داده کاوي است.

وقتي به مفهوم هوشمندي در انسان ها فکر مي کنيم، عموماً مقصود ما قابليت افراد براي ادغام دانش فرا گرفته شده به اطلاعات جديد و تغيير رفتارها است، به گونه اي که موجب توفيق آن ها در انجام وظايف يا انطباق با شرايط جديد مي شود. به طور مشابه، هوش تجاري اين قابليت را به سازمان ها مي دهد تا اطلاعات را جمع آوري کنند؛ در مورد رقبا، مشتريان و عمليات داخلي خود دانش ايجاد کنند و رفتار تصميم گيري خود را به منظور دستيابي به سوددهي بالاتر و ساير اهداف تجاري تغيير دهند.

 

مراحل هوش تجاري

اگر مراحل هوش تجاري را به صورت شکل زير در نظر بگيريم، منابع داده در مرحله اول جمع آوري مي شوند. اين منابع مي تواند داده هاي انواع پايگاه داده يا اطلاعات نرم افزارهاي موجود را در بر بگيرد.

اطلاعات جمع آوري شده طي فرايند ETLدر پايگاه داده تحليلي يا همان انبار داده(Data Warehouse) بارگذاري مي شود.

داده در پايگاه داده تحليلي در بخش هاي مجزايي به نام داده گاه (Data Mart) قرار مي گيرد.

در مرحله بعد هوش تجاري وارد عمل شده و روي اطلاعات طبقه بندي شده تجزيه و تحليل انجام مي دهد.

در نهايت اطلاعات جهت انتشار به ابزارهاي سطح بالا تحويل داده مي شود.

تکنيک هاي مورد استفاده در هوش تجاري
در عصري که زمان، کليد اصلي در تجارت است، شرکت ها به استفاده از ابزارهاي اطلاعاتي روي آورده اند تا بتوانند اطلاعات مورد نظر را به سرعت از منابع استخراج کنند. هوش تجاري در امر تصميم گيري در سطوح مختلف سازمان به ويژه سطوح مديران ارشد با تحليل اطلاعات و روش هاي پرس و جو تسهيلات زيادي را فراهم مي کند که متداول ترين اين روش ها به قرار زير است:

On-Line Analytical Processing (OLAP1- (

On-Line Transaction Processing (OLTP2- (

Data Warehousing (DW3- (

Data Mining (DM4- (

Intelligent Decision Support System (IDSS5- (

Intelligent Agent (IA6- (

Knowledge Management System (KMS7- (

Supply Chain Management (SCM8- (

Customer Relationship Management (CRM9- (

Enterprise Resource Planning (ERP 10- (

Enterprise Information Management (EIM11- (

لازم به ذکر است، صرف وجود تمام اين تکنيک ها در سطح سازمان بدون در نظر داشتن فرهنگ سازمان و رويکرد سيستمي موجود بين کارکنان نمي‌تواند اثبات کننده هوشمندي کسب و کار آن سازمان باشد.

انباره داده یا Data Warehouse چیست؟
انـبـار داده بـه مجـموعـه‌ای از داده‌هــا گفـتـه می‌شود که از منابع مختلف اطلاعاتی سازمان جمع‌آوری، دسته‌بندی و ذخیره می‌شود.

انبار داده یا Data Warehouse پایگاه داده‌ای است که برای گزارش‌گیری و تحلیل داده به کار می‌رود و بعنوان هسته اصلی یک سیستم BI به شمار می‌آید. به عبارت دیگر انبار داده یک مخزن داده مرکزی از داده‌های تجمیع شده است که از سیستم‌ها و منابع مختلف سازمان جمع‌آوری شده است.
انبار داده یک بانک اطلاعاتی رابطه‌ای غیرنرمال است که داده‌های حال و گذشته را در یک مکان واحد تجمیع کرده است و هدف اصلی آن پوشش گزارش‌گیری و نیازهای تحلیلی یک سازمان به کار گرفته می‌شود.
از اواسط سالهای ۱۹۸۰ نياز به انبار داده‌ها به وجود آمد و در کنار سيستم‌های اطلاعاتي (OLTP) سیستم‌های تحلیلی (OLAP, DW/BI) ایجاد شد.

انـبـار داده بـه مجـموعـه ای از داده هــا گفـتـه می شود که از منابع مختلف اطلاعاتی سازمان جمع آوری ، دسته بندی و ذخیره می شود. در واقع یک انبار داده مخزن اصلی کلیه داده های حال و گذشته یک سازمان می باشد که برای همیشه جهت انجام عملیات گزارش گیری و آنالیز در دسترس مدیران می باشد.

یکی از اصلی ترین خصایصی که باعث می شود ورهاس از دیتابیس جدا شود بحث هیستوریکال بودن یا تاریخچه ای بودن ورهاس می باشد.

تكنولوژي انبار داده‌ها شامل مجموعه‌ای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) در تصميم گيری پشتيباني مي‌نمايد. دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است، در واقع دسترسي به داده‌ها از هر جا درون سازمان داده‌ها از منابع داخلي و خارجي تهيه مي‌شوند و به اشكال گوناگون از داده‌های ساختاری گرفته تا داده‌های ساخت نيافته مانند فايل‌هاي متني يا چند رسانه‌ای، در مخزني مجتمع مي‌شوند. انبار داده‌ها يا DWH مخزني از اين داده‌هاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار مي‌گيرد.

از اواسط سالهای ۱۹۸۰ نياز به انبار داده‌ها به وجود آمد و دريافتند كه سيستم های اطلاعاتي بايد به صورت سيستم‌های عملياتي و اطلاعاتي مشخص شوند. سيستم‌های عملياتي از فعاليت‌های روزانه كسب و كار پشتيباني مي‌نمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. داده‌های عملياتي ارائه بي‌درنگ و فعلي وضعيت كسب و كار مي‌باشند. اما سيستم‌های اطلاعاتي براي مديريت و كنترل كسب وكار به كار مي‌روند. اين سيستم‌ها از تجزيه و تحليل داده‌ها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني مي‌كنند و برای در خواست‌هاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شده‌اند.داده‌هاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني مي‌باشند.

انـبـار داده بـه مجـموعـه ای از داده هــا گفـتـه می شود که از منابع مختلف اطلاعاتی سازمان جمع آوری ، دسته بندی و ذخیره می شود. در واقع یک انبار داده مخزن اصلی کلیه داده های حال و گذشته یک سازمان می باشد که برای همیشه جهت انجام عملیات گزارش گیری و آنالیز در دسترس مدیران می باشد. انبارهای داده حاوی داده هایی هستند که به مرور زمان از سیستم های عملیاتی آنلاین سازمان (OLTP) استخراج می شوند، بنابراین سوابق کلیه اطلاعات و یا بخش عظیمی از آنها را می توان در انبار داده ها مشاهده نمود.

از آنجائیکه انجام عملیات آماری و گزارشات پیچیده دارای بارکاری بسیار سنگینی برای سرورهای پایگاه داده می باشند، وجود انبار داده سبب می گردد که اینگونه عملیات تاثیری بر فعالیت برنامه های کاربردی سازمان (OLTP) نداشته باشد.

همانگونه که پایگاه داده سیستمهای عملیاتی سازمان ( برنامه های کاربردی ) به گونه ای طراحی می شوند که انجام تغییر و حذف و اضافه داده به سرعت صورت پذیرد، در مقابل انبار داده ها دارای معماری ویژه ای می باشند که موجب تسریع انجام عملیات آماری و گزارش گیری می شود (OLAP) .

بسیاری از شرکت ها و سازمانها به این باور رسیده اند که گردآوری، سازمان دهی و یکپارچه سازی داده ها در یک مخزن داده برای مدیریت بهینه و اتخاذ تصمیمات کلان یک ضرورت می باشد.

به طور کلی ساخت یک انبار داده، به شکل یک پروژه شامل مراحل اصلی زیر می باشد:

۱- استخراج داده های تراکنشی از پایگاه های داده به یک مخزن واحد شناخت منابع داده های سازمان و استخراج داده های ارزشمند از آنها یکی از اصلی ترین مراحل ایجاد انبار داده می باشد.

۲- تبدیل داده ها از آنجائیکه سیستمهای اطلاعاتی و برنامه های کاربردی یک سازمان غالبا توسط افراد و پروژه های مختلف به مـرور زمان در مواجهـه با نیـازهای جدید سـاخته یا تغییر شـکل داده می شـوند، یکسـان سـازی آنها امری ضروری می باشد.در بسیاری از موارد نیز سیستمهای اطلاعاتی در بستر های مختلف پایگاه داده مانند Microsoft SQL Server ،Oracle ، Sybase ، MicrosoftAccess و غیره طراحی گردیده اند. بررسی جداول، برقراری ارتباط بین فیلدها و یک شکل سازی داده ها در این مرحله صورت می پذیرد.

۳- بارگذاری داده های تبدیل شده به یک پایگاه داده چند بعدی بر خلاف پایگاه داده سیستمهای عملیاتی (OLTP) که دارای معماری رابطه ای می باشند و از اصول نرمالیزه استفاده می کنند، طراحی انبار داده به شکلی ویژه بدون بهره گیری از اصول نرمالیزاسیون می باشد. درانبار داده فیلدها در جاهای مختلفی تکرار می شوند و روابط بین جداول کمتر به چشم می خورند. علت آن هم افزایش سرعت پردازش اطلاعات هنگام گزارشات و عملیات آماری می باشد.

۴- تولید مقادیر از پیش محاسبه شده جهت افزایش سرعت گزارش گیری مـقادیر از پیـش محاسـبه شده را تراکـم نیـز مـی نامـند. ایـن مرحلــه توســط سیستـمهایی نظــیر MicrosoftSQL Server Analysis Services بسیار ساده تر شده است. ایـن تراکم ها کـه در ابـعاد مختلـف انبار داده سـاخته می شوند، موجب می شوند که سرعت انجام عملیات گزارش گیری به شکل محسوسی افزایش یابد. بایدتوجه داشت که عملیات ساخت این مقادیر بسیار زمان گیر بوده و نیازمند حافظه زیادی بر روی سروراست.

 

۵- ساخت ( یا خرید ) یک ابزار گزارش گیری پس از انجام مراحل فوق، شـما می توانـید نسبـت به ساخت یا خـرید یـک نرم افزار گزارش گیـری تصمیم گیری نمایید. به طور معمـول هزینه سـاخت یک نرم افزار گزارش گـیری، بالاتـر از هزینـه خریـد آن از یک شرکت خارجـیمی شود.

 

نياز به داده‌های تاريخي يكي از موارد مهم درشيوه انبار داده‌هاست. داده‌های تاريخي برای تحليل روند كسب وكارضروری هستند. البته هزينه نگهداری اين گونه داده‌ها نيز بايد مورد توجه قرار گيرد. بعلاوه، داده‌های انبار داده‌ها ثابت هستند، براي مثال دسترسي به DWH از نوع خواندني است. انجام اصلاحات در اين داده‌ها فقط هنگامي صورت مي‌گيرد كه اصلاحات داده‌های منبع در انبار انتشار يابند. DWH داده‌های ديگری به نام داده‌های اشتقاق يافته (derived data) دارد. اين داده‌ها به طور صريح در منابع عملياتي ذخيره نمي‌شوند، بلكه در حين بعضي از فرايندها از داده‌های عملياتي، اشتقاق مي‌يابند. برای مثال داده‌های فروش را مي‌توان در سطوح مختلف (هفتگي، ماهانه، فصلي) در انبار ذخيره نمود.

سيستم انبار داده‌ها (DWS)شامل انبار داده‌ها و همه مولفه‌هايي است كه براي ساخت، دستيابي و نگهداری DWH به كار مي‌روند. انبار داده‌ها بخش مركزی سيستم انبار داده‌ها را تشكيل مي‌دهد. گاهي اوقات انبار داده‌ها حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نام Data Mart نگهداري مي‌كند. مولفه آماده سازی، مسووليت كسب يا دريافت داده‌ها را بر عهده دارد. اين مولفه شامل همه برنامه‌ها و‌برنامه‌های كاربردی‌ای است كه مسوول استخراج داده‌ها از منابع عملياتي هستند. مولفه دستيابي شامل برنامه‌های كاربردی مختلف (OLAP يا برنامه‌های كاربردی داده كاوی) است كه امكان استفاده از اطلاعات ذخيره شده در انبار داده‌ها را فراهم مي‌آورند.

مولفه مديريت Metadata، وظيفه مديريت، تعريف و دستيبابي به انواع مختلف Metadata را بر عهده دارد. در اصل ،‌Metadata “داده‌هايي درباره داده‌ها” يا “داده‌هايي است كه مفهوم داده‌ها را توصيف مي‌كنند”. انواع مختلف Metadata در انبار داده‌ها وجود دارند. مثلا اطلاعاتي درباره منابع عملياتي، ساختار داده‌هاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيبابي به DWH انجام مي‌شوند. نياز به Metadata شناخته شده است. پياده سازي يك DWS منسجم ،كار پيچيده و دشواري است و شامل دو فاز مي باشد. درفاز اول كه پيكربندي DWS نام دارد، ديدگاه مفهومي انبار داده‌ها مطابق با نيازمنديهای كاربر مشخص مي‌شود. سپس منابع داده‌ای دخيل و روش استخراج و بار گذاري در انبار داده‌ها تعيين مي‌گردد. سرانجام، درباره پايگاه داده‌های مورد نظر و روشهای دستيبابي داده‌ها تصميم گيری خواهد شد. پس از بار گذاري اوليه، در فاز عمليات DWS بايد داده‌های انبار داده‌ها به منظور منظم refresh شوند.

 

سیستم های انبار داده ها

سیستم انبار داده ها (DWS) شامل انبار داده ها و همه مولفه هایی است که برای ساخت، دستیابی و نگهداری DWH به کار می‌روند. انبار داده‌ها بخش مرکزی سیستم انبار داده ها را تشکیل می‌دهد. گاهی اوقات انبار داده ها حجم عظیمی از اطلاعات را در واحدهای منطقی کوچکتر به نام Data Mart نگهداری می‌کند. مولفه آماده سازی، مسوولیت کسب یا دریافت داده ها را بر عهده دارد. این مولفه شامل همه برنامه‌ها و‌برنامه‌های کاربردی ای است که مسوول استخراج داده ها از منابع عملیاتی هستند. مولفه دستیابی شامل برنامه‌های کاربردی مختلف (OLAP یا برنامه‌های کاربردی داده کاوی) است که امکان استفاده از اطلاعات ذخیره شده در انبار داده ها را فراهم می‌آورند.

 

در کانون سیستم های تحلیلی ، انبار داده ( Data Warehouse ) قرار دارد . انبار داده ،سیستمی است که با استخراج ، تمیزکردن ، تایید و عرضه داده ذخیره شده در منابع داده به یک مدل داده خاص ، توان تحلیل را در اختیار تصمیم گیرندگان هر سازمان و بر اساس معیارهای ارزیابی مورد علاقه قرار می دهد . حوزه تحلیل بسیار گسترده است و می تواند از گذشته تا حال و حتی آینده را شامل شود ( تحلیل آنچه اتفاق افتاده است ، آنچه در حال وقوع است و آنچه که قرار است اتفاق افتد ) .انبارداده یک محصول ، یک زبان برنامه نویسی ، یک پروژه ، یک مدل داده و یا نسخه ای از سیستم های عملیاتی مبتنی بر تراکنش نمی باشد . بدیهی است طراحی و پیاده سازی یک انبار داده با توجه به نقش حیاتی آن ، می بایست مبتنی بر مجموعه ای از قواعد و روش های صحیح باشد .

در مرکز ثقل یک سیستم هوش کسب و کار ، انبار داده وجود دارد . با توجه به جایگاه یک سیستم هوش کسب و کار و انتظاراتی که از این نوع سیستم ها وجود دارد نمی توان مخزن ذخیره سازی داده را با تبعیت از رویکرد بانک های اطلاعاتی رابطه ای ایجاد کرد چراکه سرعت ، دقت و نگاه چند بعدی به داده و رفتار آن در ارایه تحلیل مبتنی بر داده دارای جایگاه بسیار مهمی در سیستم های هوش کسب و کار است .
مولفه مدیریت Metadata، وظیفه مدیریت، تعریف و دستیبابی به انواع مختلف Metadata را بر عهده دارد. در اصل ،‌Metadata “داده هایی درباره داده‌ها” یا “داده هایی است که مفهوم داده‌ها را توصیف می‌کنند”. انواع مختلف Metadata در انبار داده‌ها وجود دارند. مثلا اطلاعاتی درباره منابع عملیاتی، ساختار داده‌های DWH و کارهایی که در حین ساخت، نگهداری و دستیبابی به DWH انجام می‌شوند. نیاز به Metadata شناخته شده است. پیاده سازی یک DWS منسجم ،کار پیچیده و دشواری است و شامل دو فاز می باشد. درفاز اول که پیکربندی DWS نام دارد، دیدگاه مفهومی انبار داده‌ها مطابق با نیازمندیهای کاربر مشخص می‌شود. سپس منابع داده‌ای دخیل و روش استخراج و بار گذاری در انبار داده‌ها تعیین می‌گردد. سرانجام، درباره پایگاه داده های مورد نظر و روشهای دستیبابی داده‌ها تصمیم گیری خواهد شد. پس از بار گذاری اولیه، در فاز عملیات DWS باید داده‌های انبار داده ها به منظور منظم refresh شوند.

 

تفاوت انباره داده(DWH) با پایگاه داده(DB) در چیست؟

۱- بانک اطلاعاتی (پایگاه داده) برای ثبت سریع و بی‌درنگ تراکنش‌های یک سیستم استفاده می‌شود(OLTP) . درصورتی‌که از انباره‌های داده برای آنالیز و تصمیم‌گیری‌های کلان استفاده می‌شود (OLAP).

۲- روابط بین جداول در بانک‌های اطلاعاتی پیچیده می‌باشند درحالی‌که انباره‌های داده روابط پیچیده‌ای ندا ردند و برای بالا بردن سرعت تقریباً نرمال‌سازی نمی‌شوند.

۳- بانک اطلاعاتی موجودیت محور هست یعنی در طراحی آن موجودیت‌ها نقش اصلی را بازی می‌کنند درحالی‌که در انباره داده این مدل‌های داده‌ای هستند که نقش اصلی رو در طراحی ایفا می‌کنند.

۴- بانک‌های اطلاعاتی جهت درج داده طراحی می‌شوند درحالی‌که انباره‌های داده بیشترین تمرکز را در سرعت در خواندن داده دارند.

۵-سرعت بانک اطلاعاتی در گزارش‌هایی جهت آنالیز اطلاعات بسیار پایین است اما سرعت آنالیزها در انباره داده بیشتر هست.

و درنهایت یک انباره داده معمولاً یک بانک اطلاعاتی است و همچنین ممکن است یک انباره داده از چند بانک اطلاعاتی داده دریافت کند.

 

Online Transaction Processing : سیستم‌هایی می‌باشند که برای اهداف اصلی سازمان استفاده می‌شوند و این سیستم‌ها کار پردازش و ذخیره کردن داد‌ه‌ها را در OLTP Database انجام می‌دهند. مانند تمامی سیستم‌های ERP,MIS,…

 

سیستم‌های عملیاتی (OLTP)

سيستم‌هایOLTP که به آن‌ها سیستم‌های پردازش تراکنش آنلاین نیز می‌گویند معمولا دارای ویژگی‎های زیر هستند:

محیطی برای ورود داده‌ها و فعاليت‌های روزانه كسب و كار هستند.

به دلیل کوتاهی عملیات حذف، تغییر و ویرایش اطلاعات دارای سرعت قابل توجهی می‌باشند.

کاربران این سیستم‌ها، عموما اپراتورها هستند.

الگو و ساختار پایگاه داده این سیستم‌ها از فرم سوم نرمال‌سازی استفاده می‌کند. به طور معمول هر تراکنش کاربر در کمترین زمان ممکن برروی این سیستم‌ها ذخیره می‌گردد و در طول روز بار‌ها دستورات (Insert/Update/Delete ) برروی آنها انجام می‌شود. این پایگاه‌های داده، همان Main Data ‌ها یا Source System ‌ها می‌باشند.

سیستم‌های تحلیلی (OLAP)
این سیستم شامل تاریخچه اطلاعات به منظور ایجاد گزارش‌های تحلیلی است تا در اختیار مدیران سازمان قرار گیرد.

–به دلیل تحلیل حجم بالایی از داده‌ها معمولاً کندتر از سیستم‌های عملیاتی می‌باشند.
–استفاده کنندگان این سیستم‌ها معمولاً مدیران و تصمیم گیرندگان سازمان می‌باشند.
–صرف نظر از منابع داده یک مدل داده مشترک برای تمام داده‌های مورد علاقه ارائه می‌دهد.
–ساختار پایگاه داده این سیستم‌ها معمولا بانک اطلاعاتی رابطه‌ای غیرنرمال است.
سیستم‌های اطلاعاتی یک سیستم یا محصول نیستند که بتوان آنها را خریداری کرد. بلکه یک رویکرد هستند و در حقیقت هر رویکردی مربوط به یک نوع کسب و کار و سازمان می‌باشد و نمی‌توان با استفاده از این سیستم‌ها راهبرد واحدی را برای حتی سازمان‌های مشابه، ارائه نمود.

Data Mart

Data Mart یک فرم ساده از یک انبار داده‌ها است که در مورد یک موضوع واحد از قبیل فروش، امور مالی یا بازاریابی متمرکز است. Data Mart اغلب توسط یک بخش از سازمان ساخته و کنترل می‌شود. با توجه به تمرکز Data Mart بر روی یک موضوع، معمولا داده‌های تعداد محدودی از منابع را ترسیم می‌کند. این منابع می توانند سیستم‌های عملیاتی داخلی، یک انبار داده مرکزی، و یا داده‌های خارجی باشند.

ویژگی‌های داده‌های درون انبار داده

داده‌های DW از نگاه Inmon دارای ۴ ویژگی اصلی زیر هستند:

غیرفرار و ماندگار(Non-Volatile) هیچ رکوردی و یا داده‌ای Update نخواهد شد و صرفاً رکوردهایی که محتوای مقادیر جدید داده‌ها هستند، به سیستم اضافه خواهند شد.

موضوع گرا (Subject-Oriented)
منظور از “موضوع” پایه‌های اساسی یک کسب و کار است، به شکلی که با حذف یکی از این پایه‌ها، شاید ماهیت آن کسب و کار تغییر یابد. به بیان دیگر هر انبار داده ، داده‌های مرتبط با یک موضوع خاص را نگهداری می کند که این داد‌ه‌ها جهت استخراج تحلیل‌های خاص به کار گرفته می‎شوند.

یکپارچه (Integrated)
باید تمامی کدهایی که در سیستم‌های عملیاتی وجود دارند و معانی یکسانی دارند، برای مثال کد جنسیت، در Datawarehouse به یک روش ذخیره و نمایش داده شوند. با توجه به اینکه داده‌ها از سیستم‌ها و منابع مختلف جمع‎اوری می‌گردند تکنیک های مختلف عملیات یکپارچه‌سازی و تجمیع داده‌ها به منظور تامین یکپارچگی داده به کار گرفته می‌شود.

زمانگرا (Time Variant)
هر رکورد باید حاوی فیلد و یا کلیدی باشد که نمایانگر این باشد که این رکورد در چه زمانی ایجاد، استخراج و ذخیره شده است. از آنجا که داده‌های درون سیستم‌های عملیاتی آخرین و به روز‌ترین داده هر سیستم می‌باشد، نیازی به وجود چنین عنصری در سیستم‌های OLTP احساس نمی‌گردد، ولی چون در DW تمام داده‌های نسخ قدیمی داده‌های سیستم‌های عملیاتی موجود می‌باشد، باید حتماً مشخص گردد که هر داده‌ای در سیستم‌های عملیاتی در چه زمانی، چه مقادیری داشته است.

ساختار ذخیره‌سازی انبارداده

ساختار ذخیره سازی انبار داده از دو نوع جدول Fact و Dimenstion است.
Dimension‌ها، جدول‌هایی حاوی اطلاعات توصیفی هستند. اطلاعات توصیفی داده‌های مانند نام مشتری، عنوان شغل، نام شرکت و حتی اطلاعات جغرافیایی محل سکونت مشتری می‌باشند. هر جدول Dimension حاوی فهرستی از فیلدها است که به آن‌ها مشخصه (Attribute) می‌گویند. هر مشخصه حاوی اطلاعات توصیفی است و مشخصه‌هایی که به یکدیگر مرتبط هستند در یک Dimension قرار می‌گیرند.
Fact جدولی حاوی فیلدهایی از نوع Measure و تعدادی Foreign Key است که به جداولی از نوع Dimension اشاره می‌کند. جدول‌های Fact معمولاً تعداد زیادی از رکوردها را در خود ذخیره می‌کنند. اغلب فضای انبار داده‌ – چیزی در حدود ۸۰ درصد – را به خود اختصاص می‌دهند.

مراحل و نحوه ایجاد انبار داده در سازمان

بسیاری از شرکت ها و سازمانها به این باور رسیده اند که گردآوری، سازمان دهی و یکپارچه سازی داده ها در یک مخزن داده برای مدیریت بهینه و اتخاذ تصمیمات کلان یک ضرورت می باشد.

به طور کلی ساخت یک انبار داده، به شکل یک پروژه شامل مراحل اصلی زیر می باشد:

استخراج داده های تراکنشی از پایگاه های داده به یک مخزن واحد

شناخت منابع داده های سازمان و استخراج داده های ارزشمند از آنها یکی از اصلی ترین مراحل ایجاد انبار داده می باشد.

تبدیل داده ها

از آنجائیکه سیستمهای اطلاعاتی و برنامه های کاربردی یک سازمان غالبا توسط افراد و پروژه های مختلف به مـرور زمان در مواجهـه با نیـازهای جدید سـاخته یا تغییر شـکل داده می شـوند، یکسـان سـازی آنها امری ضروری می باشد.در بسیاری از موارد نیز سیستمهای اطلاعاتی در بستر های مختلف پایگاه داده مانند Microsoft SQL Server ،Oracle ، Sybase ، Microsoft Access و غیره طراحی گردیده اند. بررسی جداول، برقراری ارتباط بین فیلدها و یک شکل سازی داده ها در این مرحله صورت می پذیرد.

بارگذاری داده های تبدیل شده به یک پایگاه داده چند بعدی

بر خلاف پایگاه داده سیستمهای عملیاتی (OLTP) که دارای معماری رابطه ای می باشند و از اصول نرمالیزه استفاده می کنند، طراحی انبار داده به شکلی ویژه بدون بهره گیری از اصول نرمالیزاسیون می باشد. درانبار داده فیلدها در جاهای مختلفی تکرار می شوند و روابط بین جداول کمتر به چشم می خورند. علت آن هم افزایش سرعت پردازش اطلاعات هنگام گزارشات و عملیات آماری می باشد.

تولید مقادیر از پیش محاسبه شده جهت افزایش سرعت گزارش گیری

مـقادیر از پیـش محاسـبه شده را تراکـم نیـز مـی نامـند. ایـن مرحلــه توســط سیستـمهایی نظــیر Microsoft SQL Server Analysis Services بسیار ساده تر شده است. ایـن تراکم ها کـه در ابـعاد مختلـف انبار دادهسـاخته می شوند، موجب می شوند که سرعت انجام عملیات گزارش گیری به شکل محسوسی افزایش یابد. بایدتوجه داشت که عملیات ساخت این مقادیر بسیار زمان گیر بوده و نیازمند حافظه زیادی بر روی سروراست.

ساخت ( یا خرید ) یک ابزار گزارش گیری

پس از انجام مراحل فوق، شـما می توانـید نسبـت به ساخت یا خـرید یـک نرم افزار گزارش گیـری تصمیم گیری نمایید. به طور معمـول هزینه سـاخت یک نرم افزار گزارش گـیری، بالاتـر از هزینـه خریـد آن از یک شرکت خارجـی می شود.

ویژگیهای اصلی داده های انبار داده ها

داده‌های موجود در انبار داده ها از سیستم‌های عملیاتی متنوع (نظیر سیستم‌های پایگاه داده‌ها) و منابع داده‌ای خارجی (نظیر پایگاه داده‌های آماری و WWW )یکپارچه می‌شوند. تفاوتهای ساختاری ومعنایی داده‌ها باید پیش از یکپارچه سازی انسجام یابند. برای مثال داده‌ها باید مطابق با مدل داده‌ای یکپارچه “همگن” شوند. بعلاوه، مقادیر داده‌ای سیستم‌های عملیاتی باید پاک شوند تا داده‌های صحیحی در انبار داده ها وارد شوند. نیاز به داده‌های تاریخی یکی از موارد مهم درشیوه انبار داده‌هاست. داده‌های تاریخی برای تحلیل روند کسب وکار ضروری هستند. البته هزینه نگهداری این گونه داده ها نیز باید مورد توجه قرار گیرد. بعلاوه، داده های انبار داده ها ثابت هستند، برای مثال دسترسی به DWH از نوع خواندنی است. انجام اصلاحات در این داده‌ها فقط هنگامی صورت می‌گیرد که اصلاحات داده‌های منبع در انبار انتشار یابند. DWH داده‌های دیگری به نام داده‌های اشتقاق یافته (derived data) دارد. این داده ها به طور صریح در منابع عملیاتی ذخیره نمی‌شوند، بلکه در حین بعضی از فرایندها از داده های عملیاتی، اشتقاق می‌یابند. برای مثال داده های فروش را می‌توان در سطوح مختلف (هفتگی، ماهانه، فصلی) در انبار ذخیره نمود.

 

طراحی انبار داده ها

به طور کلی دو روش در طراحی انبار داده وجود دارد. روش بالا به پایین و روش پایین به بالا. در روش بالا به پایین معنا را مد نظر خود قرار میدهیم. یعنی عنصر اصلی کار ما دیتامارت ها می شوند. از آنها شروع می کنیم و به اجزای اتمیک کار می رسیم. در روش پایین به بالا از اجزای اتمیک کار و ریز کار شروع می کنیم و آن را گسترش می دهیم تا به دیتامارت ها برسیم. هر دو روش بسیار کاربردی می باشند.
روشهای طراحی انبار داده ها امکان پردازش کارآمد query را برروی حجم عظیمی از داده ها فراهم می‌آورند. نوع ویژه‌ای از الگوی پایگاه داده ها به نام star برای مدل سازی انبار داده ها ی چند بعدی به کار می‌رود. در این حالت، پایگاه داده ها از یک جدول مرکزی واقعیت یا fact و جداول چند بعدی تشکیل شده است. جدول واقعیت حاوی tuple هایی است که بیانگر واقعیت های کسب و کار مانند فروش یا عرضه هستند. هر tuple جدول واقعیت به tupleهای جدول چند بعدی اشاره دارد. هرtuple جدول چند بعدی مواردی نظیر محصولات، مشتریان، زمان و فروشنده را نشان می‌دهد.

ETL ( extract, transform, and load ) : مراحل انتقال داده از OLTP Database به پایگاه داده‌ی Stage می‌باشد. ETL سیستمی می‌باشد که توانایی اتصال به OLTP را دارد و اطلاعات را از OLTPواکشی می‌کند و به پایگاه داده‌ی Stage انتقال می‌دهد. سپس ETL داده‌ها را مجتمع ( integrates ) کرده و از Stage به DDS ( Dimensional Data Source ) انتقال می‌دهد .

Retrieves Data : عملیات واکشی داده‌ها طبق یک سری قوانین و قواعد می‌باشد .

برای انجام عملیات ETL دو روش وجود دارد

Data مجتمع ( Integrate ) و تمیز ( Data cleansing ) شود و در نهایت وارد Data Warehouse گردد.
Data وارد Data Warehouse گردد سپس مراحل مجتمع سازی و پاک سازی داده‌ها بر روی داده‌ها در خود Data Warehouse انجام گردد.
Consolidates Data : برخی شرکت‌ها داده‌های اصلی خودشان را در چندین پایگاه داده دارند. در این حالت برای انجام عملیات ETL باید داده‌ها تحکیم و مجتمع شوند و سپس در Data Warehouse ذخیره شوند.

به طور کلی موارد زیر در فرایند ETL در نظر گرفته می‌شود:

Data availability : برخی داده‌ها در یک سیستم وجود دارند ولی در سیستم دیگری وجود ندارند و یا تفاوت در نگهداری داده‌ها در سیستم‌های مختلف داریم. مثلا در یک سیستم آدرس در سه فیلد نگه داری می‌شود (کشور-شهر-آدرس) اما در سیستمی دیگر در دو فیلد(کشور-آدرس) نگه داری می‌شود. در این حالت باید ما در ETL راه کار هایی برای مجتمع کردن این موارد در نظر بگیریم.
Time ranges : در سیستم‌های مختلف امکان دارد بعد‌های زمانی مختلف باشد . مثلا در یک سیستم بررسی‌ها در بازه‌ی ساعتی و در سیستم دیگر بررسی‌ها در بازه‌ی روزانه یا ماهانه باشد . بنابر این در تجمیع داده‌ها باید این مورد مد نظر گرفته شود.
Definitions : تعاریف در سیستم‌های مختلف می‌تواند متفاوت باشد. مثلا در یک سیستم، مبلغ کل فاکتور شامل مالیات می‌باشد ولی در سیستمی دیگر این مبلغ فاقد مالیات می‌باشد.
Conversion : در فرآیند ETL باید باز از قواعد موجود در سیستم‌های مختلف آگاهی داشته باشیم. مثلا در یک سیستم ممکن است دما را به صورت سانتیگراد و در دیگری فارنهایت نگه داری کنند.
Matching : باید بررسی لازم را انجام دهیم که کدام داده مرتبط با کدام سیستم می‌باشد. به عبارت دیگر کدام سیستم مالک داده می‌باشد و دقیقا داده‌ها در کدام سیستم معتبر‌تر می‌باشند. مثلا پرسنل، هم در سیستم حسابداری می‌باشند هم در سیستم پرسنلی؛ ولی معمولا داده‌های اصلی از سیستم پرسنلی می‌آیند.
Periodically : عملیات واکشی داده‌ها ( Retrieves Data ) و مجتمع سازی داده‌ها ( Consolidates Data ) در فرآیند ETL فقط یکبار اتفاق نمی‌افتد و این مراحل در بازه‌های زمانی خاص تکرار می‌گردند. این واکشی و انتقال داده‌ها می‌تواند در روز چند بار تکرار شود یا می‌تواند چند روز یک بار اجرا گردد و این بستگی دارد به سیاست موجود در Data Warehouse .
Dimensional Data Source

DDS (Dimensional Data Source) (Data Warehouse) یک پایگاه داده از نوع نرمال شده ( Normalized ) یا بعدی ( Dimensional ) می‌باشد. که داده‌های مجتمع شده و تمیز شده سیستم‌های OLTP را در خود جای داده است. این پایگاه داده برای واکشی‌های سیستم‌های آنالیز داده مورد استفاده قرار می‌گیرد. ورود اطلاعات در Data Warehouse به صورت Batch می‌باشد و به هیچ عنوان مانند پایگاه داده‌های OLTP ویرایش داده‌ها به صورت Online و هر زمان که داده‌ها تغییر می‌کنند، صورت نمی‌گیرد. اطلاعات در Data Warehouse معمولا به صورت تجمیع شده روزانه، ماهانه، فصلی یا سالانه می‌باشد. DDS ‌ها مجموعه ای از Dimensional Data Mart ‌ها هستند. و عمدتا به صورت denormalized می‌باشند.

Dimensional Data Mart : مجموعه ای از جداول Fact , Dimension می‌باشند که در یک بیزینس خاص باهم در ارتباط و مشترک می‌باشند.

 

dimensional data store schemas : طراحی‌های مختلفی از جداول Fact , Dimension در DDS وجود دارد که عبارتند از:

Star schema ساده‌ترین روش پیاده سازی Data Warehouse
Snowflake : این روش جداول Dimension کمی نرمال سازی بیشتری دارند. سیستم‌های آنالیز داده با این روش بهتر کار می‌کنند.
Galaxy schemas : طراحی در این روش بسیار سخت و پیچیده می‌باشد. با این وجود فرایند ETL در این طراحی ساده‌تر انجام می‌شود.
تفاوت‌های DDS و NDS
در DDS ‌ها هیچ گونه نرمال سازی خاصی انجام نمی‌دهیم و عملا تمامی جداول را دینرمال کرده ایم، در حالی که در NDS تمامی جداول تا سطح سوم و گاهی تا سطح پنجم نرمال شده اند.
سرعت واکشی و پردازش کوئری‌ها روی DDS خیلی بیشتر از NDS ‌ها می‌باشد.
در صورتی که نیاز باشد Data Warehouse ‌های خیلی بزرگ طراحی کنیم با حجم بسیار زیاد توصیه می‌شود از NDS ‌ها استفاده شود در حالی که برای Data Warehouse ‌های کوچک و متوسط بهتر است از DDS ‌ها استفاده شود.
History : جداول Data Warehouse میتوانند در طول زمان بسیار بزرگ شوند و دارای تعداد رکورد زیادی گردند. اینکه حداکثر داده‌های چند سال را در Data Warehouse نگه داری کنیم بستگی به سیاست‌های سازمانی دارد که سیستم OLAP برای آن تهیه می‌گردد. استفاده کردن از table partitioning می‌تواند در جبران افزایش تعداد رکورد کمک زیادی به ما بکند.
slowly changing dimension (SCD): سه روش برای نگه داری سابقه‌ی تغییرات در جداول Dimension وجود دارد.

SCD type 1 هیچ گونه سابقه‌ی تغییراتی را نگه داری نمی‌کنیم
SCD type 2 سابقه‌ی تغییرات در ردیف‌ها نگه داری می‌شود. در این روش هر ردیف، شماره ردیف قبلی را دارد و تعداد نا محدودی از تغییرات را نگه داری می‌کنیم.
SCD type 3 سابقه‌ی تغییرات در ستون‌ها نگه داری می‌شوند و فقط ردیف جاری و آخرین تغییرات را نگه داری می‌کنیم.
Query : فقط ETL حق تغییرات در Data Warehouse را دارد و کاربر نمی‌تواند Data Warehouse را تغییر دهد. البته کاربران حق Query کردن از Data Warehouse را دارند.
دقت داشته باشید که کوئری‌های پیچیده در NDS ‌ها بسیار کندتر از همان کوئری در DDS می‌باشد.

Business Intelligence : مجموعه ای از فعالیت‌ها که در یک سازمان برای شناخت بهتر وضعیت Business آن سازمان انجام می‌شود. نتایج BI کمک بسیاری برای تصمیم گیری‌های تکنیکی و استراتژیکی درون سازمان می‌کند. همچنین کمک به بهبود فرایند‌های Business جاری می‌کند.
فعالیت‌های Business Intelligence در سه دسته بندی قرار می‌گیرند :

Reporting : گزارشاتی که از Data Warehouse گرفته می‌شود و به کاربر نمایش داده می‌شود و عمدتا این گزارشات به صورت tabular form می‌باشند.
OLAP : فعالیت‌های انجام شده روی MDB برای گرفتن گزارشات Drill-Down و … می‌باشد.
Data mining : فرآیند واکشی و داده کاوی داده‌های درون سیستم می‌باشد، که منجر به کشف الگوها و رفتار‌ها و ارتباطات داده‌ها در سیستم می‌شود. توسط داده کاوی ما متوجه می‌شویم چرا برخی داده‌ها در سیستم تولید شده اند.
descriptive analytics : زمانی که از داده کاوی برای شرح وقایع گذشته و حال استفاده می‌شود.
predictive analytics : زمانی که از داده کاوی برای پیش بینی وقایع گذشته استفاده می‌شود.
Real time data warehouse : به DW هایی گفته می‌شود که در کمترین زمان، تغییرات OLTP را در خود خواهند داشت. امروزه این نوع DW ‌ها تغییرات ۵ دقیقه تا حداکثر ۱ ساعت قبل را در خود دارند. برای دسترسی به چنین DW هایی دو راه زیر وجود دارد :
بر روی هر جدول، Trigger هایی باشد تا تغییرات را به DW انتقال دهد. (البته برای این منظور باید Business مربوط به ETL را در این تریگر‌ها نوشت)
سورس برنامه‌های اصلی کاربر ( OLTP ) تغییر کند تا علاوه بر OLTP Database ‌ها Data Warehouse را هم تغییر دهند.
روش‌های فوق بسیار روی سرعت و کارایی برنامه‌های اصلی تاثیر خواهند گذاشت.

NDS ( Normalize Data Source ) : در صورتی که طراحی Data Warehouse به صورت Dimensional نباشد و به صورت Normalize باشد، نوع Data Warehouse از نوع NDS می‌باشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به پژوهشیار خوش آمدید. نیاز به مشاوره آنلاین دارید؟ ما همیشه آنلاین هستیم پس کلیک کنید