انبار داده (Data Warehouse) چیست؟ - زیپ
X
تبلیغات
رایتل
جمعه 16 بهمن 1388 @ 11:59 ب.ظ

انبار داده (Data Warehouse) چیست؟



Data Warehouse

تکنولوژی انبار داده‌ها شامل مجموعه‌ای مفاهیم و ابزارهای جدیدی است که با فراهم آوردن اطلاعات از دانشگران (افراد اجرایی، مدیر و تحلیلگر) در تصمیم گیری پشتیبانی می‌نماید. دلیل اصلی ساخت انبار داده ها، بهبود کیفیت اطلاعات در سازمان است، در واقع دسترسی به داده‌ها از هر جا درون سازمان داده‌ها از منابع داخلی و خارجی تهیه می‌شوند و به اشکال گوناگون از داده‌های ساختاری گرفته تا داده‌های ساخت نیافته مانند فایل‌های متنی یا چند رسانه‌ای، در مخزنی مجتمع می‌شوند. انبار داده‌ها یا DWH مخزنی از این داده‌هاست که به صورتی قابل درک در دسترس کاربران نهایی کسب و کار قرار می‌گیرد.

از اواسط سالهای 1980 نیاز به انبار داده‌ها به وجود آمد و دریافتند که سیستم های اطلاعاتی باید به صورت سیستم‌های عملیاتی و اطلاعاتی مشخص شوند. سیستم‌های عملیاتی از فعالیت‌های روزانه کسب و کار پشتیبانی می‌نمایند و برای پاسخگویی سریع به ارتباطات از پیش تعریف شده مناسب هستند. داده‌های عملیاتی ارائه بی‌درنگ و فعلی وضعیت کسب و کار می‌باشند. اما سیستم‌های اطلاعاتی برای مدیریت و کنترل کسب وکار به کار می‌روند. این سیستم‌ها از تجزیه و تحلیل داده‌ها برای اتخاذ تصمیم درباره عملکرد آنی و آتی سازمان پشتیبانی می‌کنند و برای در خواست‌های موردی، پیچیده و به طور عمده فقط خواندنی طراحی شده‌اند.داده‌های اطلاعاتی تاریخی هستند، به عبارتی بیانگر دیدگاه ثابتی از کسب وکار در یک دوره زمانی می‌باشند.

   انـبـار داده  بـه مجـموعـه ای از داده هــا گفـتـه می شود که از منابع مختلف اطلاعاتی سازمان جمع آوری ، دسته بندی و ذخیره می شود. در واقع یک انبار داده مخزن اصلی کلیه داده های حال و گذشته یک سازمان می باشد که برای همیشه جهت انجام عملیات گزارش گیری و آنالیز در دسترس مدیران می باشد. انبارهای داده حاوی داده هایی هستند که به مرور زمان از سیستم های عملیاتی آنلاین سازمان (OLTP) استخراج می شوند، بنابراین سوابق کلیه اطلاعات و یا بخش عظیمی از آنها را می توان در انبار داده ها مشاهده نمود.

از آنجائیکه انجام عملیات آماری و گزارشات پیچیده دارای بارکاری بسیار سنگینی برای سرورهای پایگاه داده می باشند، وجود انبار داده سبب می گردد که اینگونه عملیات تاثیری بر فعالیت برنامه های کاربردی سازمان (OLTP) نداشته باشد.

همانگونه که پایگاه داده سیستمهای عملیاتی سازمان ( برنامه های کاربردی ) به گونه ای طراحی می شوند که انجام تغییر و حذف و اضافه داده به سرعت صورت پذیرد، در مقابل انبار داده ها دارای معماری ویژه ای می باشند که موجب تسریع انجام عملیات آماری و گزارش گیری می شود (OLAP) .

تاریخچه و دلایل استفاده از انبار داده

از اواخر سال 1980 میلادی،  انبـار های داده به عنـوان نـوع متـمـایزی از پایـگاه هـای داده مـورد استـفاده اغلـب سـازمـانـها و
شرکت های متوسط و بزرگ واقع شدند. انبار های داده جهت رفع نیاز رو به رشد مدیریت داده ها و اطلاعات سازمانی که توسط پایگاه های داده سیستم های عملیاتی غیر ممکن بود، ساخته شدند.

سیستمهای عملیاتی سازمان (OLTP) دارای نقاط ضعفی می باشند که انبار های داده آنها را رفع می کنند. از جمله:

•  بار پردازش گزارشات موجب کندی عملکرد برنامه های کاربردی می گردد.
•  پایگاه های داده برنامه های کاربردی دارای طراحی مناسبی جهت انجام عملیات آماری و گزارش نیستند.
•  بسیاری از سازمانها دارای بیش از یک برنامه کاربردی ( منابع اطلاعاتی) می باشند، بنابراین تهیه گزارشات در سطح سازمان غیر ممکن می شود.
•  تهیه گزارشات در سیستمهای عملیاتی غالبا نیازمند نوشتن برنامه های مخصوص می باشد که معمولا کند و پرهزینه هستند.

 
مراحل و نحوه ایجاد انبار داده در سازمان

بسیاری از شرکت ها و سازمانها به این باور رسیده اند که گردآوری، سازمان دهی و یکپارچه سازی داده ها در یک مخزن داده برای مدیریت بهینه و اتخاذ تصمیمات کلان یک ضرورت می باشد. 

به طور کلی ساخت یک انبار داده، به شکل یک پروژه شامل مراحل اصلی زیر می باشد:

1- استخراج داده های تراکنشی از پایگاه های داده به یک مخزن واحد
شناخت منابع داده های سازمان و استخراج داده های ارزشمند از آنها یکی از اصلی ترین مراحل ایجاد انبار داده می باشد.
2- تبدیل داده ها
از آنجائیکه سیستمهای اطلاعاتی و برنامه های کاربردی یک سازمان غالبا توسط افراد و پروژه های مختلف به مـرور زمان در مواجهـه با نیـازهای جدید سـاخته یا تغییر شـکل داده می شـوند،  یکسـان سـازی آنها امری ضروری
می باشد.در بسیاری از موارد نیز سیستمهای اطلاعاتی در بستر های مختلف پایگاه داده مانند Microsoft SQL Server ،Oracle ، Sybase ، Microsoft Access و غیره طراحی گردیده اند. بررسی جداول، برقراری ارتباط بین فیلدها و یک شکل سازی داده ها در این مرحله صورت می پذیرد.

3- بارگذاری داده های تبدیل شده به یک پایگاه داده چند بعدی
بر خلاف پایگاه داده سیستمهای عملیاتی (OLTP) که دارای معماری رابطه ای می باشند و از اصول نرمالیزه استفاده می کنند، طراحی انبار داده به شکلی ویژه بدون بهره گیری از اصول نرمالیزاسیون می باشد. درانبار داده فیلدها در جاهای مختلفی تکرار می شوند و روابط بین جداول کمتر به چشم می خورند. علت آن هم افزایش سرعت پردازش اطلاعات هنگام گزارشات و عملیات آماری می باشد.
4- تولید مقادیر از پیش محاسبه شده جهت افزایش سرعت گزارش گیری
مـقادیر از پیـش محاسـبه شده را تراکـم نیـز مـی نامـند. ایـن مرحلــه توســط سیستـمهایی نظــیر Microsoft SQL  Server  Analysis  Services  بسیار ساده تر شده است. ایـن تراکم ها کـه در ابـعاد مختلـف انبار داده سـاخته
می شوند، موجب می شوند که سرعت انجام عملیات گزارش گیری به شکل محسوسی افزایش یابد. بایدتوجه داشت که عملیات ساخت این مقادیر بسیار زمان گیر بوده و نیازمند حافظه زیادی بر روی سروراست.

5- ساخت ( یا خرید ) یک ابزار گزارش گیری
پس از انجام مراحل فوق، شـما می توانـید نسبـت به ساخت یا خـرید یـک نرم افزار گزارش گیـری تصمیم گیری نمایید.  به طور معمـول هزینه سـاخت یک نرم افزار گزارش گـیری،  بالاتـر از هزینـه خریـد آن از یک شرکت خارجـیمی شود.

 

ویژگیهای اصلی داده‌های انبار داده‌ها

 

داده‌های موجود در انبار داده‌ها از سیستم‌های عملیاتی متنوع (نظیر سیستم‌های پایگاه داده‌ها) و منابع داده‌ای خارجی (نظیر پایگاه داده‌های آماری و WWW )یکپارچه می‌شوند. تفاوتهای ساختاری ومعنایی داده‌ها باید پیش از یکپارچه سازی انسجام یابند. برای مثال داده‌ها باید مطابق با مدل داده‌ای یکپارچه "همگن" شوند. بعلاوه، مقادیر داده‌ای سیستم‌های عملیاتی باید پاک شوند تا داده‌های صحیحی در انبار داده‌ها وارد شوند. نیاز به داده‌های تاریخی یکی از موارد مهم درشیوه انبار داده‌هاست. داده‌های تاریخی برای تحلیل روند کسب وکارضروری هستند. البته هزینه نگهداری این گونه داده‌ها نیز باید مورد توجه قرار گیرد. بعلاوه، داده‌های انبار داده‌ها ثابت هستند، برای مثال دسترسی به DWH از نوع خواندنی است. انجام اصلاحات در این داده‌ها فقط هنگامی صورت می‌گیرد که اصلاحات داده‌های منبع در انبار انتشار یابند. DWH داده‌های دیگری به نام داده‌های اشتقاق یافته (derived data) دارد. این داده‌ها به طور صریح در منابع عملیاتی ذخیره نمی‌شوند، بلکه در حین بعضی از فرایندها از داده‌های عملیاتی، اشتقاق می‌یابند. برای مثال داده‌های فروش را می‌توان در سطوح مختلف (هفتگی، ماهانه، فصلی) در انبار ذخیره نمود.

 Data Warehouse

 

سیستم‌های انبار داده‌ها

 

سیستم انبار داده‌ها (DWS) شامل انبار داده‌ها و همه مولفه‌هایی است که برای ساخت، دستیابی و نگهداری DWH به کار می‌روند. انبار داده‌ها بخش مرکزی سیستم انبار داده‌ها را تشکیل می‌دهد. گاهی اوقات انبار داده‌ها حجم عظیمی از اطلاعات را در واحدهای منطقی کوچکتر به نام Data Mart نگهداری می‌کند. مولفه آماده سازی، مسوولیت کسب یا دریافت داده‌ها را بر عهده دارد. این مولفه شامل همه برنامه‌ها و‌برنامه‌های کاربردی‌ای است که مسوول استخراج داده‌ها از منابع عملیاتی هستند. مولفه دستیابی شامل برنامه‌های کاربردی مختلف (OLAP یا برنامه‌های کاربردی داده کاوی) است که امکان استفاده از اطلاعات ذخیره شده در انبار داده‌ها را فراهم می‌آورند.

 

مولفه مدیریت Metadata، وظیفه مدیریت، تعریف و دستیبابی به انواع مختلف Metadata را بر عهده دارد. در اصل ،‌Metadata  "داده‌هایی درباره داده‌ها" یا "داده‌هایی است که مفهوم داده‌ها را توصیف می‌کنند". انواع مختلف Metadata در انبار داده‌ها وجود دارند. مثلا اطلاعاتی درباره منابع عملیاتی، ساختار داده‌های DWH و  کارهایی که در حین ساخت، نگهداری و دستیبابی به DWH انجام می‌شوند. نیاز به Metadata شناخته شده است. پیاده سازی یک DWS منسجم ،کار پیچیده و دشواری است و شامل دو فاز می باشد. درفاز اول که پیکربندی DWS نام دارد، دیدگاه مفهومی انبار داده‌ها مطابق با نیازمندیهای کاربر مشخص می‌شود. سپس منابع داده‌ای دخیل و روش استخراج و بار گذاری در انبار داده‌ها تعیین می‌گردد. سرانجام، درباره پایگاه داده‌های مورد نظر و روشهای دستیبابی داده‌ها تصمیم گیری خواهد شد. پس از بار گذاری اولیه، در فاز عملیات DWS باید داده‌های انبار داده‌ها به منظور منظم refresh شوند.

 

 

طراحی انبارداده‌ها

روشهای طراحی انبارداده‌ها امکان پردازش کارآمد query را برروی حجم  عظیمی از داده‌ها فراهم می‌آورند. نوع ویژه‌ای از الگوی پایگاه داده‌ها به نام star برای مدل سازی انبارداده‌های چند بعدی به کار می‌رود. در این حالت، پایگاه داده‌ها از یک جدول مرکزی واقعیت یا fact و جداول چند بعدی تشکیل شده است. جدول واقعیت حاوی tuple هایی است که بیانگر واقعیت‌های کسب و کار مانند فروش یا عرضه هستند. هر tuple جدول واقعیت به tupleهای جدول چند بعدی اشاره دارد. هرtuple جدول چند بعدی مواردی نظیر محصولات، مشتریان، زمان و فروشنده را نشان می‌دهد.

Data Warehouse Lifecycle Modelمدل چرخه حیات انبار داده ها

 

 

انبار داده‌های مجازی

 

هدف انبارداده‌های مجازی، پیاده سازی سریع انبارداده‌ها بدون نیاز به ذخیره سازی و نگهداری  کپی‌های متعدد از داده‌های منبع است. اغلب، انبارداده‌های مجازی به سازمانها کمک می‌کند تا به نیاز واقعی کاربران نهایی پی ببرند. کاربران نهایی می‌خواهند به طور مستقیم به داده‌های منبع بی درنگ با کمک ابزارهای توانمند شبکه‌ای دسترسی پیدا کنند. معایب این روش عبارتند از:

 - کیفیت و سازگاری داده‌ها تضمین نمی‌شود. زیرا فعالیت‌های آماده سازی داده‌ها صورت نمی‌گیرند.

 - به طور معمول، داده‌های تاریخی وجود ندارند.

 - زمان دسترسی کاربر نهایی بسته به وجود یا عدم وجود منابع عملیاتی، ‌بار شبکه و پیچیدگی درخواست، غیر قابل پیش بینی است.

منابع:

http://www.pcworldiran.com/ict/data-warehouse.htm
http://www.sqliran.com/SQLIran/Mod_Core/Pages/Services/DataWarehousing.aspx