دانلود مطالعه روشهای مختلف معماری Data Warehouse به همراه ایجاد یک نمونه آزمایشی با بکارگیری بانک اطلاعاتی Oracle word دارای 180 صفحه می باشد و دارای تنظیمات و فهرست کامل در microsoft word می باشد و آماده پرینت یا چاپ است
فایل ورد دانلود مطالعه روشهای مختلف معماری Data Warehouse به همراه ایجاد یک نمونه آزمایشی با بکارگیری بانک اطلاعاتی Oracle word کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد.
این پروژه توسط مرکز مرکز پروژه های دانشجویی آماده و تنظیم شده است
توجه : توضیحات زیر بخشی از متن اصلی می باشد که بدون قالب و فرمت بندی کپی شده است
مقدمه
چکیده
فصل اول : سیر تحول سیستمهای پشتیبان تصمیم
1-1 مقدمه : سیر تحول
2DASD1-2 ظهور
1-3 تکنولوژی زبانهای نسل چهارم و کامپیوتر های شخصی
1-4 سیستم استخراج
1-5 یک تغییر در بحث
1-6 سیستمهای عملیاتی در مقابل سیستمهای پشتیبان تصمیم
1-7 انبار داده تعریف شده
فصل دوم : معماری انبار داده
2-1 مقدمه
2-2 خصوصیات تعریف انبارداده
2-3 مروری بر لایه های مختلف انبارداده
2-4 معماری در سه ناحیه اصلی
2-5 معماری انبار داده و پیاده سازی گزینه منتخب
2-6 از نیازمندیها تا طراحی داده
81 SNOWFLAK 2-7 شمای
فصل سوم : معرفی تکنولوژیهای موجود برای طراحی و ساخت انبارداده
3-1 مقدمه
3-2 مروری بر استخراج در انبارداده
3-3 مروری بر عمل انتقال در انبارهای داده
3-4 مروری بر بارگذاری و تغییر شکل داده در انبار داده
97(Replication) 3-5 مروری بر کپی سازی داده
فصل چهارم : پیاده سازی یک انبارداده آزمایشی
4-1 مقدمه
4-2 مدل بانک اطلاعاتی حقوق و دستمزد
4-3 پیاده سازی پیکربندی محیط طراحی شده
4-4 تجمیع اطلاعات دریک شما
فصل پنجم : نتیجه گیری و پیشنهاد
5-1 مقدمه
166Oracle 9i Warehouse Builder5-2 مرورری بر ابزار
168Oracle Warehouse Builder5-3 راهکار مجتمع
5-4 تعریف اشیاء
5-5 نگاشتها
1 Paulraj Ponniah, 2001, Data Warehousing Fundamentals A Comprehensive Guide for IT Professionals, JOHN WILLEY & SONS, INC
2. Scott Jesse, Matthew Hart, Michael Sale, Oacle9i for Windows 2000 Tips & Techniques,2002,McGrow-Hill/Osborne
3. W.H.Inmon, Building The Data Warehouse. Third Edition,2002, JOHN WILLEY & SONS, INC
4. Ralph Kimball, Margy Ross, The Data Warehouse Toolkit. Second Edition, 2002, JOHN WILLEY & SONS, INC
5. Data Modeling Techniques for Data Warehousing, First Edition, February 1998, Chuck Ballard, Dirk Herreman, Don Schau, Rhonda Bell,Eunsaeng Kim, Ann Valencic
6.Oracle Database Documentation 9i Release
انبار داده (Data Warehouse)یک سیستم تحویل اطلاعات است که در آن، داده اولیه جهت اتخاذ تصمیمات استراتژیک به اطلاعات قابل استفاده تبدیل می شود. کلیه اطلاعات برمبنای تاریخ آنها از سیستمهای عملیاتی مختلف دریافت شده، و این اطلاعات با اطلاعات مربوط به آن از منابع خارجی دیگر ترکیب می شوند. این اطلاعات جمع آوری شده به صورت کارآمدی به منظور ایجاد اطلاعات مختلف برای کلاسهای متفاوت کاربران تغییر شکل داده می شودو در نهایت روشهای تحویل داده پیاده سازی می شود. آقای بیل اینمون که پدرانبار داده نامیده شده ، تعریف زیر را برای آن ارائه می کند
«انبار داده، مجموعه داده موضوع گرا، یکپارچه، غیر فرار و زمان دار است که به منظور پاسخگویی به پرسجوهای تحلیلی و آماری در جهت اتخاذ تصمیمات مدیریتی جمع آوری می شوند.»
با این توصیف انبار داده، بستر اصلی ایجاد یک محیط برای سیستمهای پشتیبان تصمیم (DSS) ها می باشدکه در عصر خاصر از اهمیت خاصی دردنیا برخوردار است. اگر چه در کشور فعالیتهای مؤثری در زمینه ایجاد اینگونه سیستمها انجام گرفته است، اما هنوز بستر فرهنگی مناسبی درزمینه فعالیتهای درراستای هوشمندی تجاری(Business Intelligence) وجود ندارد.امید است انجام چنین فعالیتهای تحقیقاتی به پیشبرد این روند کمک شایان ذکری نماید
به منظور ایجاد یک بستر مناسب جهت تحویل اطلاعات به سیستم پشتیبان تصمیم (DSS) ، انبارداده ایجاد می شود . بانک اطلاعاتی نمونه که جهت ایجاد انبارداده آزمایشی انتخاب شده ، بانک اطلاعاتی سیستم حقوق و دستمزد یک شرکت دارای سه شعبه در سه نقطه مکانی مختلف می باشد که روی یک Station شبیه سازی شده است
برای ایجاد محیط مورد نظرمی بایست براساس چند محور مورد نظر طراح اطلاعات از منابع مختلف جمع آوری شده و براساس ساختار جدید در محیط مقصد که همان انبار داده می باشد بارگذاری شود، از میان ساختار های داده بررسی شده ساختار Star Schema پیاده سازی شد و از میان روشهای انتقال اطلاعات روشهای مختلف Replication مورد بررسی قرار گرفته و یکی از این روشها با عنوان روش ترکیبی (Hybrid) برای پیاده سازی انتخاب شد
در نهایت سیستمی ایجاد شد که قادر به پاسخگویی درخواستهای درنظر گرفته شده براساس محورهای ازقبل تعیین شده می باشد.البته لازم به ذکر است که کلیه مراحل تولید انبارداده می توانست از طریق ابزارهای تولید موجود استفاده شود که به عنوان پیشنهاد در فصل پنجم به بررسی یکی از این ابزارهای قدرتمند با نام Oracle Data warehouse Builder پرداخته شده است
منشاء اصلی پردازش DSS به روزهای خیلی دور در تاریخ سیستمهای کامپیوتری و اطلاعاتی بر میگردد. جالب است بدانیم که سیستمهای پشتیبان تصمیم دارای قدمت طولانی وپیچیده در تکنولوژی اطلاعاتی است.و سیر تحول آن تا به امروز ادامه داشته است .]3[
شکل 1-1 سیر تحول پردازش اطلاعات از 1960 تا 1980 را نشان میدهد
درحدود دهه1960 جهان کامپیوتر موفق بهایجاد نرم افزارهایی شد که با استفاده از فایلهای Master اجرا میشدند.این نرم افزارها در قالب برنامه ها و گزارشاتی بودند، که معمولاٌ به زبان COBOL نوشته میشد. پانچ کارتها یک ابزار ذخیر سازی عمومی به حساب میآمدند. فایلهای Master توسط نوارهای مغناطیسیی نگهداری میشدند که برای ذخیره سازی ارزان قیمت حجم زیادی از داده مناسب بودند، اما بخاطراینکه دسترسی به اطلاعات میبایست به صورت متوالی باشداین روش زیاد مفید نبود. در یک گذار در فایل نوار مغناطیسی که از100% رکوردها عبور میشود، عموما فقط 5 درصد ازاین رکوردها یا حتی کمتر مورد نظر بودند. بعلاوه بسته به داده درون فایل و پردازشی که باید روی آن انجام میشد، دسترسی به فایل نوار ورودی بیشتر از 20 تا 30 دقیقه به طول میانجامید.]3[
در اواسط دهه 1960، به طور گستردهای رشد استفاده از فایلهای Master و نوار مغناطیسی افزایش یافتند و در پی آن مقادیر هنگفتی داده افزونه نیز به وجود آمد. ازدیاد فایل Master و داده افزونه منجر به بروز چندین مشکل شد:]3[
- نیاز به داده همزمان به محض عمل به روز رسانی
- پیچیدگی نگهداری برنامه ها
- پیچیدگیایجاد برنامههای جدید
- نیاز به سخت افزار گران برای پشتیبانی کلیه فایلهای Master
جالب است که اگر فقط ابزار ذخیره سازی داده، نوار مغناطیسی باشد، جهان پردازش اطلاعات شاهد هیچ پیشرفتی نبود، . اگر هرگز چیزی برای ذخیره داده حجیم به وجود نمی آمد، سیستمهای سریع و خیلی بزرگ درجهان ظاهر نمیشد، ونیز هرگز سیستمهای ATM و شبیه آن به وجود نمیآمد. حقیقتا، اگر قابلیت ذخیره سازی و مدیریت داده در انواع جدید ابزارهای ذخیره سازی وجود نداشت، هرگز بستر لازم برای همکاری تکنسینها و تجار با هم به وجود نمی آمد.]3[
در 1970 تقریبا هر روز یک تکنولوژی جدید برای ذخیره سازی و دسترسی داده به وجود میآمد.در دهه 1970 زمان تحول وسیله ذخیره سازی دستیابی مستقیم (DASD )بود. دیسک ذخیره سازی اصولا با نوار مغناطیسی از نظر قابلیت دسترسی مستقیم تفاوت داشت. ونیازی نبود که رکوردها 1,2,…,n تا n+1 رکورد مرور شود.]3[
آدرس رکورد n+1 ام شناخته شده بود، موضوع سادهای بود که بفهمیم رکورد n+1 ام دقیقا در کجای دیسک قرار دارد. ازاین گذشته، زمان مورد نیاز برای دسترسی به رکورد n+1 ام، کمتر از زمان مورد نیاز برای مرور یک نوار بود. در حقیقت زمان مورد نیاز برای قرار دادن یک رکورد در DASD فقط به اندازه چند میلی ثانیه بود.]3[
به همراه DASD نوع جدیدی از نرم افزارها تولید شد که به عنوان یک سیستم مدیریت
بانک اطلاعاتی مطرح گردید. هدف از ساخت DBMS بدین منظور بود که برای برنامه نویسان ذخیره سازی و دستیابی داده در محیطDASD آسان گردد.به علاوهاین ابزار، عملیات مختلفی را برای ذخیره سازی داده در DASD، از جمله فهرست گذاری داده و غیره راانجام میداد. از طریق DASD وDBMSیک راه حل تکنیکی برای حل مشکلات فایلهای Master پدید آمد.وهمچنین موضوع بانک اطلاعاتی مطرح شد.با وجود آشفتگی که فایلهای Masterایجاد کرده بودند و داده افزونه جمع آوری شده از آنها بسیارزیاد بود، بدین سبب عجیب نبود که در دهه 1970 بانک اطلاعاتی تعریف شده به عنوان یک منبع مجزای داده برای کلیه پردازشها مورد استفاده قرار گیرد.]3[
دراواسط دهه 1970 پردازش تراکنش بر خط (OLTP) دسترسی سریعتر به داده را امکان پذیر ساخت. باباز شدن کلیه چشم اندازهای جدید برای تجارت و پردازش، اکنون کامپیوتر میتواند برای انجام اعمالی که قبلا غیر ممکن به نظر میرسید، مثل سیستمهای رزور درایو، سیستمهای پاسخگوی بانک، سیستمهای کنترل ساخت و مانند آن مورد استفاده قرار گیرد.اگر دنیا در مرحله استفاده از فایل نوار مغناطیسی باقی میماند، ساخت بیشتر سیستمهایی که امروزه تولید میشود امکان پذیر نبود.]3[
در دهه 1980 اکثر تکنولوژیهای جدید، مثل کامپیوترهای شخصی و زبانهای نسل چهارم، شروع به فعالیت نمودند.کاربر نهایی نقش جدی را به عهده گرفت- کنترل مستقیم داده و سیستم – که نقش قبلی رزرو شده برای پردازنده داده بود. از طریق کامپیوترهای شخصی و زبانهای نسل چهارم موقعیتی پیش آمد که کاربر بیشتر میتوانست با داده درپردازش تراکنشهای بر خط ارتباط برقرار کند. MIS (سیستمهای اطلاعات مدیریتی)، همانطور که قبلا به کار میرفت، میتوانست پیاده سازی شود. امروزه همانطور که سیستمهای پشتیبان تصمیم شناخته شدند، سیستمهای اطلاعات مدیریتی نیز برای تصمیمهای مدیریتی استفاده شدند.در گذشته داده و تکنولوژی با هم استفاده میشد تا تصمیمات عملیاتی جزئی اتخاذ شود.اما هیچ بانک اطلاعاتی نمیتواند هم پردازش تراکنش عملیاتی و هم پردازش تحلیلی را در یک زمان انجام دهد.شکل 1-1 نمونهای از بانک اطلاعاتی را نشان میدهد.]3[
در نهایت از سیر تحول سیستمهای کلان OLTP، سیستمی کاربردی برای استخراج اطلاعات ظهور کرد. (شکل 1-2 را نگاه کنید)
سیستم استخراج از جمله آسانترین نوع برنامه هاست.این سیستم درون یک فایل یا بانک اطلاعاتی را جستجو میکند، از بعضی معیارها برای انتخاب داده و یافتن داده مورد نظر، انتقال داده به فایل یا بانک اطلاعاتی دیگر استفاده میکند. در واقعاین سیستمها حداقل به دو دلیل زیر خیلی عوام پسند است
به دلیلاینکه پردازش استخراج میتواند داده را خارج از مسیر پردازش جاری بدون لطمه به کارایی پردازش، انتقال دهد.بنابراین وقتی داده نیاز به تحلیل فوری دارد، هیچگونهایرادی در کاهش کارایی به وجود نمی آید.]3[
وقتی داده از طریق برنامه استخراج به خارج از حیطه پردازش تراکنش منتقل میشود، یک تغییر مکان در کنترل رخ میدهد. پس کاربر نهایی مالک داده کنترل اصلی را در دست دارد. بهاین دلایل ، پردازش استخراج خیلی زود در همه جاگسترش پیداکرد.]3[
1-4-1 مشکلات سیستمهای توسعه یافته امروزی
سیستمهای توسعه یافته رویکردهای زیر را ارائه میکند
- فقدان اعتبار داده
- بهره وری پایین
- ناتوانی در تبدیل داده به اطلاعات
1-4-1-1 فقدان اعتبار داده
فقدان اعتبار داده در شکل 1-2 نمایش داده شده است. دو دپارتمان یک گزارش مدیریتی تحویل میدهند- یک دپارتمان ادعا میکند که دارای فعالیتی کمتر از 15 درصد است ودیگری میگوید که بالای 10درصد فعالیت میکند.نه تنها دو دپارتمان همزمان با یکدیگر فعالیت نمی کنند بلکه در موارد زیاددیگری نیز با هم تفاوت دارند. به علاوه تلاش در جهت تطابق کامل دو دپارتمان کار مشکلی است. در صورتیکه مستند سازی خیلی دقیقی انجام شده باشد، همسو سازی کلیه اهداف کاربردی میتواند ممکن باشد.]3[
وقتی مدیریت، گزارشات مبهمی دریافت میکند،این امر وی را مجبور به اتخاذ تصمیمات بر مبنای سیاستها و خصوصیات شخصی میکند .چرا که منابع اطلاعاتی دارای درجه اعتبار کمتری است.این مثالی از بحران اعتبار داده در سیستمهای توسعه یافته امروزی است.]3[
این بحران شایع و قابل پیش بینی است چرا؟ همانطور که در شکل 1-3 نمایش داده میشود، به پنج دلیل زیر
- وجود داده فاقد مبنای زمانی
- وجود داده دارای ضریب تغییر الگوریتمی
- سطوح استخراج مختلف
- وجود مشکل داده خارجی
- وجود منبع داده غیر مشترک از ابتدا
دلیل اول بحران قابل پیش بینی آن است که داده فاقد مبنای زمانی است. شکل 1-4 یک اختلاف زمان را نشان میدهد. یک دپارتمان دادهاش را برای آنالیز در یک بعد از ظهر یکشنبه استخراج میکند و دپارتمان دیگر در صبح چهارشنبه .آیا دلیلی وجود دارد که بگوییم آنالیز انجام شده در یک نمونه داده در یک روز همان خواهد شد که آنالیز برای همان داده در روز دیگر؟ البته که نه. داده درسازمان همیشه در حال تغییر است. بین مجموعههای داده آنالیز شده که در زمانهای متفاوت به دست آمده، هر اتفاقی ممکن است واقع شده باشد.]3[