از دریاچه داده چه می دانید؟

از دریاچه داده چه می دانید؟

به گزارش وبی کارت، مفهوم دریاچه داده را میتوان این گونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیه شده، بسته بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه ای است که آب از منابع مختلف ( آب باران، چشمه ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می توانند از آب دریاچه برای شنا، ‌نوشیدن یا حتی نمونه برداری استفاده نمایند.



به گزارش وبی کارت به نقل از ایسنا، امروزه داده ها بسیار سریع درحال شکل گیری هستند، کارشناسان بر این عقیده هستند که رشد حجم بالای داده ها سبب شده تا مدلهای ذخیره سازی و تحلیل های مبتنی بر کامپیوتر های منفرد، پاسخ گوی آنها نباشند، از طرفی عوامل گوناگونی سبب شده تا مدل انبار داده سنتی به صورت جدی به چالش کشیده شود.

در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحی شده برای ذخیره مقادیر زیادی از داده ها در شکل بومی است. این داده ها می توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل های متنی، لاگ سیستم و بیشتر باشند.

این واژه توسط جیمز دیکسون، CTO، یک شرکت نرم افزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گسترده ای از داده ها را میتوان در آن ریخت. کاربران کسب و کار تماماً می توانند وارد دریاچه داده ها شوند و نوع اطلاعاتی که برای کاربرد آنها نیاز دارند را دریافت نمایند. این مفهوم با انفجار داده های ماشینی و کاهش سریع هزینه ذخیره سازی به محبوبیت رسید. در صورتیکه بخواهیم تفاوت های رویکرد دریاچه داده و انبار داده در تحلیل داده ها را بیان نماییم، می توانیم با عنایت به آنچه که در بعضی از سایت های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر بعنوان تفاوت های اساسی اشاره کنیم:

داده ها کاملاً در دریاچه داده قرار می گیرند و از هیچ داده ای صرف نظر نمی شود؛ این رویکرد برخلاف رویکرد انبار داده در ذخیره سازی و پالایش داده هاست که در آن تنها اطلاعاتی در انبار داده قرار می گیرد که بتواند در تحلیل ها مورد استفاده قرار گیرد. داده های پایین ترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می شوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیش فرض های اساسی و اولیه ورود اطلاعات به آن به حساب می آید.

بر این اساس در مثال قبل امکان دارد برای ذخیره سازی توضیحات یک فرد در یک مقاله یا وبسایت با مدل انبار داده تنها به استخراج کلید واژه ها از توضیحات و ذخیره سازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاه ها ساخته شده است، بدون توجه به منبع و ساختار ذخیره می شوند. این رویکرد ذخیره سازی داده ها که در آن داده، بدون توجه به ساختار و منبع ذخیره می شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می شود. این نگاهی متفاوت از ذخیره سازی داده ها در انبار داده است که در آن، ابتدا ساختاری که داده ها باید در آن قرار گیرد طراحی می شود و سپس داده ها در ساختار قرار می گیرند که به آن نوشتن با ساختار (Schema On Write) گفته می شود.

نزدیک به ۸۰ درصد از استفاده کنندگان از اطلاعات در بیشتر سازمان ها، استفاده کنندگان عملیاتی محسوب می شوند. نیاز این دسته از کاربران اینست که گزارش ها و شاخصهای مورد نیاز خویش را مشاهده کنند. این موارد معمولا دارای ساختاری از پیش تعریف شده هستند و رویکرد انبار داده به علت ساخت یافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.

درصد کمی از کاربران سازمان ها نیازمند تحلیل های عمیق و پیچیده بر روی داده ها هستند. دانشمندان و تحلیلگران داده (Data Scientists) جزو این دسته از کاربران قرار می گیرند این گروه از کاربران، از انواع داده های ساخت یافته یا ساخت نیافته و ابزارهای تحلیل و بررسی پیشرفته بر روی داده ها مانند داده کاوی، متن کاوی، تحلیل آماری، مدلهای پیشبینی کننده، تحلیل جریان پیمایش یک سایت و روش های مشابه استفاده می نمایند. اما معمولاً ۱۰ درصد از کاربران یک سازمان احتیاج به تحلیل و بررسی عمیق داده ها پیدا می کنند. این دسته از کاربران می توانند از انبار داده برای تحلیل و بررسی های مورد نیاز خود استفاده نمایند اما گاهی اوقات، احتیاج به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به داده ها در سیستم های تولیدکننده آن رجوع کنند.

با توجه به این که در فرایند تحلیل های پیشرفته، تحلیل گر از قبل، در رابطه با این که چه خصوصیت ها یا داده هایی موردنیاز هستند و از کدام یک باید صرف نظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می تواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد. در هر حال تفاوت های کلیدی بین دریاچه های داده و انبارهای داده وجود دارد که به صورت سنتی برای تحلیل داده ها مورد استفاده قرار گرفته اند. اول، انبارهای داده برای داده های ساختار یافته طراحی شده اند.

یک حقیقت این که دریاچه های داده یک طرح را به داده ها تحمیل نمی کنند؛ در عوض، زمانی که داده ها خوانده شده و یا از دریاچه داده ها بیرون کشیده می شوند، طرح مورد استفاده قرار می گیرد در نهایت دریاچه های داده در محبوبیت با افزایش داده های دانشمندان که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیلگران کسب و کار قبلی، رشد کرده اند.




1402/02/01
06:41:52
0.0 / 5
304
تگهای خبر: تخصصی , دستگاه , سازمان , سایت
این مطلب را می پسندید؟
(0)
(0)

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۷ بعلاوه ۴
weby Card

webycard.ir - حق کپی رایت سایت وبی كارت محفوظ است

وبی كارت

معرفی کسب و کار شما در اینترنت