این مقایسه، تنش استراتژیک بین حفظ دادههای خام به طور کامل دست نخورده برای موارد استفاده غیرمنتظره در آینده و کاهش حجم مجموعه دادهها برای بهینهسازی عملکرد زیرساخت را به تفصیل شرح میدهد. ایجاد تعادل بین این دو اولویت تحلیلی، تعیین میکند که یک سازمان چگونه هزینههای ذخیرهسازی ابری را به طور مؤثر مدیریت میکند و در عین حال قابلیتهای تحلیلی عمیق تاریخی را حفظ میکند.
برجستهها
حفاظت، زمینه و اصل و نسب دادهها را محافظت میکند در حالی که فشردهسازی، کاهش اندازه فیزیکی دادهها را هدف قرار میدهد.
فشردهسازی با اتلاف، بیتهای داده را بهطور دائم از دست میدهد، در حالی که حفظ دادهها مستلزم وفاداری مطلق دادهها است.
قالبهای ذخیرهسازی ستونی مدرن، فشردهسازی بدون اتلاف را با حفظ اطلاعات ساختاری ترکیب میکنند.
انتخاب روش حفظ دادهها، انعطافپذیری تحلیلی را افزایش میدهد، در حالی که انتخاب فشردهسازی، هزینههای ذخیرهسازی ابری را کاهش میدهد.
حفظ اطلاعات چیست؟
استراتژی سیستمی حفاظت و نگهداری دقیق یکپارچگی، زمینه و وضعیت خام دادهها در کل چرخه حیات آنها.
این امر به شدت بر دفاع از فرادادهها، دودمان ساختاری و نقاط داده خام در برابر هرگونه تغییر دائمی تمرکز دارد.
این رویکرد بر حفظ لاگهای خام یا دریاچههای داده تغییرناپذیر به صورت دستنخورده متکی است تا تکرارپذیری در حسابرسیهای علمی و مالی تضمین شود.
این به عنوان یک محافظ برای علم دادههای اکتشافی عمل میکند و به مهندسان اجازه میدهد تا سالها بعد ویژگیهای جدیدی را از دادههای تاریخی استخراج کنند.
چارچوبهای مدیریت دادهها، حفاظت دقیق از دادهها را برای رعایت قوانین و مقررات پیچیده منطقهای در مورد حریم خصوصی دادهها الزامی میکنند.
نگهداری دادهها به شکل اصلی و فشرده نشده، اغلب عملکرد پرسوجوی ابری را برای الگوهای دادهای خاص و بدون ساختار افزایش میدهد.
فشردهسازی دادهها چیست؟
فرآیند فنی رمزگذاری اطلاعات با استفاده از بیتهای کمتر برای کاهش فضای ذخیرهسازی و افزایش سرعت انتقال شبکه.
این ابزار از الگوریتمهای ریاضی تخصصی مانند LZ4، Snappy یا Zstandard برای حذف افزونگیهای ساختاری در مجموعه دادهها استفاده میکند.
این فرآیند به تکنیکهای بدون اتلاف که هر بیت را حفظ میکنند و تکنیکهای پراتلاف که دادههای غیرقابل مشاهده را برای همیشه دور میریزند، تقسیم میشود.
فرمتهای فایل ستونی مانند Apache Parquet برای به حداقل رساندن فضای دیسک مورد نیاز، به الگوریتمهای فشردهسازی داخلی متکی هستند.
این امر با کاهش حجم فیزیکی لایههای ذخیرهسازی سرد و گرم، مستقیماً هزینههای عملیاتی انبار داده را کاهش میدهد.
بلوکهای داده فشردهشده با کاهش چشمگیر سربار فیزیکی ورودی/خروجی روی سختافزار سرور، سرعت پرسوجوهای تحلیلی را به میزان قابل توجهی افزایش میدهند.
جدول مقایسه
ویژگی
حفظ اطلاعات
فشردهسازی دادهها
هدف اصلی
حفظ حداکثر دقت و صحت دادهها
به حداقل رساندن فضای ذخیرهسازی و هزینههای انتقال
تمرکز عملیاتی
مدیریت دادهها، تبارشناسی دادهها و تضمین آینده
کارایی زیرساخت، سرعت و کنترل هزینه
تأثیر منابع
مصرف فضای ذخیرهسازی را به مرور زمان افزایش میدهد
افزایش استفاده از CPU در طول چرخههای خواندن/نوشتن
عامل خطر
هزینههای بالای زیرساخت و خطرات ناشی از کمبود داده
احتمال از دست رفتن جزئیات جزئی یا شکافهای فرادادهای
اکوسیستم ابزار
دریاچههای داده تغییرناپذیر، جداول ACID، لاگهای دلتا
طرحهای کدگذاری پارکت، Gzip، Brotli، ستونی
سازگاری با آینده
بینقص؛ امکان مقاومسازی مدلهای تحلیلی جدید را فراهم میکند
متغیر؛ در صورت اعمال الگوریتمهای اتلافی، محدود میشود
عملکرد پرس و جو
برای خواندن استریمهای ساده، خام و بدون ایندکس، سریعتر است
سریعتر برای تجمیعهای عظیم در فروشگاههای ستونی
مقایسه دقیق
فلسفه و اهداف معماری
حفظ اطلاعات، آمادگی مطلق دادهها را در اولویت قرار میدهد و با این فرض عمل میکند که ارزش آتی دادههای دستنخورده بر نگرانیهای فوری در مورد ذخیرهسازی غلبه دارد. فشردهسازی دادهها به واقعیتهای فیزیکی فوری میپردازد و با در نظر گرفتن بیتهای اضافی به عنوان ضایعات سیستماتیک، سیستمهای کمحجم و توان عملیاتی بالا را در اولویت قرار میدهد. یکی از این دو، پتانسیل تحلیلی فردا را حفظ میکند، در حالی که دیگری بودجه محاسباتی امروز را بهینه میکند.
تأثیر بر یادگیری ماشینی پاییندستی
وقتی دانشمندان داده مدلهای پیشبینی میسازند، حفظ اطلاعات تضمین میکند که به ویژگیهای خام دانهای و غیر تجمیعی دسترسی دارند که در غیر این صورت ممکن است از بین بروند. اگر فشردهسازی با اتلاف زیاد و زودهنگام اعمال شود، موارد حاشیهای حیاتی و ناهنجاریهای ظریف در سیگنال برای همیشه از بین میروند. با این حال، فشردهسازی بدون اتلاف این شکاف را پر میکند و فضای ذخیرهسازی کمتری را بدون تخریب یکپارچگی ریاضی ویژگیهای اساسی فراهم میکند.
بهینهسازی ذخیرهسازی در مقابل سربار پردازنده
حفظ دادههای فشرده نشده به ظرفیت بسیار زیادی از دیسک نیاز دارد، اما بار محاسباتی رمزگذاری و رمزگشایی فایلها را در طول دریافت و استخراج حذف میکند. فشردهسازی اساساً قدرت محاسباتی را با فضای ذخیرهسازی معاوضه میکند و پردازندهها را ملزم میکند که در طول عملیات خواندن برای بازسازی ساختارهای داده سختتر کار کنند. این بدهبستان، مدیران پایگاه داده را مجبور میکند تا صرفهجویی در پهنای باند شبکه را در مقابل افزایش ناگهانی CPU سرور متعادل کنند.
انطباق و حسابرسی بلندمدت
نهادهای نظارتی اغلب درخواست میکنند که تراکنشهای مالی یا سوابق مراقبتهای بهداشتی تا میلیثانیه دقیق از مجموعه اصلی آنها قابل تأیید باشند. حفظ اطلاعات، چارچوبهای تغییرناپذیر مورد نیاز برای برآورده کردن بدون چون و چرای این بررسیهای دقیق پزشکی قانونی را فراهم میکند. خطوط لوله فشردهسازی باید در این محیطها با دقت بسیار بالایی طراحی شوند، زیرا هرگونه تخریب تصادفی بیت میتواند کل ممیزی انطباق شرکت را باطل کند.
مزایا و معایب
حفظ اطلاعات
مزایا
+تضمین صحت کامل دادهها
+امکان حسابرسی بیعیب و نقص سوابق را فراهم میکند
+پشتیبانی از استخراج ویژگیهای آینده
+تاخیرهای رفع فشار CPU را از بین میبرد
مصرف شده
−هزینههای ذخیرهسازی را افزایش میدهد
−خطر باتلاق دادهها
−سرعت انتقال شبکه پایینتر
−نیازمند سیاستهای پیچیدهی حاکمیتی است
فشردهسازی دادهها
مزایا
+هزینههای ذخیرهسازی را به طور چشمگیری کاهش میدهد
+انتقال داده شبکه را تسریع میکند
+بهبود عملکرد ورودی/خروجی دیسک
+بهینه سازی کوئری های تحلیلی عظیم
مصرف شده
−چرخههای اضافی CPU را مصرف میکند
−خطر تخریب برگشتناپذیر
−میتواند فرادادههای ارزشمند را از بین ببرد
−پیچیدگی را به خطوط لوله اضافه میکند
تصورات نادرست رایج
افسانه
فشردهسازی دادههای تحلیلی همیشه به این معنی است که شما جزئیات ظریف و بینشهای جزئی را از دست میدهید.
واقعیت
این سردرگمی ناشی از مبهم بودن مرز بین الگوریتمهای فشردهسازی با اتلاف و بدون اتلاف است. پلتفرمهای تحلیلی مدرن تقریباً بهطور کامل به تکنیکهای فشردهسازی بدون اتلاف مانند Snappy یا Zstd در فایلهای Parquet متکی هستند که بدون تغییر حتی یک پیکسل یا مقدار متریک، فضای ذخیرهسازی را بهطور قابلتوجهی کاهش میدهند.
افسانه
حفظ اطلاعات مستلزم آن است که شرکتها تک تک جداول پایگاه داده را برای همیشه فشردهنشده نگه دارند.
واقعیت
حفاظت واقعی بر محافظت از معنا، زمینه، اعتبار و کامل بودن دارایی داده متمرکز است. شما میتوانید به راحتی مجموعه دادههای تاریخی کاملاً حفظشده و بسیار ساختاریافته را در قالبهای کاملاً فشرده و فقط خواندنی بایگانی کنید، بدون اینکه هیچ یک از استانداردهای حفاظت از دادهها را زیر پا بگذارید.
افسانه
فشردهسازی دادهها به دلیل مرحلهی رفع فشردهسازی، همیشه باعث میشود کوئریهای تحلیلی کندتر اجرا شوند.
واقعیت
در محیطهای تحلیلی عظیم، گلوگاه سختافزاری تقریباً همیشه سرعت خواندن دیسک فیزیکی است تا قدرت پردازش. از آنجا که فایلهای فشردهشده بهطور قابلتوجهی کوچکتر هستند، زمان صرفهجوییشده برای استخراج بایتهای کمتر از دیسک، بسیار بیشتر از سربار جزئی CPU مورد نیاز برای باز کردن آنها است.
افسانه
حفظ اطلاعات کاملاً یک محصول جانبی خودکار از تکثیر فضای ذخیرهسازی ابری است.
واقعیت
تکثیر ساده فقط از فایلها در برابر خرابی سرورهای سختافزاری محافظت میکند؛ مطلقاً هیچ کاری برای حفظ یکپارچگی اطلاعات انجام نمیدهد. اگر یک اسکریپت خراب یک ستون پایگاه داده را رونویسی کند، ذخیرهسازی ابری با خوشحالی آن دادههای خراب را فوراً در چندین مرکز داده جهانی تکثیر میکند.
سوالات متداول
آیا اعمال فشردهسازی در پایگاه داده، ردیابی دودمان دادهها را تحت تأثیر قرار میدهد؟
فشردهسازی فنی بدون اتلاف، ساختار ستونهای زیرین یا فرادادههای تبار دادهها را تغییر نمیدهد، زیرا صرفاً در لایه ذخیرهسازی دیسک فیزیکی عمل میکند. با این حال، اگر فشردهسازی از طریق تجمیع تهاجمی دادهها یا روالهای نمونهبرداری کاهشی پیادهسازی شود، اتصال تبار دادهها را به رویدادهای اتمی اصلی برای همیشه قطع میکند.
کدام قالبهای فشردهسازی برای حفظ جداول تحلیلی بهتر عمل میکنند؟
چارچوبهای ذخیرهسازی ستونی مانند Apache Parquet و Apache ORC به عنوان استانداردهای طلایی صنعت برای پلتفرمهای تحلیلی سازمانی شناخته میشوند. این فرمتهای فایل از مکانیزمهای رمزگذاری داخلی و بسیار پیشرفته مانند رمزگذاری طول اجرا و فشردهسازی دیکشنری برای ارائه نسبتهای فشردهسازی استثنایی استفاده میکنند و در عین حال فیلدهای دادههای خام را کاملاً قابل جستجو نگه میدارند.
آیا استراتژیهای حفظ اطلاعات میتوانند به محافظت در برابر حملات باجافزاری کمک کنند؟
بله، یک استراتژی قوی برای حفظ دادهها به شدت به پیادهسازی لایههای ذخیرهسازی تغییرناپذیر و مکانیسمهای قفلگذاری اشیاء در محیطهای ابری وابسته است. با نوشتن دادهها در Volumeهایی که از نظر فیزیکی حذف یا تغییر را برای یک بازه زمانی مشخص ممنوع میکنند، شرکتها میتوانند اطمینان حاصل کنند که سوابق تاریخی آنها کاملاً در برابر نرمافزارهای رمزگذاری مخرب ایمن باقی میماند.
فشردهسازی در چه مرحلهای از خط لوله داده باید انجام شود؟
فشردهسازی باید در حالت ایدهآل در اسرع وقت و در طول مرحلهی دریافت داده معرفی شود تا هزینههای پهنای باند به حداقل برسد و زمان انتقال داده در شبکهی داخلی بهینه شود. ابزارهای استریمینگ به طور معمول بستههای داده را در منبع لبه فشرده میکنند و سپس آنها را از طریق شبکههای ابری به مخازن تحلیلی مرکزی ارسال میکنند.
فشردهسازی با اتلاف چه تفاوتی با فشردهسازی بدون اتلاف در تجزیه و تحلیل دنیای واقعی دارد؟
فشردهسازی بدون اتلاف مانند یک زیپ پیچیده عمل میکند، دادهها را برای حمل و نقل محکم بستهبندی میکند و سپس آنها را در یک کپی دقیق از فایل اصلی باز میکند. فشردهسازی با اتلاف بیشتر شبیه یک هنرمند است که طرحی از یک عکس را ترسیم میکند؛ این فشردهسازی عمداً بخشهای کمتر قابل توجه اطلاعات را حذف میکند تا به صرفهجویی قابل توجهی در فضا دست یابد، که در تجزیه و تحلیل ویدیو یا صدا رایج است.
چرا تیمهای یادگیری ماشینی تا این حد به حفظ اطلاعات خام اهمیت میدهند؟
الگوریتمهای یادگیری ماشین به شدت به الگوهای آماری ظریف، ناهنجاریها و موارد مرزی تاریخی که در مجموعه دادههای خام وجود دارند، حساس هستند. اگر یک خط لوله مهندسی به طور تهاجمی تغییرات دادهها را برای صرفهجویی در فضا پاک یا هموار کند، میتواند ناخواسته سیگنالهای پیشبینی دقیقی را که مدل باید یاد بگیرد، از بین ببرد.
چگونه بازده مالی واقعی سرمایهگذاری برای فشردهسازی دادهها را محاسبه میکنید؟
شما میتوانید با مقایسه کاهش مستقیم هزینههای ذخیرهسازی ابری خود در برابر افزایش نامحسوس هزینههای محاسباتی ناشی از چرخههای رفع فشار در طول پرسوجوها، میزان بازگشت سرمایه را اندازهگیری کنید. تقریباً در تمام پیادهسازیهای بزرگ، کاهش حجم ذخیرهسازی به میزان هفتاد یا هشتاد درصد، علیرغم افزایش اندک پردازش، صرفهجویی خالص عظیمی را به همراه دارد.
آیا میتوانید ضمن استفاده از طبقات ذخیرهسازی یخچالهای طبیعی سرد، استانداردهای بالای حفظ اطلاعات را حفظ کنید؟
بله، انتقال مجموعه دادههای قدیمیتر و عمیقاً حفظشده به لایههای بایگانی سرد بلندمدت مانند AWS Glacier یک الگوی معماری عالی است. این چیدمان، دادههای خام اصلی را کاملاً ایمن و سازگار با ممیزیهای تاریخی نگه میدارد و در عین حال بار مالی را از درایوهای تولید فعال گرانقیمت و پرسرعت دور میکند.
حکم
هنگام ساخت دریاچههای داده اولیه، مدیریت مسیرهای قابل حسابرسیِ انطباق دقیق با مقررات، یا ذخیره سیگنالهای خام تاریخی برای مدلهای یادگیری ماشین ناشناخته در آینده، حفظ اطلاعات را در اولویت قرار دهید. هنگام بهینهسازی انبارهای داده تولید، مدیریت خطوط لوله جریان با سرعت بالا یا تلاش برای به حداقل رساندن هزینههای فزاینده زیرساخت ابری، به فشردهسازی دادهها روی آورید.