متخصصان داده اغلب با یک بدهبستان دشوار بین کوچک کردن مجموعه دادههای عظیم برای عملکرد بهتر و قابل فهم نگه داشتن آن دادهها برای تصمیمگیرندگان انسانی مواجه هستند. راندمان بالای فشردهسازی، هزینههای ذخیرهسازی را کاهش داده و پردازش را سرعت میبخشد، اما میتواند باعث از دست رفتن قابلیت تفسیر شود و ردیابی اینکه چگونه ورودیهای خاص به نتایج نهایی کسبوکار منجر شدهاند را تقریباً غیرممکن کند.
برجستهها
کارایی مربوط به دستگاه است؛ تفسیرپذیری مربوط به شخص.
حداکثر بهرهوری اغلب مستلزم حذف زمینهای است که دادهها را مفید میسازد.
اگر دادههای خام اصلی پس از پردازش حذف شوند، از دست دادن قابلیت تفسیر اغلب دائمی است.
یک پایگاه داده کاملاً کارآمد، اگر کسی نتواند معنی اعداد را توضیح دهد، بیفایده است.
راندمان فشردهسازی چیست؟
معیاری برای سنجش میزان کاهش مؤثر حجم دادهها نسبت به اندازه اصلی آنها.
معمولاً به صورت نسبت یا درصد فضای ذخیره شده در طول ذخیره سازی بیان می شود.
کارایی بین روشهای بدون اتلاف مانند ZIP و روشهای پراتلاف مانند JPEG بسیار متفاوت است.
قالبهای ذخیرهسازی ستونی مدرن مانند پارکت، کارایی پرسوجوهای تحلیلی را به طور قابل توجهی افزایش میدهند.
راندمان بالا مستقیماً هزینههای زیرساخت ابری را کاهش میدهد و تأخیر شبکه را در طول انتقالها کم میکند.
سقف کارایی اغلب توسط آنتروپی یا تصادفی بودن درون مجموعه دادهها تعیین میشود.
زیان تفسیرپذیری چیست؟
کاهش توانایی انسان در توضیح یا درک دادهها پس از تبدیل.
از دست دادن دادهها اغلب زمانی رخ میدهد که دادههای پیچیده تجمیع، هش یا به ابعاد انتزاعی کاهش مییابند.
این یک اثر «جعبه سیاه» ایجاد میکند که در آن استدلال پشت یک معیار مبهم میشود.
مهندسی ویژگی برای مدلهای با کارایی بالا، اغلب وضوح را فدای دقت خام میکند.
خسارت شدید میتواند منجر به «دادههای تاریک» شود که وجود دارند اما نمیتوان آنها را از نظر سوگیری یا خطا بررسی کرد.
مقرراتی مانند GDPR سطوح خاصی از تفسیرپذیری را برای تصمیمگیری خودکار الزامی میکنند.
جدول مقایسه
ویژگی
راندمان فشردهسازی
زیان تفسیرپذیری
هدف اصلی
به حداقل رساندن ردپا
شفافیت را به حداکثر برسانید
تأثیر منابع
هزینههای ذخیرهسازی را کاهش میدهد
زمان حسابرسی انسانی را افزایش میدهد
تمرکز فنی
الگوریتمها و ریاضیات
منطق و زمینه
حالت خرابی
فساد دادهها
نتایج غیرقابل توضیح
ابزار بهینهسازی
رمزگذاری و هش کردن
مستندات و فرادادهها
ارزش تجاری
سرعت عملیاتی
اعتماد استراتژیک
مقایسه دقیق
آونگ عملکرد در مقابل آونگ وضوح
مهندسان اغلب برای حفظ سرعت و عملکرد بهینه سیستمها، به دنبال حداکثر بهرهوری فشردهسازی هستند. با این حال، با انتزاعیتر شدن دادهها از طریق تکنیکهایی مانند تحلیل مؤلفههای اصلی (PCA)، «چرایی» اصلی ناپدید میشود. ممکن است در نهایت سیستمی داشته باشید که فروش را به طور کامل پیشبینی میکند، اما نمیتواند به شما بگوید کدام کمپین بازاریابی خاص در واقع باعث درآمد شده است.
هزینههای ذخیرهسازی در مقابل ریسک نظارتی
تجمیع دادهها در قالب خلاصههای کوچک و کارآمد، راهی عالی برای صرفهجویی در هزینههای AWS شماست. خطر زمانی ایجاد میشود که یک نهاد نظارتی یا مشتری درخواست تجزیه و تحلیل دقیق یک رویداد خاص را داشته باشد. اگر فشردهسازی بیش از حد تهاجمی باشد، آن شواهد جزئی از بین میرود و شرکت را با راندمان بالا اما سردرد قانونی یا انطباقی عظیم مواجه میکند.
ابعاد و عامل انسانی
تکنیکهای مورد استفاده برای افزایش کارایی اغلب شامل کاهش تعداد متغیرها یا «ابعاد» در یک مجموعه داده است. اگرچه این کار محاسبات را برای کامپیوتر آسانتر میکند، اما دادهها را برای انسان ناآشنا میکند. هنگامی که یک مجموعه داده به شدت در بردارهای انتزاعی فشرده میشود، یک تحلیلگر دیگر نمیتواند به یک ردیف نگاه کند و آن را به عنوان یک تراکنش مشتری تشخیص دهد و این منجر به از دست دادن کامل شهود میشود.
رویکردهای پراتلاف در مقابل رویکردهای بدون اتلاف
فشردهسازی بدون اتلاف، «استاندارد طلایی» برای حفظ قابلیت تفسیر است، زیرا هر بیت میتواند به طور کامل بازیابی شود. با این حال، فشردهسازی با اتلاف، دقت را فدای کارایی فوقالعاده میکند. در علم تجزیه و تحلیل، «اتلاف» اغلب به معنای میانگین گرفتن از میانگینها است؛ در حالی که اندازه فایل کوچک است، شما دادههای پرت و جزئیات ظریفی را که اغلب ارزشمندترین بینشهای تجاری را در خود جای دادهاند، از دست میدهید.
مزایا و معایب
راندمان فشردهسازی
مزایا
+هزینههای سختافزاری پایینتر
+سرعت پرس و جو بالاتر
+انتقال آسانتر دادهها
+پنجرههای پشتیبان کوچکتر
مصرف شده
−رفع فشار سنگین CPU
−الگوهای داده پنهان
−لایههای انتزاعی
−مسائل مربوط به قابلیت ردیابی
زیان تفسیرپذیری
مزایا
+از حریم خصوصی محافظت میکند (گاهی اوقات)
+داشبوردهای سادهشده
+نمایشهای سطح بالا سریعتر
+نویزهای نامربوط را حذف میکند
مصرف شده
−نمیتوان نتایج را حسابرسی کرد
−اشکالزدایی دشوارتر
−خطرات انطباق با قوانین
−کاهش اعتماد کاربران
تصورات نادرست رایج
افسانه
هر فشردهسازی منجر به از دست رفتن مقداری از فهم میشود.
واقعیت
فرمتهای فشردهسازی بدون اتلاف به شما امکان میدهند دادهها را بدون از دست دادن حتی یک جزئیات، فشرده کنید. قابلیت تفسیر دادهها تنها در صورتی کاهش مییابد که تصمیم بگیرید دادهها را به فرمتی تبدیل کنید که انسانها به راحتی نتوانند آن را بخوانند، مانند حبابهای دودویی یا رشتههای هش شده.
افسانه
شما همیشه باید تک تک دادههای خام را برای همیشه نگه دارید.
واقعیت
نگه داشتن همه چیز اغلب از نظر مالی غیرممکن است و باعث ایجاد «باتلاق دادهها» میشود. هدف این است که یک راه حل میانه پیدا کنید که در آن به اندازه کافی فشردهسازی کنید تا کارآمد باشد و در عین حال «DNA» دادهها را برای سوالات آینده در دسترس نگه دارید.
افسانه
قابلیت تفسیر فقط برای دانشمندان داده مهم است.
واقعیت
ذینفعان غیرفنی، مانند مدیران بازاریابی یا مدیران عامل، قربانیان اصلی از دست دادن قابلیت تفسیر هستند. اگر آنها منطق پشت یک گزارش را نفهمند، احتمال کمتری دارد که بر اساس بینشهای ارائه شده عمل کنند.
افسانه
فشردهسازی بالاتر همیشه باعث سریعتر شدن کوئریها میشود.
واقعیت
نه همیشه. اگر فشردهسازی خیلی پیچیده باشد، زمانی که کامپیوتر صرف «از حالت فشرده خارج کردن» دادهها میکند، در واقع میتواند طولانیتر از زمانی باشد که با خواندن یک فایل کوچکتر صرفهجویی میشود.
سوالات متداول
چرا تفسیرپذیری در هوش مصنوعی و تجزیه و تحلیل اهمیت زیادی دارد؟
همچنان که به سمت سیستمهای خودکار حرکت میکنیم، باید بدانیم که یک کامپیوتر به دلایل درستی تصمیم گرفته است. اگر یک مدل بسیار کارآمد باشد اما فاقد قابلیت تفسیر باشد، نمیتوانیم بگوییم که آیا جانبدارانه عمل میکند یا صرفاً اشتباه است تا زمانی که خیلی دیر شده باشد. این تفاوت بین دانستن «کار میکند» و دانستن «چرا کار میکند» است.
آیا میتوانم هم راندمان بالا و هم تفسیرپذیری بالایی داشته باشم؟
این یک عمل متعادلسازی مداوم است، اما فناوریهایی مانند ذخیرهسازی ستونی (Parquet/ORC) به این هدف نزدیک میشوند. آنها دادهها را به طرز باورنکردنی فشرده میکنند و در عین حال به شما امکان میدهند ستونهای خاص «قابل خواندن توسط انسان» را بدون خارج کردن کل فایل از حالت فشرده، جستجو کنید. با این حال، هنوز باید در نحوه جمعآوری یا «دستهبندی» آن دادهها دقت کنید.
مشکل «جعبه سیاه» در این زمینه چیست؟
جعبه سیاه به وضعیتی اشاره دارد که در آن از دست دادن قابلیت تفسیر آنقدر زیاد است که میتوانید ببینید چه چیزی وارد میشود و چه چیزی خارج میشود، اما میانه آن یک راز است. در علم تجزیه و تحلیل، این اغلب زمانی اتفاق میافتد که دادهها برای صرفهجویی در فضا به شدت رمزگذاری میشوند یا از الگوریتمهای پیچیدهای عبور میکنند که منطق قابل فهم برای انسان را تولید نمیکنند.
آیا تجمیع دادهها نوعی فشردهسازی محسوب میشود؟
بله، تجمیع اساساً نوعی فشردهسازی «اتلافی» است. با تبدیل ۱۰۰۰ فروش انفرادی به یک «جمع کل روزانه»، اندازه دادهها را ۹۹.۹٪ کاهش دادهاید. شما به کارایی عظیمی دست یافتهاید، اما توانایی مشاهده اینکه کدام مشتریان انفرادی کدام محصولات را خریداری کردهاند را از دست دادهاید.
این موضوع چه تاثیری بر صورتحساب فضای ذخیرهسازی ابری من دارد؟
مستقیماً. راندمان فشردهسازی بالا به این معنی است که شما برای گیگابایتهای کمتر فضای ذخیرهسازی و «خروجی» کمتر دادهها هنگام انتقال فایلها بین مناطق، هزینه میکنید. با این حال، اگر از دست دادن قابلیت تفسیر زیاد باشد، ممکن است در نهایت هزینه بیشتری را به صورت «ساعت انسانی» بپردازید، زمانی که یک تحلیلگر باید سه روز را صرف تلاش برای بازسازی جزئیات از دست رفته کند.
آیا از دست دادن قابلیت تفسیر همان فساد داده است؟
نه، آنها متفاوت هستند. خرابی به این معنی است که دادهها توسط کامپیوتر خراب و غیرقابل خواندن میشوند. از دست دادن قابلیت تفسیر به این معنی است که دادهها برای کامپیوتر کاملاً خوب هستند، اما دیگر برای انسان معنی ندارند. کامپیوتر خوشحال است؛ تحلیلگر گیج شده است.
کدام صنایع بیشتر به این بده بستان اهمیت میدهند؟
امور مالی و مراقبتهای بهداشتی در صدر فهرست قرار دارند. در این زمینهها، کارآمد بودن عالی است، اما توانایی توضیح «رد وام» یا «تشخیص پزشکی» یک الزام قانونی است. آنها اغلب پول بیشتری را صرف ذخیرهسازی میکنند تا مطمئن شوند که آن قابلیت تفسیر حیاتی را از دست نمیدهند.
آیا هش کردن دادهها به افزایش کارایی کمک میکند؟
هش کردن میتواند دادهها را برای جستجوی کامپیوتر بسیار یکنواخت و کارآمد کند، اما این نهایت از دست دادن قابلیت تفسیر است. وقتی نامی مانند «جان اسمیت» را به یک رشته تصادفی از کاراکترها هش میکنید، یک انسان هرگز نمیتواند بدون کلید به آن رشته نگاه کند و بفهمد که به چه کسی اشاره دارد.
نقش متادیتا در این میان چیست؟
فراداده (متادیتا) به عنوان «پل» عمل میکند. شما میتوانید دادههای اصلی خود را به شدت فشرده کنید تا در فضا صرفهجویی کنید، اما یک لایه فراداده جداگانه و غیرفشرده نگه دارید که توضیح دهد دادهها چه چیزی را نشان میدهند. این به شما امکان میدهد تا ضمن حفظ کارایی بالا، نقشهای برای درک آنچه انسانها به دنبال آن هستند، ارائه دهید.
چگونه میتوانم میزان از دست دادن قابلیت تفسیر را اندازهگیری کنم؟
تعیین یک عدد واحد برای آن دشوار است، اما میتوانید با درخواست از یک تحلیلگر برای انجام یک «جستجوی معکوس» آن را آزمایش کنید. اگر آنها بتوانند به خروجی فشردهشده نگاه کنند و رویداد اصلی را بدون دیدن فایل خام به طور دقیق توصیف کنند، میزان از دست دادن قابلیت تفسیر شما کم است. اگر آنها فقط حدس میزنند، میزان از دست دادن تفسیر شما زیاد است.
حکم
اولویتبندی بهرهوری فشردهسازی برای لاگهای بایگانیشده و تلهمتری با حجم بالا که در آنها سرعت خام تنها هدف است. تمرکز بر به حداقل رساندن از دست دادن قابلیت تفسیر برای معیارهای مشتریمدار و هرگونه دادهای که برای توجیه تصمیمات مالی یا حقوقی مهم استفاده میشود.