মেশিন লার্নিংয়ের জগতে ডেটাসেট খুব কমই নিরপেক্ষ হয়। পক্ষপাত হ্রাস করার জন্য সক্রিয় প্রকৌশলের মাধ্যমে অন্যায্য বৈষম্য শনাক্ত ও নিষ্ক্রিয় করা হয়, অন্যদিকে পক্ষপাত বৃদ্ধি একটি বিপজ্জনক বিষয়, যেখানে মডেলগুলো বিদ্যমান বৈষম্যকে বাড়িয়ে তোলে এবং প্রায়শই এমন ভবিষ্যদ্বাণী করে যা প্রশিক্ষণের জন্য ব্যবহৃত ত্রুটিপূর্ণ ডেটার চেয়ে উল্লেখযোগ্যভাবে বেশি বৈষম্যমূলক হয়।
হাইলাইটস
হ্রাস একটি পছন্দ; বিবর্ধন প্রায়শই একটি অনিচ্ছাকৃত স্বাভাবিক পরিণতি।
বর্ধিত বায়াস মূল ডেটার বায়াসের চেয়ে ৫০% বেশি শক্তিশালী হতে পারে।
ন্যায্যতার পরিমাপকগুলো আসলে কতটা পক্ষপাত দূর করা হয়েছে তা নির্ণয় করতে সাহায্য করে।
স্ব-সংশোধনকারী এআই সিস্টেমগুলো 'মডেল কলাপস' এড়াতে হ্রাসকরণের ওপর নির্ভর করে।
ডেটাসেট পক্ষপাত হ্রাস কী?
প্রশিক্ষণ ডেটা এবং মডেল আউটপুটের মধ্যে থাকা পদ্ধতিগত অন্যায্যতা শনাক্ত, প্রশমিত এবং ভারসাম্যপূর্ণ করার উদ্দেশ্যে পরিকল্পিত কৌশলগত প্রযুক্তিগত হস্তক্ষেপ।
পরিসংখ্যানগত সমতা তৈরির জন্য সংখ্যালঘু গোষ্ঠীর অতিরিক্ত নমুনা সংগ্রহ বা সংখ্যাগরিষ্ঠ শ্রেণীর অপর্যাপ্ত নমুনা সংগ্রহের মতো কৌশল এর অন্তর্ভুক্ত।
প্রশিক্ষণের সময় কম প্রতিনিধিত্বকারী ডেটা পয়েন্টগুলোকে অধিক গুরুত্ব দেওয়ার জন্য 'রিওয়েটিং'-এর মতো প্রি-প্রসেসিং পদ্ধতি ব্যবহার করে।
পক্ষপাত কতটা সফলভাবে নিষ্ক্রিয় করা হয়েছে তা পরিমাপ করতে, এটি ‘ন্যায্যতার মেট্রিক’ যেমন সমীকৃত সম্ভাবনা বা জনসংখ্যাতাত্ত্বিক সমতার উপর নির্ভর করে।
যেখানে বাস্তব জগতের প্রতিনিধিত্বমূলক তথ্যের অভাব বা অনুপস্থিতি থাকে, সেখানে 'ডেটার ঘাটতি' পূরণের জন্য প্রায়শই কৃত্রিম ডেটা তৈরি করার কৌশল ব্যবহার করা হয়।
চলমান নিরীক্ষার প্রয়োজন, কারণ পরীক্ষার সময় নিরপেক্ষ বলে মনে হওয়া একটি মডেলও চলমান ও পরিবর্তনশীল ব্যবহারকারীর তথ্যের সংস্পর্শে এলে পক্ষপাতদুষ্টতা প্রদর্শন করতে পারে।
ডেটাসেট পক্ষপাত বিবর্ধন কী?
এটি একটি অনিচ্ছাকৃত প্রক্রিয়া, যেখানে মেশিন লার্নিং অ্যালগরিদমগুলো ডেটার মধ্যে বিদ্যমান গতানুগতিক প্যাটার্নগুলোকে আরও শক্তিশালী করে এবং সেগুলোর ওপর অতিরিক্ত গুরুত্ব আরোপ করে।
এটি তখন ঘটে যখন কোনো মডেল একটি সামান্য পারস্পরিক সম্পর্ক (যেমন, ৬০% ডাক্তার পুরুষ) দেখে প্রতিবারই সংখ্যাগরিষ্ঠের ভবিষ্যদ্বাণী করে, যার ফলে একটি প্রবণতা নিয়মে পরিণত হয়।
এটি সাধারণত চিত্র শনাক্তকরণের ক্ষেত্রে দেখা যায়, যেখানে মডেলগুলো প্রশিক্ষণের ছবিগুলোর তুলনায় 'রান্নাঘর'-কে 'মহিলা'-র সাথে আরও জোরালোভাবে যুক্ত করতে পারে।
এটি 'লোভী' অপ্টিমাইজেশন অ্যালগরিদম দ্বারা সক্রিয় হতে পারে, যেগুলো উচ্চ নির্ভুলতা স্কোর অর্জনের জন্য সবচেয়ে সহজ পরিসংখ্যানগত শর্টকাটগুলোকে অগ্রাধিকার দেয়।
এটি এমন একটি স্ব-শক্তিবর্ধক চক্র তৈরি করে যেখানে পক্ষপাতদুষ্ট মডেলের আউটপুটগুলো ভবিষ্যতের সিস্টেমের জন্য প্রশিক্ষণ ডেটা হিসেবে ব্যবহৃত হয়, যা ত্রুটিকে আরও বাড়িয়ে তোলে।
এটি বিশেষত সেইসব ল্যাঙ্গুয়েজ মডেল এবং রিকমেন্ডেশন ইঞ্জিনগুলিতে বেশি দেখা যায়, যেগুলো প্রভাবশালী সাংস্কৃতিক বয়ান এবং সংখ্যাগরিষ্ঠের দৃষ্টিভঙ্গিকে প্রাধান্য দিয়ে থাকে।
তুলনা সারণি
বৈশিষ্ট্য
ডেটাসেট পক্ষপাত হ্রাস
ডেটাসেট পক্ষপাত বিবর্ধন
প্রাথমিক উদ্দেশ্য
ন্যায়সঙ্গত এবং ন্যায্য ফলাফল অর্জন করুন
ভবিষ্যদ্বাণীমূলক আত্মবিশ্বাস সর্বাধিক করুন (অনিচ্ছাকৃতভাবে)
ডেটা প্রবণতার উপর প্রভাব
অন্যায্য পারস্পরিক সম্পর্ককে সক্রিয়ভাবে সমতল করে
বিদ্যমান পক্ষপাতগুলোকে অতিরঞ্জিত করে এবং অপরিবর্তনীয় করে তোলে
পদ্ধতি
ডেটা বর্ধন, পুনঃওজন এবং নিরীক্ষা
অ্যালগরিদমিক শর্টকাট এবং আবেশিক পক্ষপাত
সম্পদের তীব্রতা
উচ্চ; বিশেষজ্ঞ তত্ত্বাবধান ও কিউরেশন প্রয়োজন
নিম্ন; পরীক্ষা না করা হলে স্বয়ংক্রিয়ভাবে ঘটে।
নিয়ন্ত্রক প্রভাব
ইইউ এআই আইন এবং জিডিপিআর মেনে চলতে সাহায্য করে
আইনি ও নৈতিক শাস্তির ঝুঁকি বাড়ায়
দীর্ঘমেয়াদী ফলাফল
শক্তিশালী, সাধারণীকরণযোগ্য এবং বিশ্বস্ত এআই
পক্ষপাতদুষ্ট, বৈষম্যমূলক এবং ভঙ্গুর মডেল
বিস্তারিত তুলনা
ন্যায্যতা ও দক্ষতার মধ্যে লড়াই
পক্ষপাত কমানো একটি কঠিন কাজ, কারণ একটি মডেল যেন সকল গোষ্ঠীর সাথে ন্যায্য আচরণ করে, তা নিশ্চিত করতে প্রায়শই সামান্য পরিমাণ নির্ভুলতা বিসর্জন দিতে হয়। অপরদিকে, পক্ষপাত স্বাভাবিকভাবেই বৃদ্ধি পায়, কারণ অ্যালগরিদমগুলো সঠিক উত্তরে পৌঁছানোর সবচেয়ে কার্যকর পথ খুঁজে বের করার জন্য ডিজাইন করা হয়, এবং দুর্ভাগ্যবশত, গতানুগতিক ধারণাগুলো প্রায়শই পরিসংখ্যানগতভাবে একটি 'সহজ' পথ তৈরি করে দেয়, যা মডেলটি অতিরিক্তভাবে গ্রহণ করে।
ঐতিহাসিক তির্যকতা থেকে ডিজিটাল বাস্তবতা পর্যন্ত
হ্রাসকরণ পদ্ধতিতে ডেটার গুরুত্ব ম্যানুয়ালি সমন্বয় করার মাধ্যমে ঐতিহাসিক ভুলগুলো সংশোধন করার চেষ্টা করা হয়—যেমন ক্রেডিট স্কোরিং মডেল যা নির্দিষ্ট কিছু এলাকাকে অসুবিধায় ফেলে। বিবর্ধন পদ্ধতিতে সেই একই ঐতিহাসিক ভুলগুলোকে ডিজিটাল আইনে পরিণত করা হয়; যদি কোনো মডেল দেখে যে একটি নির্দিষ্ট গোষ্ঠীকে ঐতিহাসিকভাবে ঋণ দিতে অস্বীকার করা হয়েছে, তবে এটি সিদ্ধান্ত নিতে পারে যে সেই গোষ্ঠীকে *সর্বদা* ঋণ দিতে অস্বীকার করা উচিত, যা ভবিষ্যৎকে অতীতের চেয়েও বেশি সীমাবদ্ধ করে তুলবে।
প্রযুক্তিগত হস্তক্ষেপের পয়েন্ট
ইঞ্জিনিয়াররা তিনটি পর্যায়ে বায়াস বা পক্ষপাত কমানোর কাজ করেন: প্রি-প্রসেসিং (ডেটা পরিষ্কার করা), ইন-প্রসেসিং (প্রশিক্ষণের সময় গাণিতিক পরিবর্তন করা), এবং পোস্ট-প্রসেসিং (চূড়ান্ত ফলাফল সমন্বয় করা)। সাধারণত 'ইন-প্রসেসিং' পর্যায়েই বিবর্ধন ঘটে যায়, যেখানে ত্রুটি কমানোর তাগিদে মডেলটি সংখ্যাগরিষ্ঠ উদাহরণের 'সিগন্যাল'-এর পক্ষে সংখ্যালঘু উদাহরণের 'নয়েজ' উপেক্ষা করে।
ফিডব্যাক লুপ দুঃস্বপ্ন
পক্ষপাত বিস্তারের সবচেয়ে ভয়াবহ দিকটি হলো সময়ের সাথে সাথে এর বৃদ্ধি পাওয়ার ক্ষমতা। যদি একটি পক্ষপাতদুষ্ট নিয়োগ সরঞ্জাম বিভিন্ন ধরনের প্রার্থীদের বাদ দিয়ে দেয়, তবে 'সফল' কর্মীদের ডেটা আরও কম বৈচিত্র্যময় হয়ে পড়ে, যা পরবর্তীতে সরঞ্জামটির পরবর্তী সংস্করণকে আরও বেশি সীমাবদ্ধ হতে শেখায়। সঠিক হ্রাস কৌশলগুলো 'বিপরীতমুখী' উদাহরণ উপস্থাপনের মাধ্যমে এই চক্রটি ভেঙে দেয়, যা মডেলটির অনুমানগুলোকে চ্যালেঞ্জ করে।
সুবিধা এবং অসুবিধা
পক্ষপাত হ্রাস
সুবিধাসমূহ
+আইনগত সম্মতি নিশ্চিত করে
+ব্যবহারকারীর আস্থা বৃদ্ধি করে
+বাস্তব জগতের আরও ভালো সাধারণীকরণ
+সংখ্যালঘু গোষ্ঠীকে সুরক্ষা দেয়
কনস
−উচ্চতর উন্নয়ন ব্যয়
−সামান্য নির্ভুলতার বিনিময়
−নির্দিষ্ট বিষয়ে গভীর জ্ঞান থাকা প্রয়োজন।
−নিখুঁতভাবে স্বয়ংক্রিয় করা কঠিন
পক্ষপাত বিবর্ধন
সুবিধাসমূহ
+বাস্তবায়নে শূন্য প্রচেষ্টা
+বেশিরভাগ ক্ষেত্রে উচ্চ আত্মবিশ্বাস
+কম গণনা সময় প্রয়োজন
+কাঁচা ডেটার প্রবণতা অনুসরণ করে
কনস
−বৈষম্যমূলক এবং অন্যায্য
−উচ্চ আইনি ঝুঁকি
−জনসংখ্যার পরিবর্তনে ভঙ্গুর
−ক্ষতিকর গতানুগতিক ধারণাকে আরও শক্তিশালী করে
সাধারণ ভুল ধারণা
পুরাণ
যদি আমি একটি বিশাল ডেটাসেট ব্যবহার করি, তাহলে পক্ষপাত এমনিতেই দূর হয়ে যাবে।
বাস্তবতা
প্রকৃতপক্ষে, বৃহত্তর ডেটাসেটগুলিতে প্রায়শই আরও সূক্ষ্ম, পদ্ধতিগত পক্ষপাত থাকে, যেগুলোকে মডেলগুলো আরও ভালোভাবে বিবর্ধিত করতে পারে। পরিমাণ বৈচিত্র্য বা ন্যায্যতার বিকল্প হতে পারে না।
পুরাণ
অ্যালগরিদম নিরপেক্ষ, কারণ এগুলো শুধুই গণিত।
বাস্তবতা
গণিত নিরপেক্ষ, কিন্তু আমরা অ্যালগরিদমকে যে লক্ষ্যগুলো দিই—যেমন ‘সর্বোচ্চ নির্ভুলতা’—সেগুলো পক্ষপাতদুষ্ট তথ্যের সাথে মিথস্ক্রিয়া করে পক্ষপাতদুষ্ট ফলাফল তৈরি করে। ‘নিরপেক্ষ’ পথটিই প্রায়শই সবচেয়ে বেশি বৈষম্যমূলক হয়।
পুরাণ
পক্ষপাত হ্রাস হলো এআই-এর জন্য 'রাজনৈতিক শুদ্ধতা' ছাড়া আর কিছুই নয়।
বাস্তবতা
এটি আসলে একটি প্রযুক্তিগত আবশ্যকতা; যে মডেলগুলো পক্ষপাত কমাতে পারে না, সেগুলো বাস্তব জগতে প্রায়শই ব্যর্থ হয়, কারণ সেগুলো বিভিন্ন ধরনের উপাদান সামলাতে পারে না, যার ফলে বড় ধরনের ব্যর্থতা এবং রাজস্ব ক্ষতি হয়।
পুরাণ
জাতি বা লিঙ্গের মতো 'সংবেদনশীল' কলামগুলো সরিয়ে দিলে পক্ষপাতিত্ব বন্ধ হয়।
বাস্তবতা
একে বলা হয় 'অন্ধত্বের মাধ্যমে ন্যায্যতা', এবং এটি খুব কমই কার্যকর হয়। মডেলগুলো জিপ কোড, কেনাকাটার অভ্যাস বা এমনকি বাক্য গঠনের মতো পরোক্ষ তথ্যের মাধ্যমে সহজেই এই বৈশিষ্ট্যগুলো অনুমান করতে পারে।
সচরাচর জিজ্ঞাসিত প্রশ্নাবলী
একটি অ্যালগরিদম কীভাবে আগে থেকেই বিদ্যমান কোনো পক্ষপাতকে আরও বাড়িয়ে তুলতে পারে?
এমন একটি ডেটাসেটের কথা ভাবুন যেখানে ৭০% নার্স মহিলা। একটি সাধারণ মেশিন লার্নিং মডেল যতটা সম্ভব 'সঠিক' হতে চায়। এটি হয়তো বুঝতে পারে যে, যদি এটি প্রতিটি নার্সকে দেখেই 'মহিলা' বলে অনুমান করে, তাহলে প্রায় কোনো প্রচেষ্টা ছাড়াই এটি ৭০% ক্ষেত্রে সঠিক হবে। এটি করার ফলে, মডেলটির আউটপুটে নার্সদের সংখ্যা ১০০% মহিলা হয়ে যায়, যা কার্যকরভাবে মূল ৭০% পক্ষপাতকে বাড়িয়ে একটি নিখুঁত ১০০% গতানুগতিক ধারণায় পরিণত করে।
২০২৬ সালে পক্ষপাতিত্ব দূর করার সবচেয়ে প্রচলিত উপায় কী?
বর্তমানে সবচেয়ে জনপ্রিয় পদ্ধতি হলো 'অ্যাডভার্সারিয়াল ডিবায়াসিং' এবং উচ্চ-মানের সিন্থেটিক ডেটার সংমিশ্রণ। ইঞ্জিনিয়াররা একটি দ্বিতীয় 'ক্রিটিক' মডেলকে প্রশিক্ষণ দেন, যার একমাত্র কাজ হলো মূল মডেলের ভবিষ্যদ্বাণী থেকে কোনো ব্যক্তির সুরক্ষিত বৈশিষ্ট্যগুলো (যেমন বয়স বা জাতি) অনুমান করার চেষ্টা করা। যদি ক্রিটিক মডেলটি সেই বৈশিষ্ট্যগুলো অনুমান করতে পারে, তবে মূল মডেলটিকে দণ্ড দেওয়া হয় এবং তার ভবিষ্যদ্বাণীগুলো সেই সংবেদনশীল উপাদানগুলো থেকে সম্পূর্ণরূপে স্বাধীন না হওয়া পর্যন্ত সমন্বয় করতে বাধ্য করা হয়।
পক্ষপাত হ্রাস কি আমার মডেলের নির্ভুলতা কমিয়ে দেয়?
কখনও কখনও 'ন্যায্যতা ও নির্ভুলতার মধ্যে একটি আপস' করতে হয়। যদি আপনি একটি মডেলকে পুরোপুরি ন্যায্য হতে বাধ্য করেন, তবে এটি সংখ্যাগরিষ্ঠ গোষ্ঠীর ক্ষেত্রে তার সামগ্রিক নির্ভুলতার একটি ক্ষুদ্র শতাংশ হারাতে পারে। তবে, অনেক ক্ষেত্রে, পক্ষপাত হ্রাস করা আসলে সমগ্র জনগোষ্ঠীর জন্য মডেলটিকে *আরও* নির্ভুল করে তোলে, কারণ এটি গতানুগতিক ও গতানুগতিক ভুল করা বন্ধ করে এবং আরও অর্থবহ বৈশিষ্ট্যগুলোর দিকে নজর দিতে শুরু করে।
বৃহৎ ভাষা মডেল (LLM)-গুলিতে পক্ষপাত বিবর্ধন এত সাধারণ কেন?
এলএলএম (LLM) মডেলগুলো তাদের পড়া বিপুল পরিমাণ লেখার উপর ভিত্তি করে পরবর্তী সবচেয়ে সম্ভাব্য শব্দটি অনুমান করে শেখে। যেহেতু ইন্টারনেট প্রচলিত ধারণা এবং সাংস্কৃতিক পক্ষপাতদুষ্টতায় পরিপূর্ণ, তাই 'সবচেয়ে সম্ভাব্য' শব্দটি প্রায়শই একটি গতানুগতিক ধারণা হয়ে থাকে। যেহেতু এই মডেলগুলোকে যথাসম্ভব 'মানুষের মতো' শোনানোর জন্য অপ্টিমাইজ করা হয়, তাই তারা তাদের দেখা সবচেয়ে ঘন ঘন ব্যবহৃত প্যাটার্নগুলোর উপরই বেশি জোর দেয়, যা ব্যাপক বিবর্ধনের দিকে নিয়ে যায়।
আমি কি সহজে বায়াস অ্যামপ্লিফিকেশন পরিমাপ করতে পারি?
হ্যাঁ, গবেষকরা 'লিকেজ' বা 'ডেল্টা-বায়াস' নামক একটি মেট্রিক ব্যবহার করেন। এক্ষেত্রে, আপনার ট্রেনিং ডেটাতে একটি নির্দিষ্ট ফলাফলের শতাংশের সাথে আপনার মডেলের পূর্বাভাসে সেই একই ফলাফলের শতাংশের তুলনা করা হয়। যদি মডেলটি কোনো নির্দিষ্ট গোষ্ঠীকে আসল ডেটার তুলনায় ২০% বেশিবার পূর্বাভাস দেয়, তবে এটি বায়াস অ্যামপ্লিফিকেশনের একটি পরিমাপযোগ্য উদাহরণ।
একটি ডেটাসেটে শূন্য পক্ষপাত থাকা কি সম্ভব?
বাস্তবিকভাবে বলতে গেলে, না। সমস্ত ডেটা একটি নির্দিষ্ট সময়, স্থান এবং দৃষ্টিকোণের একটি প্রতিচ্ছবি। লক্ষ্যটা অগত্যা 'পক্ষপাতহীনতা' নয়, বরং 'পক্ষপাত সম্পর্কে সচেতনতা' এবং 'প্রশমন'। আপনাকে নিশ্চিত করতে হবে যে, যখন মডেলটি সিদ্ধান্ত নেওয়ার জন্য ব্যবহার করা হয়, তখন ডেটাতে উপস্থিত পক্ষপাতগুলো যেন কোনো ব্যক্তির প্রতি ক্ষতিকর বা অন্যায্য আচরণের কারণ না হয়।
এই সমস্যাগুলোর কারণে কোন শিল্পগুলো সবচেয়ে বেশি ক্ষতিগ্রস্ত হয়?
স্বাস্থ্যসেবা এবং অর্থায়ন হলো প্রধান ক্ষেত্র। স্বাস্থ্যসেবা খাতে, পক্ষপাত বৃদ্ধির ফলে মডেলগুলো নির্দিষ্ট কিছু জাতিগোষ্ঠীর ঝুঁকিকে কম করে দেখাতে পারে, কারণ প্রশিক্ষণ ডেটাতে স্বাস্থ্যসেবা প্রাপ্তির ক্ষেত্রে অসমতা প্রতিফলিত হয়। অর্থায়ন খাতে, এর ফলে 'ডিজিটাল রেডলাইনিং' হতে পারে, যেখানে অ্যালগরিদমগুলো বিকৃত ঐতিহাসিক রেকর্ডের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে পুরো জনগোষ্ঠীকে পরিষেবা দিতে অস্বীকার করে।
এই বিষয়ে 'ইইউ এআই অ্যাক্ট'-এর অবস্থান কী?
ইউরোপীয় ইউনিয়নের কৃত্রিম বুদ্ধিমত্তা আইন (EU AI Act) নিয়োগ বা আইন প্রয়োগের মতো ক্ষেত্রে ব্যবহৃত অনেক সিস্টেমকে 'উচ্চ-ঝুঁকিপূর্ণ' হিসেবে শ্রেণীবদ্ধ করে। এই সিস্টেমগুলোকে আইনত কঠোর পক্ষপাত পরীক্ষা এবং তা হ্রাস করার প্রক্রিয়ার মধ্য দিয়ে যেতে হয়। যে কোম্পানিগুলো পক্ষপাত বৃদ্ধিকে বিনা বাধায় চলতে দেয়, তাদের বিপুল পরিমাণ জরিমানা হতে পারে, যা কখনও কখনও তাদের বিশ্বব্যাপী আয়ের ৭% পর্যন্ত হয়ে থাকে। একারণে পক্ষপাত হ্রাস করা পরিচালনা পর্ষদের একটি প্রধান অগ্রাধিকার হয়ে উঠেছে।
রায়
মানুষের সাথে যোগাযোগকারী বা জীবন পরিবর্তনকারী সিদ্ধান্ত গ্রহণকারী যেকোনো মডেলের জন্য পক্ষপাত হ্রাস একটি অপরিহার্য নৈতিক ও প্রযুক্তিগত আবশ্যকতা। যদিও অধিকাংশ অপটিমাইজ না করা অ্যালগরিদমের স্বাভাবিক আচরণ হলো পক্ষপাত বৃদ্ধি করা, আধুনিক প্রেক্ষাপটে আইনসম্মত ও বিশ্বাসযোগ্য এআই তৈরির একমাত্র উপায় হলো সক্রিয় হ্রাসকরণ।