কৃত্রিম বুদ্ধিমত্তামেশিন-লার্নিংগভীর-শিক্ষাএআই-গবেষণানিউরাল-নেটওয়ার্ক

মডেল স্কেলিং আইন বনাম স্থাপত্য উদ্ভাবন

মডেল স্কেলিং সূত্র এবং আর্কিটেকচার উদ্ভাবন হলো এআই সক্ষমতা অগ্রগতির দুটি প্রতিযোগী দর্শন। স্কেলিং সূত্র অনুযায়ী, অধিক ডেটার ওপর প্রশিক্ষিত বড় মডেলগুলো থেকে প্রত্যাশিত উন্নতি সাধিত হয়, অন্যদিকে আর্কিটেকচার উদ্ভাবন এমন স্মার্ট ডিজাইনের ওপর আলোকপাত করে যা কম কম্পিউটিং শক্তি ব্যবহার করে আরও বেশি কিছু অর্জন করতে পারে।

হাইলাইটস

স্কেলিং সূত্র এমন গাণিতিক পূর্বাভাসযোগ্যতা প্রদান করে, যা স্থাপত্য উদ্ভাবন মেলাতে পারে না।
স্থাপত্য উদ্ভাবনের মাধ্যমে বহুগুণ কম কম্পিউটিং শক্তি ব্যবহার করেই তুলনীয় ফলাফল অর্জন করা সম্ভব।
চিনচিলার কম্পিউট-অপ্টিমাল ট্রেনিং গবেষণাগারগুলোতে মডেলের আকার এবং ডেটার মধ্যে সম্পদ বরাদ্দের পদ্ধতিকে নতুন রূপ দিয়েছে।
শিল্পটি উভয় কৌশলকে একত্রিত করে একটি সংকর পদ্ধতির দিকে ঝুঁকছে।

মডেল স্কেলিং আইন কী?

গবেষণালব্ধ নীতি যা দেখায় কীভাবে আরও বেশি প্যারামিটার, ডেটা এবং কম্পিউটেশনের মাধ্যমে এআই মডেলের পারফরম্যান্স অনুমানযোগ্যভাবে উন্নত হয়।

কাপলান ও অন্যান্যদের দ্বারা লিখিত ওপেনএআই-এর ২০২০ সালের গবেষণাপত্রটি প্রমাণ করেছে যে, মডেল লস প্যারামিটার সংখ্যা, ডেটাসেটের আকার এবং কম্পিউটের সাথে পাওয়ার-ল সম্পর্ক অনুসরণ করে।
চিনচিলা (হফম্যান এট আল., ২০২২) এই নিয়মগুলোকে পরিমার্জন করে দেখিয়েছেন যে, গণনার দিক থেকে সর্বোত্তম পারফরম্যান্সের জন্য মডেলগুলোকে প্রতি প্যারামিটারে প্রায় ২০টি টোকেনের উপর প্রশিক্ষণ দেওয়া উচিত।
GPT-3 ১৭৫ বিলিয়ন প্যারামিটার সহ স্কেলিং প্রদর্শন করেছে, যেখানে GPT-4 এক ট্রিলিয়ন প্যারামিটার অতিক্রম করেছে বলে জানা গেছে।
ভাষা, দৃষ্টি এবং মাল্টিমোডাল মডেল সহ বিভিন্ন ইন্দ্রিয়গ্রাহ্য মাধ্যমে স্কেলিং সূত্রগুলো প্রযোজ্য, যদিও এদের সূচকগুলো ভিন্ন ভিন্ন হয়।
চরম মাত্রায় কার্যকারিতা হ্রাস পেতে থাকে, যেখানে কম্পিউট ক্ষমতার প্রতিটি দ্বিগুণ বৃদ্ধি আগেরবারের তুলনায় কম কর্মক্ষমতার উন্নতি ঘটায়।

স্থাপত্য উদ্ভাবন কী?

অভিনব নিউরাল নেটওয়ার্ক ডিজাইন যা শুধুমাত্র সাধারণ স্কেলিংয়ের মাধ্যমে যা পাওয়া যায়, তার চেয়েও বেশি পরিমাণে এআই-এর দক্ষতা ও সক্ষমতা বৃদ্ধি করে।

ট্রান্সফরমার আর্কিটেকচার (ভাসওয়ানি প্রমুখ, ২০১৭) আরএনএন-কে প্রতিস্থাপন করেছে এবং সেলফ-অ্যাটেনশন মেকানিজমের মাধ্যমে আধুনিক বৃহৎ ল্যাঙ্গুয়েজ মডেল তৈরি করতে সক্ষম করেছে।
মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচার প্রতিটি ইনপুটের জন্য নেটওয়ার্কের কেবলমাত্র অংশবিশেষ সক্রিয় করে, যা কম্পিউটিং দক্ষতা ব্যাপকভাবে উন্নত করে।
মাম্বা (2023)-এর মতো স্টেট স্পেস মডেলগুলি দীর্ঘ সিকোয়েন্সের জন্য কোয়াড্রাটিক অ্যাটেনশনের রৈখিক-সময়ের বিকল্প প্রদান করে।
রিট্রিভাল-অগমেন্টেড জেনারেশন (RAG) পুনরায় প্রশিক্ষণ ছাড়াই সক্ষমতা প্রসারিত করার জন্য প্যারামেট্রিক মেমরির সাথে বাহ্যিক জ্ঞান পুনরুদ্ধারকে একত্রিত করে।
ফ্ল্যাশ অ্যাটেনশনের মতো স্থাপত্যগত উদ্ভাবনগুলো অতিরিক্ত গণনার পরিবর্তে অ্যালগরিদমিক উন্নতির মাধ্যমে মেমরি ব্যবহার এবং প্রশিক্ষণের সময় হ্রাস করে।

তুলনা সারণি

বৈশিষ্ট্য	মডেল স্কেলিং আইন	স্থাপত্য উদ্ভাবন
মূল দর্শন	বৃহত্তর মডেল + আরও ডেটা = উন্নত পারফরম্যান্স	আরও উন্নত ডিজাইন কম কম্পিউটিং শক্তি ব্যবহার করে আরও বেশি কিছু অর্জন করে।
প্রাথমিক ব্যয় চালক	প্রশিক্ষণের জন্য গণনা এবং শক্তি	গবেষণা প্রতিভা এবং নকশার পুনরাবৃত্তি
লাভের পূর্বাভাসযোগ্যতা	পাওয়ার ল'র মাধ্যমে অত্যন্ত অনুমানযোগ্য	অনিশ্চিত; যুগান্তকারী সাফল্য বিক্ষিপ্ত।
মূল সমর্থকরা	ওপেনএআই, অ্যানথ্রোপিক, স্কেলিং হাইপোথিসিসের সমর্থকরা	ডিপমাইন্ড, অ্যাকাডেমিক গবেষক, দক্ষতা-কেন্দ্রিক ল্যাব
গণনার প্রয়োজনীয়তা	বিশাল এবং দ্রুতগতিতে বৃদ্ধি পাচ্ছে	প্রায়শই কম; সাধারণ হার্ডওয়্যারেও চলতে পারে।
পারফরম্যান্স সিলিং	উপলব্ধ গণনা এবং ডেটা দ্বারা সীমাবদ্ধ	নকশায় মানুষের উদ্ভাবনী ক্ষমতার দ্বারা সীমাবদ্ধ
ফলাফলের জন্য সময়সীমা	অনুমানযোগ্য কিন্তু ধীরগতির (কয়েক মাসের প্রশিক্ষণ)	পরিবর্তনশীল; দ্রুত যুগান্তকারী সাফল্য এনে দিতে পারে।
প্রতিনিধি উদাহরণ	জিপিটি-৪, ক্লদ ৩, জেমিনি আল্ট্রা	মাম্বা, MoE মডেল, ফ্ল্যাশ অ্যাটেনশন, RAG সিস্টেম

বিস্তারিত তুলনা

দার্শনিক ভিত্তি

মডেল স্কেলিং-এর সূত্রগুলো একটি সহজ কিন্তু শক্তিশালী ধারণার উপর ভিত্তি করে প্রতিষ্ঠিত: বুদ্ধিমত্তা স্কেল বা পরিধি থেকেই উদ্ভূত হয়। কাপলানের ২০২০ সালের গবেষণাপত্র এবং চিনচিলার ২০২২ সালের পরিমার্জন থেকে প্রাপ্ত গবেষণালব্ধ প্রমাণ দেখায় যে, কর্মক্ষমতার উন্নতি একটি অনুমানযোগ্য গাণিতিক সম্পর্ক অনুসরণ করে। আর্কিটেকচার উদ্ভাবন এর বিপরীত দৃষ্টিভঙ্গি পোষণ করে এবং যুক্তি দেয় যে, চতুর প্রকৌশলের মাধ্যমে বিদ্যমান কম্পিউটিং ব্যবস্থা থেকেই আরও বেশি সক্ষমতা বের করে আনা সম্ভব। উভয় পক্ষই একমত যে স্কেলিং কার্যকর; কিন্তু এটিই অগ্রগতির একমাত্র পথ কি না, সে বিষয়ে তাদের মধ্যে মতভেদ রয়েছে।

খরচ এবং সম্পদের প্রভাব

অত্যাধুনিক মডেল প্রশিক্ষণে এখন শুধু কম্পিউটেশনের জন্যই কয়েক কোটি ডলার খরচ হয়, এবং জানা যায় যে GPT-4-শ্রেণির সিস্টেমের খরচ ১০০ মিলিয়ন ডলারও ছাড়িয়ে যায়। আর্কিটেকচার উদ্ভাবন একটি সম্পূর্ণ ভিন্ন অর্থনৈতিক চিত্র তুলে ধরে: একটি সুপরিকল্পিত মডেল প্রশিক্ষণের খরচের একটি ভগ্নাংশেই তার বৃহত্তর প্রতিযোগীদের সমকক্ষ হতে বা তাদের ছাড়িয়ে যেতে পারে। এই কারণে, অ্যাকাডেমিক ল্যাব, স্টার্টআপ এবং হাইপারস্কেলার বাজেটবিহীন সংস্থাগুলোর জন্য আর্কিটেকচার উদ্ভাবন বিশেষভাবে আকর্ষণীয়।

নির্ভরযোগ্যতা এবং ঝুঁকি

স্কেলিং সূত্রগুলো এআই গবেষণায় একটি দুর্লভ জিনিস প্রদান করে: পূর্বাভাসযোগ্যতা। আপনি যদি দ্বিগুণ গণনা করেন, তবে মোটামুটিভাবে কী ধরনের উন্নতি আশা করা যায় তা জানতে পারেন। আর্কিটেকচার উদ্ভাবন স্বভাবতই বেশি ঝুঁকিপূর্ণ, কারণ যুগান্তকারী সাফল্য পাটিগণিতের চেয়ে অন্তর্দৃষ্টির ওপর বেশি নির্ভরশীল। তবে, যখন আর্কিটেকচারে যুগান্তকারী সাফল্য আসে, তখন তা বছরের পর বছর ধরে অর্জিত ক্রমবর্ধমান স্কেলিংয়ের অগ্রগতিকে অতিক্রম করে যেতে পারে। ট্রান্সফর্মার নিজেই ছিল এমনই একটি উল্লম্ফন, যা রাতারাতি আরএনএন স্কেলিংয়ের বহু বছরের কাজকে অপ্রচলিত করে দিয়েছিল।

বর্তমান শিল্প প্রবণতা

শিল্পটি ক্রমশই উপলব্ধি করছে যে নিছক স্কেলিংয়ের সীমাবদ্ধতা রয়েছে। এমনকি ওপেনএআই-এর নেতৃত্বও ডেটার প্রাপ্যতা এবং কম্পিউট ইকোনমিক্স সংক্রান্ত প্রতিবন্ধকতার সম্মুখীন হওয়ার বিষয়টি প্রকাশ্যে আলোচনা করেছে। এদিকে, আর্কিটেকচার উদ্ভাবন ত্বরান্বিত হচ্ছে: মিক্সট্রালের মতো মিক্সচার-অফ-এক্সপার্টস মডেল, এফিশিয়েন্ট অ্যাটেনশন ভ্যারিয়েন্ট এবং স্টেট স্পেস মডেলগুলো জনপ্রিয়তা লাভ করছে। বেশিরভাগ অগ্রণী ল্যাব এখন এই দুটি কৌশলকেই প্রতিযোগী হিসেবে না দেখে পরিপূরক হিসেবে বিবেচনা করে একযোগে অনুসরণ করছে।

দীর্ঘমেয়াদী গতিপথ

ভবিষ্যতের দিকে তাকালে, এককভাবে কোনো একটি পদ্ধতিই সম্ভবত এআই-কে মানব-স্তরের সক্ষমতায় নিয়ে যেতে পারবে না। স্কেলিং সূত্রগুলো ইঙ্গিত দেয় যে আমরা মডেলের আকার বাড়াতেই থাকব, কিন্তু ক্রমহ্রাসমান প্রতিদান এবং সম্পদের সীমাবদ্ধতা স্থাপত্যগত চাতুর্যের উপর অধিক নির্ভরতা তৈরি করবে। সামনের সবচেয়ে সম্ভাবনাময় পথটি এই দুটিকেই একত্রিত করে: সর্বোত্তম মডেলের আকার নির্ধারণের জন্য স্কেলিং সূত্র ব্যবহার করা এবং প্রতিটি প্যারামিটারের সক্ষমতা সর্বাধিক করার জন্য স্থাপত্যগত উদ্ভাবন প্রয়োগ করা। এই সংকর পদ্ধতিটিই এআই গবেষণার বর্তমান অগ্রবর্তী ক্ষেত্রকে সংজ্ঞায়িত করে।

সুবিধা এবং অসুবিধা

মডেল স্কেলিং আইন

সুবিধাসমূহ

+ অনুমানযোগ্য উন্নতি
+ পরীক্ষামূলকভাবে সুপ্রতিষ্ঠিত
+ কার্যকর করা সহজ
+ ডোমেন জুড়ে সামঞ্জস্যপূর্ণ

কনস

− অত্যন্ত ব্যয়বহুল
− ক্রমহ্রাসমান প্রতিদান
− ডেটা প্রতিবন্ধকতা দেখা দিচ্ছে
− পরিবেশগত উদ্বেগ

স্থাপত্য উদ্ভাবন

সুবিধাসমূহ

+ গণনা-দক্ষ ফলাফল
+ প্রশিক্ষণের খরচ কম
+ নতুন সক্ষমতা উন্মোচিত হয়েছে
+ এআই উন্নয়নকে গণতান্ত্রিক করে তোলে

কনস

− অপ্রত্যাশিত অগ্রগতি
− প্রতিলিপি করা আরও কঠিন
− গভীর দক্ষতার প্রয়োজন
− প্রাথমিক অগ্রগতি ধীর ছিল।

সাধারণ ভুল ধারণা

পুরাণ

স্কেলিং সূত্র অনুযায়ী, বড় মডেল সবসময়ই ভালো।

বাস্তবতা

চিনচিলা দেখিয়েছিল যে মডেলের আকার এবং প্রশিক্ষণ ডেটা অবশ্যই একসাথে সামঞ্জস্যপূর্ণ হতে হবে। অপর্যাপ্ত ডেটার উপর প্রশিক্ষিত একটি ৭০বি মডেল, পর্যাপ্ত ডেটার উপর প্রশিক্ষিত একটি ছোট মডেলের তুলনায় খারাপ পারফর্ম করবে। এই সম্পর্কটি কেবল আকারের উপর নয়, বরং ভারসাম্যের উপর নির্ভরশীল।

পুরাণ

আর্কিটেকচার উদ্ভাবন হলো কম্পিউটিং-এর খরচ এড়ানোর একটি উপায় মাত্র।

বাস্তবতা

স্থাপত্যগত যুগান্তকারী উদ্ভাবন প্রায়শই সম্পূর্ণ নতুন সক্ষমতা তৈরি করে, যা কেবল স্কেলিংয়ের মাধ্যমে অর্জন করা সম্ভব নয়। ট্রান্সফর্মার শুধু মডেলগুলোকে সস্তা করেনি; এটি দীর্ঘতর কনটেক্সট প্রক্রিয়াকরণ এবং সমান্তরাল প্রশিক্ষণকে সম্ভব করেছে, যা আরএনএন (RNN) মৌলিকভাবে সমর্থন করতে পারত না।

পুরাণ

যতক্ষণ না আমরা এজিআই-তে পৌঁছাব, ততক্ষণ পর্যন্ত স্কেলিং সূত্রগুলো অনির্দিষ্টকালের জন্য চলতে থাকবে।

বাস্তবতা

গবেষকরা অগ্রগতির শেষ সীমায় ক্রমহ্রাসমান কার্যকারিতার বিষয়টি নথিভুক্ত করেছেন। এখন কম্পিউটিং ক্ষমতার প্রতিটি দ্বিগুণ বৃদ্ধি পূর্ববর্তী দ্বিগুণ বৃদ্ধির তুলনায় কম কর্মক্ষমতা বৃদ্ধি ঘটায়। ডেটার গুণমান এবং প্রাপ্যতাও কঠিন সীমাবদ্ধতা হয়ে উঠছে, যা শুধুমাত্র স্কেলিংয়ের মাধ্যমে অতিক্রম করা যায় না।

পুরাণ

এই দুটি পদ্ধতি পরস্পরবিরোধী।

বাস্তবতা

আধুনিক সীমান্ত মডেলগুলো উভয়ই ব্যবহার করে। জিপিটি-৪ সম্ভবত বিশাল আকারের পাশাপাশি স্থাপত্যগত উদ্ভাবনকেও অন্তর্ভুক্ত করেছে। বিতর্কটি আসলে গুরুত্বারোপ এবং সম্পদ বণ্টন নিয়ে, কোনো একটিকে বেছে নেওয়ার বিষয় নয়।

পুরাণ

স্থাপত্য উদ্ভাবন সর্বদা সম্প্রসারণকে ছাড়িয়ে যায়।

বাস্তবতা

অপর্যাপ্ত প্যারামিটার বা ডেটা সহ একটি চতুর আর্কিটেকচার একটি স্থিতাবস্থায় পৌঁছাবে। আর্কিটেকচার উদ্ভাবন সাধারণত তখনই সবচেয়ে ভালো কাজ করে যখন এটি পর্যাপ্ত স্কেলের সাথে মিলিত হয়। সবচেয়ে সফল সিস্টেমগুলো একই সাথে উভয় দিককেই অপ্টিমাইজ করে।

সচরাচর জিজ্ঞাসিত প্রশ্নাবলী

এআই-তে মডেল স্কেলিং সূত্রগুলো কী?

মডেল স্কেলিং সূত্র হলো এমন এক পরীক্ষামূলক সম্পর্ক যা দেখায় যে, তিনটি চলকের—প্যারামিটার সংখ্যা, ডেটাসেটের আকার এবং প্রশিক্ষণের জন্য প্রয়োজনীয় কম্পিউট—একটি পাওয়ার ল ফাংশন হিসেবে এআই মডেলের কর্মক্ষমতা উন্নত হয়। ২০২০ সালে ওপেনএআই-এর কাপলান ও তার সহযোগীরা সর্বপ্রথম এই সূত্রগুলো কঠোরভাবে প্রদর্শন করেন। এই সূত্রগুলো গবেষকদের ভবিষ্যদ্বাণী করতে সাহায্য করে যে, আরও বেশি রিসোর্স পেলে একটি মডেল কতটা ভালো পারফর্ম করবে। ২০২২ সালে চিনচিলা এটিকে আরও পরিমার্জন করেন এবং দেখান যে, কম্পিউট-সর্বোত্তম প্রশিক্ষণের জন্য প্রতিটি প্যারামিটারের জন্য প্রায় ২০টি টোকেন প্রশিক্ষণ ডেটা প্রয়োজন।

এআই-তে স্থাপত্য উদ্ভাবন বলতে কী বোঝায়?

আর্কিটেকচার উদ্ভাবন বলতে নিউরাল নেটওয়ার্কের নকশার মৌলিক পরিবর্তনকে বোঝায়, যার মধ্যে নতুন ধরনের লেয়ার, অ্যাটেনশন মেকানিজম বা তথ্য প্রবাহের ধরণ অন্তর্ভুক্ত। উদাহরণস্বরূপ, RNN-এর পরিবর্তে Transformer-এর ব্যবহার, Mixture of Experts-এর মাধ্যমে শুধু প্রাসঙ্গিক প্যারামিটার সক্রিয় করা, কার্যকর সিকোয়েন্স প্রসেসিংয়ের জন্য Mamba-র মতো স্টেট স্পেস মডেল এবং মেমরি-সাশ্রয়ী প্রশিক্ষণের জন্য Flash Attention। এই উদ্ভাবনগুলো মডেলের আকারই শুধু পরিবর্তন করে না, বরং মডেলগুলো কী করতে পারে তাও বদলে দেয়।

কোন পদ্ধতিটি আরও ভালো এআই মডেল তৈরি করে?

উভয় পদ্ধতিই সর্বাধুনিক ফলাফল দিয়েছে, কিন্তু এগুলোর লক্ষ্য ভিন্ন। পর্যাপ্ত কম্পিউটিং ক্ষমতা থাকলে স্কেলিং নির্ভরযোগ্যভাবে উন্নত মডেল তৈরি করে, অন্যদিকে আর্কিটেকচার উদ্ভাবন আরও কার্যকর মডেল তৈরি করে যা কম হার্ডওয়্যারেও চলতে পারে। আজকের অত্যাধুনিক মডেলগুলো এই দুটিকেই একত্রিত করে: ব্যাপক স্কেল এবং অত্যাধুনিক আর্কিটেকচার। কোন পদ্ধতিটি 'উন্নত' হবে, তা আপনার সীমাবদ্ধতা, বাজেট এবং লক্ষ্যমাত্রার সক্ষমতার উপর নির্ভর করে।

চিনচিলা কেন আমাদের স্কেলিং সম্পর্কিত চিন্তাভাবনা বদলে দিয়েছে?

চিনচিলার আগে, অনেক ল্যাব বিশাল ডেটাসেটের উপর তুলনামূলকভাবে ছোট মডেলকে প্রশিক্ষণ দিত, এই ভেবে যে ডেটাই ছিল মূল বাধা। ডিপমাইন্ডের হফম্যান ও তার সহযোগীরা দেখিয়েছিলেন যে মডেলগুলো আসলে তাদের আকারের তুলনায় অপর্যাপ্তভাবে প্রশিক্ষিত ছিল। এর ফলে যে সাধারণ নিয়মটি তৈরি হয়েছিল, অর্থাৎ প্রতি প্যারামিটারে প্রায় ২০টি টোকেন, তার মানে হলো একটি ৭০ বিলিয়ন মডেলের ১.৪ ট্রিলিয়ন টোকেনের উপর প্রশিক্ষণ নেওয়া উচিত। এর ফলে কম্পিউট বরাদ্দ শুধু বেশি ডেটার দিকে নয়, বরং বড় মডেল এবং আরও বেশি প্রশিক্ষণের দিকে স্থানান্তরিত হয়।

স্কেলিং সূত্রগুলো কি কোনো প্রতিবন্ধকতার সম্মুখীন হচ্ছে?

প্রমাণ থেকে বোঝা যায় যে, স্কেলিং প্রকৃত সীমাবদ্ধতার সম্মুখীন হচ্ছে। ইলিয়া সুটস্কেভার এবং ওপেনএআই-এর অন্যান্য নেতৃবৃন্দ প্রকাশ্যে ডেটার সহজলভ্যতা সংক্রান্ত প্রতিবন্ধকতার কথা আলোচনা করেছেন, যেখানে ২০২৬ সালের মধ্যে উচ্চ-মানের টেক্সট ডেটা সম্ভবত নিঃশেষ হয়ে যাবে। কম্পিউট দ্বিগুণ করার ফলে পারফরম্যান্সের উন্নতিও কমে গেছে। তবে, স্কেলিং এখনও কাজ করছে; শুধু প্রাপ্ত সুবিধার তুলনায় এটি আরও ব্যয়বহুল হয়ে উঠছে। এটি এই শিল্পকে পরিপূরক হিসেবে আর্কিটেকচারাল ইনোভেশনের দিকে ঠেলে দিচ্ছে।

বিশেষজ্ঞদের মিশ্রণ স্থাপত্য বলতে কী বোঝায়?

মিক্সচার অফ এক্সপার্টস (MoE) হলো এমন একটি আর্কিটেকচার যেখানে যেকোনো প্রদত্ত ইনপুটের জন্য নেটওয়ার্কের প্যারামিটারগুলোর একটি উপসেট, যেগুলোকে এক্সপার্ট বলা হয়, সক্রিয় হয়। একটি রাউটিং মেকানিজম সিদ্ধান্ত নেয় কোন এক্সপার্টগুলো ব্যবহার করা হবে। এর মানে হলো, একটি মডেলে ট্রিলিয়ন ট্রিলিয়ন মোট প্যারামিটার থাকতে পারে, কিন্তু ইনফারেন্সের সময় তার একটি ক্ষুদ্র অংশই ব্যবহৃত হয়, যা কম্পিউট খরচ নাটকীয়ভাবে কমিয়ে দেয়। জানা যায়, Mixtral 8x7B এবং GPT-4-এর মতো মডেলগুলো সক্ষমতা ও দক্ষতার মধ্যে ভারসাম্য বজায় রাখতে MoE ডিজাইন ব্যবহার করে।

স্থাপত্য উদ্ভাবন কি স্কেলিংকে সম্পূর্ণরূপে প্রতিস্থাপন করতে পারে?

সম্ভবত অদূর ভবিষ্যতে নয়। আর্কিটেকচার উদ্ভাবন কার্যকারিতা ব্যাপকভাবে উন্নত করতে পারে, কিন্তু বেশিরভাগ যুগান্তকারী আবিষ্কারই বৃহৎ পরিসরে প্রয়োগ করা হলে তার সুফল পাওয়া যায়। খুব কম প্যারামিটারযুক্ত একটি চতুর আর্কিটেকচারের সক্ষমতা একটি নির্দিষ্ট সীমায় পৌঁছে যায়। সামনে এগিয়ে যাওয়ার সবচেয়ে বাস্তবসম্মত পথ হলো, স্কেলিং পুরোপুরি পরিত্যাগ না করে, আর্কিটেকচার উদ্ভাবনকে ব্যবহার করে স্কেলিংকে আরও কার্যকর করা এবং প্রতি ইউনিট কম্পিউটে আরও বেশি সক্ষমতা অর্জন করা।

মাল্টিমোডাল মডেলের ক্ষেত্রে স্কেলিং সূত্রগুলো কীভাবে প্রযোজ্য হয়?

স্কেলিং সূত্রগুলো মাল্টিমোডাল মডেলের ক্ষেত্রেও প্রযোজ্য, তবে এক্ষেত্রে সূচক এবং সুবিধা-অসুবিধা ভিন্ন হয়। ছবি এবং টেক্সট উভয়ের উপর একটি মডেলকে প্রশিক্ষণ দিতে হলে বিভিন্ন মোডালিটির মধ্যে কম্পিউটিং ক্ষমতার ভারসাম্য রক্ষা করতে হয়। মেটা এবং গুগলের গবেষণা থেকে দেখা গেছে যে মাল্টিমোডাল স্কেলিং একই ধরনের পাওয়ার-ল প্যাটার্ন অনুসরণ করে, যদিও একই মডেলের মধ্যে দৃষ্টি এবং ভাষা ক্ষমতার জন্য প্রতিযোগিতা করতে পারে। শুধুমাত্র টেক্সট-ভিত্তিক মডেলের তুলনায় এই সম্পর্কগুলো ততটা সুস্পষ্টভাবে সংজ্ঞায়িত নয়।

এআই-এর ইতিহাসে সবচেয়ে বড় স্থাপত্য উদ্ভাবন কোনটি ছিল?

২০১৭ সালের 'Attention Is All You Need' শীর্ষক গবেষণাপত্রে প্রবর্তিত Transformer আর্কিটেকচারকে ব্যাপকভাবে সবচেয়ে প্রভাবশালী স্থাপত্য উদ্ভাবন হিসেবে বিবেচনা করা হয়। এটি পুনরাবৃত্তির পরিবর্তে সেলফ-অ্যাটেনশন ব্যবহার করে, যা সমান্তরাল প্রশিক্ষণ এবং অনেক দীর্ঘতর কনটেক্সট উইন্ডোকে সম্ভব করে তোলে। GPT, Claude, এবং Gemini সহ প্রায় সমস্ত আধুনিক বৃহৎ ল্যাঙ্গুয়েজ মডেল Transformer-এর ভিত্তির উপর নির্মিত। এই ক্ষেত্রে এর প্রভাব বিশেষজ্ঞ সিস্টেম থেকে ডিপ লার্নিং-এ রূপান্তরের সাথে তুলনীয়।

একটি ফ্রন্টিয়ার এআই মডেলকে প্রশিক্ষণ দিতে কত খরচ হয়?

খরচ ব্যাপকভাবে বেড়ে গেছে। প্রাপ্ত তথ্য অনুযায়ী, GPT-3 প্রশিক্ষণে প্রায় ৪ মিলিয়ন ডলার খরচ হয়, যেখানে GPT-4 শ্রেণীর মডেলগুলোর জন্য আনুমানিক ৫০-১০০ মিলিয়ন ডলার বা তারও বেশি খরচ ধরা হয়। গুগলের জেমিনি আলট্রা প্রশিক্ষণের খরচ সম্ভবত ১০০ মিলিয়ন ডলার ছাড়িয়ে যায়। এই পরিসংখ্যানের মধ্যে শুধুমাত্র কম্পিউট খরচ অন্তর্ভুক্ত, ডেটা কিউরেশন বা জনবল খরচ অন্তর্ভুক্ত নয়। আর্কিটেকচার উদ্ভাবন একই ধরনের সক্ষমতার জন্য এই খরচ ১০ গুণ বা তারও বেশি কমাতে পারে, আর একারণেই দক্ষতা-কেন্দ্রিক গবেষণা জোরদার হয়েছে।

স্কেলিং করার জন্য আমাদের কি প্রশিক্ষণ ডেটা শেষ হয়ে যাবে?

বর্তমান মডেল ব্যবহারের হারের উপর ভিত্তি করে অনুমান করা হচ্ছে যে ২০২৬ থেকে ২০৩০ সালের মধ্যে উচ্চ-মানের টেক্সট ডেটা নিঃশেষ হয়ে যাবে। এটি নিছক স্কেলিং পদ্ধতির উপর একটি প্রকৃত সীমাবদ্ধতা। যে সমাধানগুলো খতিয়ে দেখা হচ্ছে তার মধ্যে রয়েছে সিন্থেটিক ডেটা তৈরি, ভিডিও এবং অডিওর মতো মাল্টিমোডাল উৎসের উপর প্রশিক্ষণ, এবং ছোট কিন্তু উচ্চ-মানের ডেটাসেট আরও দক্ষতার সাথে ব্যবহার করা। রিট্রিভাল-অগমেন্টেড জেনারেশনের মতো আর্কিটেকচার উদ্ভাবনগুলোও ট্রেনিং ডেটা মুখস্থ করার উপর নির্ভরতা কমায়।

কোন এআই ল্যাবগুলো স্থাপত্য উদ্ভাবনের উপর মনোযোগ দেয়?

ঐতিহাসিকভাবে ডিপমাইন্ড স্থাপত্য উদ্ভাবনের উপর জোর দিয়েছে এবং ট্রান্সফর্মার্স, আলফাগোর স্থাপত্য এবং স্টেট স্পেস মডেলের উপর সাম্প্রতিক কাজে অবদান রেখেছে। মিস্ট্রাল এআই দক্ষ ওপেন-ওয়েট মডেলের উপর ভিত্তি করে তার খ্যাতি অর্জন করেছে। স্ট্যানফোর্ড, এমআইটি এবং ইটিএইচ জুরিখের মতো শিক্ষাপ্রতিষ্ঠানগুলো স্থাপত্য গবেষণার একটি বড় অংশকে চালিত করে। তবে, এখন সমস্ত প্রধান গবেষণাগার উভয় পদ্ধতিতেই বিনিয়োগ করছে, কারণ তারা বুঝতে পেরেছে যে ভবিষ্যতে সম্ভবত স্কেলিংয়ের সাথে আরও স্মার্ট ডিজাইনের সমন্বয় প্রয়োজন হবে।

রায়

যখন আপনার বিশাল কম্পিউট বাজেট থাকে এবং প্রতিষ্ঠিত আর্কিটেকচারে অনুমানযোগ্য ও ক্রমবর্ধমান উন্নতির প্রয়োজন হয়, তখন মডেল স্কেলিং নীতি বেছে নিন। যখন রিসোর্স সীমিত থাকে, ইনফারেন্স টাইমে দক্ষতার প্রয়োজন হয়, অথবা যখন আপনি এমন সক্ষমতা অর্জন করতে চান যা শুধুমাত্র স্কেলিংয়ের মাধ্যমে পাওয়া কঠিন, তখন আর্কিটেকচার উদ্ভাবন বেছে নিন। বাস্তবে, আজকের সবচেয়ে সফল এআই সিস্টেমগুলো কোনো একটির ওপর একচেটিয়াভাবে নির্ভর না করে, উভয় দর্শনকেই একত্রিত করে।

মডেল স্কেলিং আইন বনাম স্থাপত্য উদ্ভাবন

হাইলাইটস

মডেল স্কেলিং আইন কী?

স্থাপত্য উদ্ভাবন কী?

তুলনা সারণি

বিস্তারিত তুলনা

দার্শনিক ভিত্তি

খরচ এবং সম্পদের প্রভাব

নির্ভরযোগ্যতা এবং ঝুঁকি

বর্তমান শিল্প প্রবণতা

দীর্ঘমেয়াদী গতিপথ

সুবিধা এবং অসুবিধা

মডেল স্কেলিং আইন

সুবিধাসমূহ

কনস

স্থাপত্য উদ্ভাবন

সুবিধাসমূহ

কনস

সাধারণ ভুল ধারণা

সচরাচর জিজ্ঞাসিত প্রশ্নাবলী

রায়

সম্পর্কিত তুলনা

CLIP এমবেডিং বনাম কীওয়ার্ড-ভিত্তিক চিত্র পুনরুদ্ধার

PPO-তে পলিসি ক্লিপিং বনাম সীমাহীন পলিসি আপডেট

RAG (রিট্রিভাল-অগমেন্টেড জেনারেশন) বনাম ফাইন-টিউনড LLM

RAG-এ ইমেজ গ্রাউন্ডিং বনাম আনগ্রাউন্ডেড টেক্সট জেনারেশন

অগমেন্টেড রিয়েলিটি ডেটা বনাম আসল ক্যামেরা ডেটা