CLIP এমবেডিং একটি অভিন্ন শব্দার্থিক পরিসরে ছবি ও লেখা বোঝার জন্য ডিপ লার্নিং ব্যবহার করে, অন্যদিকে কীওয়ার্ড-ভিত্তিক ছবি পুনরুদ্ধার পদ্ধতি হাতে-কলমে নির্ধারিত ট্যাগ বা পারিপার্শ্বিক লেখা মেলানোর ওপর নির্ভর করে। আধুনিক ভিজ্যুয়াল সার্চের কাজগুলোর জন্য CLIP অনেক বেশি নমনীয়তা ও নির্ভুলতা প্রদান করে, অপরদিকে কীওয়ার্ড পদ্ধতিগুলো সংকীর্ণ ও সুসংগঠিত প্রেক্ষাপটেই কার্যকর থাকে।
হাইলাইটস
CLIP ছবিকে অর্থগতভাবে বোঝে, অন্যদিকে কীওয়ার্ড সার্চ শুধু মানুষের লেখা ট্যাগ পড়তে পারে।
জিরো-শট সক্ষমতা CLIP-কে প্রশিক্ষণের সময় এমন কোয়েরিগুলি পরিচালনা করতে দেয় যা এটি আগে কখনও দেখেনি।
কীওয়ার্ড পুনরুদ্ধার পদ্ধতি প্রয়োগ করা সহজ, কিন্তু সামঞ্জস্যপূর্ণ মেটাডেটা না থাকলে এটি অকার্যকর হয়ে পড়ে।
CLIP-এর জন্য ভেক্টর পরিকাঠামো প্রয়োজন, কিন্তু এটি হাতে লিখে টীকা যোগ করার প্রয়োজনীয়তা দূর করে।
CLIP এমবেডিং কী?
একটি নিউরাল নেটওয়ার্ক পদ্ধতি যা শব্দার্থগত সাদৃশ্য মেলানোর জন্য ছবি এবং লেখাকে একটি অভিন্ন এমবেডিং স্পেসে ম্যাপ করে।
ওপেনএআই দ্বারা তৈরি এবং কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং গবেষণার অংশ হিসেবে ২০২১ সালের জানুয়ারিতে প্রকাশিত।
ইন্টারনেটের সর্বজনীনভাবে উপলব্ধ উৎস থেকে সংগৃহীত প্রায় ৪০ কোটি ছবি-পাঠ্য জোড়ার উপর প্রশিক্ষিত।
এটি একটি বৈসাদৃশ্যমূলক শিখন উদ্দেশ্য ব্যবহার করে যা ভেক্টর স্পেসে মিলে যাওয়া ছবি-পাঠ্য জোড়াগুলোকে কাছাকাছি নিয়ে আসে এবং অমিল জোড়াগুলোকে দূরে ঠেলে দেয়।
ViT-B/32, ViT-B/16, ViT-L/14 এবং আরও বড় ViT-L/14-336 ভ্যারিয়েন্ট সহ একাধিক মডেল আকারে উপলব্ধ।
কোনো নির্দিষ্ট কাজের প্রশিক্ষণ ছাড়াই ইমেজনেট-এ শক্তিশালী জিরো-শট ক্লাসিফিকেশন অর্জন করে এবং ViT-L/14 ব্যবহার করে প্রায় ৭৬.২ শতাংশ টপ-১ অ্যাকুরেসি স্কোর করে।
কীওয়ার্ড-ভিত্তিক চিত্র পুনরুদ্ধার কী?
একটি প্রচলিত ছবি খোঁজার পদ্ধতি যা ব্যবহারকারীর দেওয়া কোয়েরিকে হাতে-বাছাই করা মেটাডেটা, ট্যাগ বা আশেপাশের টেক্সটের সাথে মিলিয়ে দেখে।
এটি আধুনিক ডিপ লার্নিং পদ্ধতিরও পূর্ববর্তী এবং ১৯৯০ ও ২০০০-এর দশকে সার্চ ইঞ্জিনগুলোতে ব্যবহৃত প্রধান পদ্ধতি ছিল।
এটি ফাইলের নাম, অল্ট অ্যাট্রিবিউট, ক্যাপশন এবং মানুষের দেওয়া কীওয়ার্ডের মতো টেক্সট-ভিত্তিক ইন্ডেক্সিং সিস্টেমের উপর নির্ভর করে।
কীওয়ার্ডের মিলের ওপর ভিত্তি করে ডকুমেন্টগুলোকে র্যাঙ্ক করার জন্য TF-IDF এবং BM25-এর মতো ক্লাসিক তথ্য পুনরুদ্ধার অ্যালগরিদম ব্যবহার করে।
দৃশ্যমান বিষয়বস্তু সরাসরি ব্যাখ্যা করা যায় না, তাই এর নির্ভুলতা সম্পূর্ণরূপে মানুষের করা টীকার গুণমান এবং সম্পূর্ণতার উপর নির্ভর করে।
আজও এটি বহু স্টক ফটো লাইব্রেরি, সিএমএস প্ল্যাটফর্ম এবং পুরোনো এন্টারপ্রাইজ ইমেজ ডেটাবেসকে শক্তি জোগায়।
তুলনা সারণি
বৈশিষ্ট্য
CLIP এমবেডিং
কীওয়ার্ড-ভিত্তিক চিত্র পুনরুদ্ধার
মূল পদ্ধতি
তুলনামূলক দৃষ্টি-ভাষা মডেলের সাথে গভীর শিক্ষা
মেটাডেটা এবং ট্যাগের সাথে টেক্সট মেলানো
দৃশ্যমান বিষয়বস্তু বোঝা
পিক্সেলের সরাসরি শব্দার্থগত উপলব্ধি
চাক্ষুষ বোঝার ক্ষমতা নেই, মানুষের দেওয়া লেবেলের উপর নির্ভর করে।
শূন্য-শট ক্ষমতা
হ্যাঁ, পুনরায় প্রশিক্ষণ ছাড়াই নতুন কোয়েরি মেলাতে পারে।
না, পূর্ব-সূচীকৃত কীওয়ার্ডের মধ্যে সীমাবদ্ধ
সেটআপের জটিলতা
জিপিইউ, এমবেডিং মডেল এবং ভেক্টর ডেটাবেস প্রয়োজন।
স্ট্যান্ডার্ড সার্চ ইঞ্জিন দিয়ে সাধারণ টেক্সট ইন্ডেক্সিং
কোয়েরি নমনীয়তা
যেকোনো ধারণার স্বাভাবিক ভাষার বর্ণনা
সঠিক কীওয়ার্ড মিল বা বুলিয়ান অপারেটর
পরিমাপযোগ্যতা
ভেক্টর ইনডেক্স সাইজের সাথে সামঞ্জস্যপূর্ণ, লক্ষ লক্ষ ডেটা সহজেই সামলাতে পারে।
টেক্সট ইনডেক্সের সাথে সামঞ্জস্যপূর্ণ, বৃহৎ কর্পোরার জন্য অত্যন্ত দ্রুত।
টীকা আবশ্যক
কোনোটিই নয়, এমবেডিংগুলি স্বয়ংক্রিয়ভাবে তৈরি করা হয়েছে
ম্যানুয়াল ট্যাগিং বা পার্শ্ববর্তী টেক্সট প্রয়োজন
সর্বোত্তম ব্যবহারের ক্ষেত্র
ওপেন-ডোমেইন ভিজ্যুয়াল সার্চ এবং সিমান্টিক ম্যাচিং
সামঞ্জস্যপূর্ণ মেটাডেটা সহ কিউরেটেড লাইব্রেরি
বিস্তারিত তুলনা
তারা কীভাবে ছবি বোঝে
CLIP এমবেডিং পিক্সেল ডেটাকে একটি উচ্চ-মাত্রিক ভেক্টরে এনকোড করার মাধ্যমে সরাসরি ছবিকে ব্যাখ্যা করে, যা শব্দার্থগত অর্থ ধারণ করে। বরফে খেলা করা একটি গোল্ডেন রিট্রিভারের ছবিকে ভেক্টর স্পেসের এমন একটি অঞ্চলে ম্যাপ করা হয় যা 'শীতে সুখী কুকুর'-এর মতো টেক্সট বর্ণনার কাছাকাছি থাকে। অন্যদিকে, কীওয়ার্ড-ভিত্তিক পুনরুদ্ধার কখনও সরাসরি ছবিটি দেখে না। এটি কেবল জানে যে একজন মানুষ কী লিখেছে, তাই একই ছবি সিস্টেমের কাছে অদৃশ্য থাকে যদি না কেউ এটিকে 'কুকুর' বা 'বরফ' দিয়ে ট্যাগ করে।
কোয়েরি নমনীয়তা এবং স্বাভাবিক ভাষা
CLIP-এর সাহায্যে, আপনি সম্পূর্ণ বাক্য বা 'সূর্যাস্তের সময় একটি আরামদায়ক পড়ার কোণ'-এর মতো বিমূর্ত ধারণা ব্যবহার করে অনুসন্ধান করতে পারেন এবং প্রাসঙ্গিক ফলাফল পেতে পারেন, এমনকি যদি সেই নির্দিষ্ট শব্দগুলো আপনার ডেটাসেটে কোথাও না-ও থাকে। কীওয়ার্ড সিস্টেমগুলো ব্যবহারকারীদের অনুমান করতে বাধ্য করে যে কোন ট্যাগগুলো প্রয়োগ করা হয়েছে, যার ফলে সম্পূর্ণ বৈধ অনুসন্ধানের জন্য প্রায়শই কোনো ফলাফলই পাওয়া যায় না। এই ঘাটতিটি বড় ও বৈচিত্র্যময় সংগ্রহগুলোর ক্ষেত্রে যন্ত্রণাদায়ক হয়ে ওঠে, যেখানে পুঙ্খানুপুঙ্খভাবে হাতে ট্যাগিং করা অবাস্তব।
নির্ভুলতা এবং শব্দার্থিক মিল
CLIP সমার্থক শব্দ, দৃশ্যগত প্রেক্ষাপট এবং ধারণাগত সম্পর্ক বুঝতে অত্যন্ত পারদর্শী, কারণ এর প্রশিক্ষণ ডেটা শত শত মিলিয়ন ছবি-টেক্সট জোড়া নিয়ে গঠিত। 'puppy' লিখে সার্চ করলে এমন ছবিও সামনে আসবে, যেগুলোর এমবেডিং-এ শুধু 'golden retriever' ট্যাগ করা আছে। কীওয়ার্ড ম্যাচিং 'puppy' এবং 'dog'-কে সম্পূর্ণ ভিন্ন শব্দ হিসেবে গণ্য করে, যদি না আপনি নিজে থেকে সমার্থক শব্দের অভিধান তৈরি করেন, যা বৃহৎ পরিসরে ক্লান্তিকর এবং ত্রুটিপ্রবণ।
অবকাঠামো এবং খরচ
CLIP চালাতে শুরুতেই বেশি কম্পিউটিং ক্ষমতার প্রয়োজন হয়: এমবেডিং তৈরি করার জন্য আপনার একটি GPU বা API অ্যাক্সেস লাগবে, এবং সেই সাথে সেগুলো সংরক্ষণ ও অনুসন্ধানের জন্য FAISS, Pinecone বা Milvus-এর মতো একটি ভেক্টর ডেটাবেসও লাগবে। কীওয়ার্ড অনুসন্ধান হালকা ইনভার্টেড ইনডেক্সের উপর চলে, যা কয়েক দশক ধরে অপ্টিমাইজ করা হয়েছে এবং সাধারণ হার্ডওয়্যার থেকেই চালানো যায়। যেসব প্রতিষ্ঠানের ইঞ্জিনিয়ারিং রিসোর্স সীমিত বা বাজেট কম, তাদের জন্য কীওয়ার্ড অনুসন্ধানের এই সরলতা আকর্ষণীয়ই থেকে যায়।
রক্ষণাবেক্ষণ এবং দীর্ঘমেয়াদী নির্ভরযোগ্যতা
একবার একটি CLIP ইনডেক্স তৈরি হয়ে গেলে, আপনার সংগ্রহ বাড়লেও বা আপনার কোয়েরির ধরণ পরিবর্তিত হলেও এটি কার্যকর থাকে, কারণ মডেলটি পুনরায় প্রশিক্ষণ ছাড়াই নতুন ধারণার সাথে নিজেকে মানিয়ে নেয়। ট্যাগগুলি অসামঞ্জস্যপূর্ণ, পুরোনো বা অনুপস্থিত হয়ে গেলে কীওয়ার্ড সিস্টেমগুলি নীরবে দুর্বল হয়ে পড়ে এবং সেগুলি ঠিক করার জন্য ক্রমাগত মানুষের তত্ত্বাবধানের প্রয়োজন হয়। ই-কমার্স বা ব্যবহারকারী-সৃষ্ট কন্টেন্টের মতো দ্রুত পরিবর্তনশীল ক্ষেত্রগুলিতে, এই রক্ষণাবেক্ষণের বোঝা দ্রুত বাড়তে থাকে।
সুবিধা এবং অসুবিধা
CLIP এমবেডিং
সুবিধাসমূহ
+শব্দার্থগত চাক্ষুষ বোঝাপড়া
+শূন্য-শট সাধারণীকরণ
+ম্যানুয়াল ট্যাগিংয়ের প্রয়োজন নেই
+স্বাভাবিক ভাষার প্রশ্ন
কনস
−উচ্চতর কম্পিউটিং প্রয়োজনীয়তা
−ভেক্টর ডাটাবেস প্রয়োজন
−বৃহত্তর স্টোরেজ ফুটপ্রিন্ট
−আরও জটিল সেটআপ
কীওয়ার্ড-ভিত্তিক চিত্র পুনরুদ্ধার
সুবিধাসমূহ
+সাধারণ অবকাঠামো
+দ্রুত সঠিক মিল
+কম কম্পিউটিং খরচ
+ফলাফল নিরীক্ষা করা সহজ
কনস
−চাক্ষুষ উপলব্ধি নেই
−ম্যানুয়াল ট্যাগিং প্রয়োজন
−দুর্বল প্রতিশব্দ ব্যবস্থাপনা
−ত্রুটিপূর্ণ মেটাডেটার কারণে মান হ্রাস পায়।
সাধারণ ভুল ধারণা
পুরাণ
CLIP কোনো সীমাবদ্ধতা ছাড়াই প্রতিটি ছবি নিখুঁতভাবে বুঝতে পারে।
বাস্তবতা
CLIP সাধারণ ধারণাগুলোর ক্ষেত্রে ভালো কাজ করে, কিন্তু সূক্ষ্ম পার্থক্য, গণনা বা মেডিকেল স্ক্যানের মতো ক্ষেত্র-নির্দিষ্ট চিত্রের ক্ষেত্রে এটি হিমশিম খেতে পারে। এর নির্ভুলতা অনেকাংশে নির্ভর করে ট্রেনিং ডিস্ট্রিবিউশনটি আপনার ব্যবহারের ক্ষেত্রের সাথে কতটা ভালোভাবে মেলে তার উপর।
পুরাণ
কীওয়ার্ড-ভিত্তিক ছবি পুনরুদ্ধার পদ্ধতি এখন অপ্রচলিত এবং আর ব্যবহৃত হয় না।
বাস্তবতা
স্টক ফটো সাইট, সিএমএস প্ল্যাটফর্ম এবং এন্টারপ্রাইজ সিস্টেমে কীওয়ার্ড পদ্ধতি এখনও ব্যাপকভাবে ব্যবহৃত হয়, যেখানে মেটাডেটা আগে থেকেই পরিষ্কার থাকে এবং কোয়েরিগুলো অনুমানযোগ্য হয়। হাইব্রিড পাইপলাইনে এগুলোকে প্রায়শই নতুন মডেলের সাথে একত্রিত করা হয়।
পুরাণ
উৎপাদন ব্যবহারের জন্য CLIP এমবেডিং অত্যন্ত ব্যয়বহুল।
বাস্তবতা
একবার এমবেডিং তৈরি ও সংরক্ষণ করা হয়ে গেলে, আনুমানিক নিকটতম প্রতিবেশী সূচক ব্যবহার করে অনুসন্ধান দ্রুত এবং সাশ্রয়ী হয়। অনেক সরবরাহকারী হোস্টেড CLIP API-ও প্রদান করে, যা স্থানীয় GPU পরিকাঠামোর প্রয়োজনীয়তা দূর করে।
পুরাণ
কীওয়ার্ড সার্চ সর্বদা অধিক নির্ভুল, কারণ এটি হুবহু মিল খুঁজে বের করে।
বাস্তবতা
সঠিক মিল কেবল তখনই সাহায্য করে, যখন ব্যবহারকারী সিস্টেমে থাকা সুনির্দিষ্ট ট্যাগগুলো জানেন। বাস্তব অনুসন্ধানের ক্ষেত্রে, মানুষ যা দেখে তা স্বাভাবিক ভাষায় বর্ণনা করে, যা কীওয়ার্ড সিস্টেমগুলো প্রায়শই বুঝতে ব্যর্থ হয়।
পুরাণ
CLIP মেটাডেটা বা অল্ট টেক্সটের প্রয়োজনীয়তা দূর করে।
বাস্তবতা
CLIP ভিজ্যুয়াল সার্চ ভালোভাবে সামলায়, কিন্তু অ্যাক্সেসিবিলিটি, এসইও এবং স্ট্রাকচার্ড ফিল্টারিংয়ের জন্য মেটাডেটা এখনও গুরুত্বপূর্ণ। অনেক প্রোডাকশন সিস্টেম সিমান্টিক র্যাঙ্কিংয়ের জন্য CLIP ব্যবহার করে এবং সুনির্দিষ্ট সীমাবদ্ধতার জন্য কীওয়ার্ড ফিল্টারও রাখে।
সচরাচর জিজ্ঞাসিত প্রশ্নাবলী
CLIP কী এবং এটি ইমেজ রিট্রিভালের জন্য কীভাবে কাজ করে?
CLIP-এর পূর্ণরূপ হলো Contrastive Language-Image Pre-training, যা OpenAI-এর একটি মডেল এবং এটি প্রশিক্ষণের সময় ছবিকে তার ক্যাপশনের সাথে যুক্ত করতে শেখে। ডেটা পুনরুদ্ধারের জন্য, আপনার কোয়েরি এবং ছবি উভয়কেই একই স্পেসের ভেক্টরে রূপান্তরিত করা হয় এবং সবচেয়ে কাছের ভেক্টরগুলোকে ম্যাচ হিসেবে ফেরত দেওয়া হয়। এর ফলে আপনি সুনির্দিষ্ট কীওয়ার্ডের পরিবর্তে স্বাভাবিক ভাষার বর্ণনা দিয়েও অনুসন্ধান করতে পারেন।
CLIP কি কোনো ট্যাগ বা ক্যাপশন ছাড়াই ছবি অনুসন্ধান করতে পারে?
হ্যাঁ, এটি এর অন্যতম বড় সুবিধা। CLIP সরাসরি পিক্সেল ডেটা থেকে এমবেডিং তৈরি করে, তাই ট্যাগবিহীন ছবিগুলো এনকোড করার সাথে সাথেই অনুসন্ধানযোগ্য হয়ে ওঠে। প্রতিটি ছবির ভেক্টর উপস্থাপনা সংরক্ষণ করার জন্য আপনাকে মডেলটি কেবল একবারই চালাতে হবে।
আজও কেন কীওয়ার্ড-ভিত্তিক ছবি পুনরুদ্ধার পদ্ধতি ব্যবহার করা হয়?
কীওয়ার্ড সিস্টেমগুলো চালানো সহজ, দ্রুত এবং সাশ্রয়ী, যা নির্ভরযোগ্য মেটাডেটাযুক্ত ছোট সংগ্রহের জন্য এগুলোকে আদর্শ করে তোলে। এছাড়াও, এগুলো সম্পূর্ণ অনুমানযোগ্য ফলাফল দেয়, যা নিয়ন্ত্রিত শিল্পক্ষেত্রে গুরুত্বপূর্ণ, যেখানে একটি ছবি ঠিক কী কারণে দেখানো হয়েছে তা আপনাকে স্পষ্টভাবে ব্যাখ্যা করতে হয়।
কার্যক্ষেত্রে কীওয়ার্ড সার্চের চেয়ে CLIP কতটা ভালো?
ওপেন-ডোমেইন বেঞ্চমার্কে, CLIP-ধাঁচের মডেলগুলো কীওয়ার্ড পদ্ধতির চেয়ে অনেক ভালো পারফর্ম করে, বিশেষ করে বর্ণনামূলক বা বিমূর্ত কোয়েরির ক্ষেত্রে। নিখুঁত ট্যাগযুক্ত সংকীর্ণ ডোমেইনে এই ব্যবধান কমে আসে, কিন্তু প্রতিশব্দ হ্যান্ডলিং এবং কনসেপ্ট-লেভেল ম্যাচিংয়ের ক্ষেত্রে CLIP-ই এগিয়ে থাকে।
CLIP চালানোর জন্য আমার কি GPU লাগবে?
যুক্তিসঙ্গত পরিসরে ইনফারেন্সের জন্য, হ্যাঁ, একটি GPU অনেক সাহায্য করে, কিন্তু এটি কঠোরভাবে আবশ্যক নয়। অল্প পরিমাণে ব্যবহারের জন্য ছোট CLIP সংস্করণগুলো CPU-তে চালানো যায়, এবং অনেক ক্লাউড API আপনাকে নিজে কোনো হার্ডওয়্যার পরিচালনা না করেই ইমেজ পাঠাতে ও এমবেডিং গ্রহণ করতে দেয়।
CLIP এমবেডিংয়ের সাথে কোন ভেক্টর ডেটাবেস সবচেয়ে ভালোভাবে কাজ করে?
জনপ্রিয় বিকল্পগুলোর মধ্যে রয়েছে লোকাল হাই-পারফরম্যান্স সার্চের জন্য FAISS, ম্যানেজড ক্লাউড ডেপ্লয়মেন্টের জন্য Pinecone ও Weaviate, এবং বৃহৎ পরিসরের এন্টারপ্রাইজ সেটআপের জন্য Milvus। সেরা বিকল্পটি নির্ভর করে আপনার কাজের পরিধি, ল্যাটেন্সির প্রয়োজনীয়তা এবং আপনি সেলফ-হোস্টিং নাকি ম্যানেজড সার্ভিস চান, তার উপর।
আমি কি কীওয়ার্ড সার্চের সাথে CLIP একত্রিত করতে পারি?
অবশ্যই, এবং অনেক প্রোডাকশন সিস্টেম ঠিক তাই করে থাকে। একটি সাধারণ পদ্ধতি হলো, তারিখের পরিসর বা ক্যাটাগরির মতো কঠোর সীমাবদ্ধতার জন্য কীওয়ার্ড ফিল্টার ব্যবহার করা, এবং তারপর অবশিষ্ট ক্যান্ডিডেটদের সিমান্টিক র্যাঙ্কিংয়ের জন্য CLIP প্রয়োগ করা। এই হাইব্রিড পদ্ধতিটি আপনাকে নির্ভুলতা এবং নমনীয়তা উভয়ই প্রদান করে।
CLIP এমবেডিংগুলো কত বড়?
এমবেডিং সাইজ মডেলের ধরনের উপর নির্ভর করে। ViT-B/32 ৫১২-মাত্রিক ভেক্টর তৈরি করে, যেখানে ViT-L/14-এর মতো বড় মডেলগুলোও ৫১২ মাত্রা আউটপুট দেয়, কিন্তু আরও সমৃদ্ধ উপস্থাপনার সাথে। প্রতিটি ভেক্টর মাত্র কয়েক কিলোবাইটের হয়, তাই লক্ষ লক্ষ ছবিও আধুনিক ভেক্টর স্টোরে সহজেই এঁটে যায়।
CLIP কি ইংরেজি ছাড়া অন্য ভাষা সমর্থন করে?
মূল CLIP প্রধানত ইংরেজি ডেটার উপর প্রশিক্ষিত ছিল, কিন্তু এরপর থেকে Multilingual CLIP এবং SigLIP-এর মতো বহুভাষিক সংস্করণ প্রকাশিত হয়েছে। এই সংস্করণগুলো কয়েক ডজন ভাষা সমর্থন করে এবং আপনার ব্যবহারকারীরা যদি ইংরেজি ছাড়া অন্য ভাষায় অনুসন্ধান করেন, তবে এগুলো একটি ভালো বিকল্প।
ইমেজ রিট্রিভালের ক্ষেত্রে CLIP-এর প্রধান সীমাবদ্ধতাগুলো কী কী?
CLIP সূক্ষ্ম বিভাগগুলোকে গুলিয়ে ফেলতে পারে, গণনা করতে হিমশিম খেতে পারে এবং কখনও কখনও চিকিৎসা সংক্রান্ত বা স্যাটেলাইট চিত্রের মতো ডোমেন-নির্দিষ্ট বিবরণ বাদ দিয়ে দেয়। এটি তার প্রশিক্ষণ ডেটা থেকে পক্ষপাতও গ্রহণ করে, তাই ফলাফলগুলো মূল ওয়েব-স্ক্র্যাপ করা ডেটাসেটে উপস্থিত গতানুগতিক ধারণাগুলোকে প্রতিফলিত করতে পারে।
রায়
যখন আপনার শব্দার্থগত বোধগম্যতা, স্বাভাবিক ভাষার কোয়েরি এবং ন্যূনতম ম্যানুয়াল পরিশ্রমে বিশাল টীকাবিহীন ছবির সংগ্রহ অনুসন্ধান করার ক্ষমতার প্রয়োজন হয়, তখন CLIP এমবেডিং বেছে নিন। যখন আপনার ডেটাসেট ছোট, সুসংগঠিত এবং এতে আগে থেকেই নির্ভরযোগ্য মেটাডেটা থাকে, অথবা যখন অনুসন্ধানের মানের চেয়ে পরিকাঠামোগত সরলতা বেশি গুরুত্বপূর্ণ, তখন কীওয়ার্ড-ভিত্তিক পুনরুদ্ধার পদ্ধতিতেই থাকুন।