Comparthing Logo
توکن‌سازیان ال پیپردازش زبان طبیعییادگیری ماشینیهوش مصنوعی

توکن‌سازی مبتنی بر داده در مقابل توکن‌سازی مبتنی بر قانون

توکن‌سازی داده‌محور، قوانین تقسیم‌بندی را از پیکره‌های متنی بزرگ با استفاده از روش‌های آماری یا عصبی یاد می‌گیرد، در حالی که توکن‌سازی مبتنی بر قانون به الگوهای زبانی دست‌ساز و فرهنگ لغت‌ها متکی است. هر دو رویکرد، متن را به واحدهای معنادار می‌شکنند، اما از نظر انعطاف‌پذیری، دقت و نیازهای محاسباتی تفاوت‌های چشمگیری دارند.

برجسته‌ها

  • توکن‌سازهای داده‌محور از متن یاد می‌گیرند، در حالی که توکن‌سازهای مبتنی بر قانون از الگوهای دست‌ساز پیروی می‌کنند.
  • روش‌های زیرکلماتی مانند BPE و WordPiece کلمات ناشناخته را بسیار بهتر از جستجوی فرهنگ لغت مدیریت می‌کنند.
  • سیستم‌های مبتنی بر قانون، قابلیت تفسیر کامل و هزینه آموزش صفر را ارائه می‌دهند که برای دامنه‌های قابل پیش‌بینی ایده‌آل است.
  • مدل‌های زبان‌های بزرگ مدرن تقریباً منحصراً برای خطوط لوله ورودی خود به توکن‌سازی مبتنی بر داده متکی هستند.

توکن‌سازی مبتنی بر داده چیست؟

یک رویکرد یادگیری ماشینی که با تجزیه و تحلیل الگوها در مجموعه داده‌های متنی بزرگ، مرزهای توکن را به طور خودکار کشف می‌کند.

  • الگوریتم‌ها به جای تکیه بر الگوهای نوشته شده دستی، قوانین تقسیم‌بندی را از پیکره‌های آموزشی یاد می‌گیرند.
  • روش‌های زیرکلمه مانند کدگذاری جفت بایت (BPE)، WordPiece و مدل زبان Unigram در این دسته قرار می‌گیرند.
  • مدل‌های زبان‌های بزرگ مدرن از جمله GPT و BERT از توکن‌سازهای داده‌محور استفاده می‌کنند که روی صدها گیگابایت متن آموزش دیده‌اند.
  • این توکنایزرها با شکستن اصطلاحات نادر به زیرکلمات آشنا، کلمات خارج از واژگان را به زیبایی مدیریت می‌کنند.
  • با افزایش اندازه و تنوع داده‌های آموزشی، عملکرد بهبود می‌یابد.

توکن‌سازی مبتنی بر قانون چیست؟

یک رویکرد سنتی که متن را با استفاده از قوانین زبانی از پیش تعریف شده، عبارات منظم و فهرست‌های کلمات گزینشی، تقسیم می‌کند.

  • مرزهای توکن توسط الگوهای دست‌ساز مانند فضای خالی، علائم نگارشی و قوانین ریخت‌شناسی تعیین می‌شوند.
  • کتابخانه‌هایی مانند word_tokenize از NLTK و pipelineهای مبتنی بر قانون از spaCy نمونه‌هایی هستند که به طور گسترده مورد استفاده قرار می‌گیرند.
  • این سیستم‌ها اغلب برای مدیریت شکل کلمات در زبان‌های خاص، به فرهنگ لغت‌ها و فهرست‌های وندی متکی هستند.
  • رفتار کاملاً قابل پیش‌بینی و بررسی آن آسان است زیرا هر قانون به صراحت نوشته شده است.
  • آنها به هیچ داده آموزشی نیاز ندارند و می‌توانند بلافاصله پس از تعریف قوانین، مستقر شوند.

جدول مقایسه

ویژگی توکن‌سازی مبتنی بر داده توکن‌سازی مبتنی بر قانون
رویکرد با استفاده از روش‌های آماری یا عصبی، از پیکره‌های متنی بزرگ یاد می‌گیرد از قوانین دست‌ساز، الگوهای regex و دیکشنری‌ها استفاده می‌کند
آموزش مورد نیاز بله، به داده‌های متنی خام یا حاشیه‌نویسی‌شده‌ی قابل توجهی نیاز دارد خیر، قوانین به صورت دستی توسط توسعه‌دهندگان نوشته می‌شوند
مدیریت کلمات ناشناخته کلمات نادر را به واحدهای زیرکلمه شناخته شده تجزیه می‌کند اغلب با شکست مواجه می‌شود یا نیاز به به‌روزرسانی دستی دیکشنری دارد
تفسیرپذیری پایین‌تر، زیرا الگوهای آموخته‌شده در وزن‌های مدل تعبیه شده‌اند والا، هر قانونی قابل خواندن و حسابرسی است
سازگاری با زبان‌های جدید به راحتی در شرکت‌های جدید آموزش مجدد داده می‌شود نیاز به ساخت مجموعه قوانین جدید از ابتدا دارد
هزینه محاسباتی در طول آموزش بالاتر، در استنتاج سریع در کل، عملکرد ضعیف، اجرا روی حداقل سخت‌افزار
الگوریتم‌های رایج BPE، WordPiece، Unigram LM، SentencePiece تقسیم عبارت منظم، حذف پیوست، جستجوی فرهنگ لغت
استفاده شده توسط GPT، BERT، RoBERTa، T5 و اکثر LLM های مدرن NLTK، خطوط لوله قانون spaCy، سیستم‌های NLP قدیمی

مقایسه دقیق

چگونه متن را تقسیم می‌کنند

توکن‌سازهای داده‌محور، الگوهای فراوانی را در میلیون‌ها جمله تجزیه و تحلیل می‌کنند تا تصمیم بگیرند که یک توکن کجا تمام می‌شود و توکن دیگر کجا شروع می‌شود. به عنوان مثال، BPE با کاراکترهای منفرد شروع می‌کند و مکرراً جفت‌های مجاور پرتکرار را ادغام می‌کند تا به اندازه واژگان هدف برسد. در مقابل، توکن‌سازهای مبتنی بر قانون، یک توالی ثابت از عملیات مانند تقسیم فضای خالی، حذف علائم نگارشی یا حذف پسوندهایی مانند "-ing" و "-ed" را بر اساس جداول مورفولوژیکی از پیش تعریف شده اعمال می‌کنند.

برخورد با کلمات نادر و ناشناخته

یکی از بزرگترین نقاط قوت روش‌های مبتنی بر داده، مدیریت دقیق کلماتی است که مدل هرگز ندیده است. یک اصطلاح پزشکی نادر مانند "pneumonoultramicroscopicsilicovolcanoconiosis" به قطعات زیرکلمه آشنا که مدل از قبل آنها را می‌فهمد، تجزیه می‌شود. سیستم‌های مبتنی بر قانون معمولاً در برخورد با چنین کلماتی دچار مشکل می‌شوند، یا آنها را به عنوان یک توکن بزرگ باقی می‌گذارند یا آنها را به طور کامل حذف می‌کنند، مگر اینکه کسی آنها را به صورت دستی به فرهنگ لغت اضافه کند.

شفافیت و اشکال‌زدایی

توکن‌سازهای مبتنی بر قانون، شفافیت را ترجیح می‌دهند. یک توسعه‌دهنده می‌تواند فایل قانون را باز کند، دقیقاً نحوه تقسیم متن را بخواند و هرگونه خروجی غیرمنتظره را به یک الگوی خاص ردیابی کند. توکن‌سازهای مبتنی بر داده بیشتر شبیه جعبه‌های سیاه رفتار می‌کنند، جایی که ورودی یکسان همیشه خروجی یکسانی تولید می‌کند، اما توضیح اینکه چرا یک تقسیم خاص انتخاب شده است، نیاز به بررسی آمار آموزشی یا داخلی مدل دارد.

الزامات منابع

آموزش یک توکن‌ساز داده‌محور نیازمند محاسبات و ذخیره‌سازی قابل توجهی است و اغلب ده‌ها گیگابایت متن را برای ساخت یک واژگان باکیفیت پردازش می‌کند. پس از آموزش، استنتاج سریع و فایل توکن‌ساز کوچک است. توکن‌سازهای مبتنی بر قانون تقریباً به هیچ منبعی برای ساخت یا اجرا نیاز ندارند، که آنها را برای سیستم‌های با تأخیر کم، دستگاه‌های تعبیه‌شده یا پروژه‌هایی که زیرساخت آموزشی در دسترس نیست، جذاب می‌کند.

پوشش زبان

رویکردهای داده‌محور به طور طبیعی با آموزش مجدد روی یک مجموعه داده جدید، به زبان‌های جدید مقیاس‌پذیر می‌شوند، به همین دلیل است که مدل‌های چندزبانه مانند XLM-Roberta می‌توانند ده‌ها زبان را با یک توکن‌ساز پوشش دهند. سیستم‌های مبتنی بر قانون برای هر زبان جدید به تخصص زبانی نیاز دارند، زیرا قوانین پیوست، کلاس‌های کاراکتر و فهرست کلمات باید توسط کسی که مورفولوژی را به خوبی می‌داند، ساخته شوند.

دقت در عمل

برای وظایف مدرن NLP، توکن‌سازهای مبتنی بر داده، در معیارهایی که شامل متن نویزدار، رسانه‌های اجتماعی یا کد می‌شوند، به طور مداوم از توکن‌سازهای مبتنی بر قانون بهتر عمل می‌کنند. توکن‌سازهای مبتنی بر قانون هنوز هم در حوزه‌های ساختاریافته مانند اسناد حقوقی یا نوشتار رسمی، که در آن‌ها تقسیم‌بندی قابل پیش‌بینی و قوانین قابل خواندن توسط انسان، بیش از رسیدگی به موارد حاشیه‌ای اهمیت دارند، جایگاه خود را حفظ کرده‌اند.

مزایا و معایب

توکن‌سازی مبتنی بر داده

مزایا

  • + کلمات ناشناخته را مدیریت می‌کند
  • + مقیاس‌ها به زبان‌های جدید
  • + دقت بالا
  • + از داده‌ها یاد می‌گیرد

مصرف شده

  • نیاز به داده‌های آموزشی دارد
  • کمتر قابل تفسیر
  • هزینه راه‌اندازی بالاتر
  • اشکال‌زدایی پیچیده

توکن‌سازی مبتنی بر قانون

مزایا

  • + کاملاً شفاف
  • + بدون نیاز به آموزش
  • + هزینه محاسباتی پایین
  • + سفارشی‌سازی آسان

مصرف شده

  • با کلمات نادر مشکل دارد
  • کار با زبان دستی
  • سازگاری محدود
  • مقیاس‌پذیری دشوار

تصورات نادرست رایج

افسانه

توکن‌سازی مبتنی بر قانون منسوخ شده است و دیگر در هوش مصنوعی مدرن استفاده نمی‌شود.

واقعیت

توکن‌سازهای مبتنی بر قانون همچنان در خطوط تولید پردازش زبان طبیعی (NLP) رایج هستند، به خصوص برای مراحل پیش‌پردازش مانند تقسیم جمله، نرمال‌سازی و تشخیص زبان. بسیاری از سیستم‌های مدرن به جای جایگزینی یکی با دیگری، روش‌های مبتنی بر قانون و داده‌محور را با هم ترکیب می‌کنند.

افسانه

توکن‌سازی مبتنی بر داده همیشه نتایج بهتری نسبت به روش‌های مبتنی بر قانون ارائه می‌دهد.

واقعیت

کیفیت به شدت به مجموعه آموزشی و وظیفه بستگی دارد. یک توکن‌ساز داده‌محور با آموزش ضعیف می‌تواند عملکرد بدتری نسبت به یک توکن‌ساز قانون‌محور با تنظیم خوب داشته باشد، به خصوص در متن‌های مختص دامنه که داده‌های آموزشی با توزیع هدف مطابقت ندارند.

افسانه

توکن‌سازی صرفاً تقسیم متن بر اساس فاصله است.

واقعیت

توکن‌سازهای دنیای واقعی، علائم نگارشی، انقباضات، عبارات چند کلمه‌ای، ایموجی‌ها و واحدهای زیرکلمه را مدیریت می‌کنند. تقسیم ساده‌ی فضای خالی، بیشتر پیچیدگی‌هایی را که توکن‌سازی برای حل آنها طراحی شده است، از دست می‌دهد.

افسانه

یک توکن‌ساز داده‌محور، پس از آموزش، دیگر هرگز نیازی به به‌روزرسانی ندارد.

واقعیت

با تکامل زبان، ظهور اصطلاحات عامیانه جدید و ظهور اصطلاحات خاص هر حوزه، واژگان نیز دچار تغییر می‌شوند. بسیاری از تیم‌ها به صورت دوره‌ای توکن‌سازهای خود را بازآموزی یا گسترش می‌دهند تا با تغییرات توزیع متن همگام باشند.

افسانه

همه LLM های مدرن از یک توکنایزر یکسان استفاده می‌کنند.

واقعیت

خانواده‌های مختلف مدل از طرح‌های توکن‌سازی متفاوتی استفاده می‌کنند. مدل‌های GPT از BPE، BERT از WordPiece و T5 از SentencePiece استفاده می‌کنند. این انتخاب‌ها بر اندازه واژگان، تعداد توکن‌ها و عملکرد پایین‌دستی به روش‌های قابل اندازه‌گیری تأثیر می‌گذارند.

سوالات متداول

تفاوت اصلی بین توکن‌سازی مبتنی بر داده و مبتنی بر قانون چیست؟
توکن‌سازی مبتنی بر داده، قوانین تقسیم‌بندی را به طور خودکار از پیکره‌های متنی بزرگ با استفاده از الگوریتم‌هایی مانند BPE یا WordPiece یاد می‌گیرد. توکن‌سازی مبتنی بر قانون، الگوهای دست‌ساز، عبارات منظم و فرهنگ لغت‌های نوشته شده توسط توسعه‌دهندگان را اعمال می‌کند. مورد اول از طریق آموزش تطبیق می‌یابد، در حالی که مورد دوم به دانش زبانی صریح متکی است.
مدل‌های زبانی بزرگ از کدام روش توکن‌سازی استفاده می‌کنند؟
اکثر مدل‌های زبانی بزرگ، از جمله GPT، BERT، RoBERTa و T5، از توکن‌سازی زیرکلمات مبتنی بر داده استفاده می‌کنند. مدل‌های GPT به رمزگذاری جفت بایت، BERT از WordPiece و T5 از SentencePiece استفاده می‌کنند. این روش‌ها به مدل‌ها اجازه می‌دهند تا کلمات نادر و چندین زبان را به طور موثر مدیریت کنند.
آیا توکن‌سازی مبتنی بر قانون سریع‌تر از توکن‌سازی مبتنی بر داده است؟
در زمان استنتاج، هر دو سریع هستند، اما توکنایزرهای مبتنی بر قانون معمولاً از حافظه کمتری استفاده می‌کنند و نیازی به بارگذاری مدل ندارند. تفاوت سرعت بیشتر در طول راه‌اندازی ظاهر می‌شود، زیرا سیستم‌های مبتنی بر قانون به طور کامل از مرحله آموزش صرف نظر می‌کنند و می‌توانند بلافاصله مستقر شوند.
آیا توکن‌سازی مبتنی بر داده می‌تواند زبان‌هایی را که برای آنها آموزش ندیده است، مدیریت کند؟
نه، مگر اینکه توکن‌ساز روی داده‌های چندزبانه آموزش دیده باشد. توکن‌سازی که فقط روی انگلیسی آموزش دیده باشد، با اسکریپت‌های چینی، عربی یا کره‌ای مشکل خواهد داشت. توکن‌سازهای چندزبانه مانند آنهایی که در XLM-Roberta استفاده می‌شوند، به طور خاص روی ده‌ها زبان آموزش دیده‌اند تا این مشکل را برطرف کنند.
رمزگذاری جفت بایت (BPE) چیست؟
BPE یک الگوریتم توکن‌سازی زیرکلمات مبتنی بر داده است که با کاراکترهای منفرد شروع می‌شود و مکرراً جفت‌های مجاور پرتکرار را در مجموعه آموزشی ادغام می‌کند. پس از هزاران ادغام، واژگانی از واحدهای زیرکلمات رایج تولید می‌کند که اندازه واژگان را با پوشش کلمات نادر متعادل می‌کند.
آیا توکن‌سازهای مبتنی بر قانون هنوز برای وظایف مدرن پردازش زبان طبیعی (NLP) کار می‌کنند؟
بله، مخصوصاً برای مراحل پیش‌پردازش مانند تقسیم‌بندی جمله، نرمال‌سازی علائم نگارشی و شناسایی زبان. با این حال، برای ورودی مدل اصلی، اکثر سیستم‌های NLP مدرن، توکنایزرهای مبتنی بر داده را ترجیح می‌دهند زیرا آنها به واژگان ناآشنا بهتر تعمیم می‌دهند.
یک توکن‌ساز داده‌محور به چه مقدار داده آموزشی نیاز دارد؟
این بستگی به اندازه واژگان هدف و پوشش زبان دارد، اما توکن‌سازهای LLM معمولی روی هر محدوده‌ای از چند گیگابایت تا چند صد گیگابایت متن آموزش داده می‌شوند. پیکره‌های بزرگتر و متنوع‌تر عموماً توکن‌سازهایی تولید می‌کنند که کلمات نادر و موارد حاشیه‌ای را با ظرافت بیشتری مدیریت می‌کنند.
آیا می‌توانم توکن‌سازی مبتنی بر قانون و داده‌محور را با هم ترکیب کنم؟
کاملاً، و بسیاری از سیستم‌های تولیدی این کار را انجام می‌دهند. یک الگوی رایج این است که ابتدا نرمال‌سازی مبتنی بر قانون (کوچک کردن حروف، حذف کاراکترهای ویژه، بسط انقباضات) اعمال شود و سپس متن تمیز شده برای تقسیم‌بندی‌های نهایی به یک توکن‌ساز زیرکلمه مبتنی بر داده داده شود.
چرا توکن‌سازی برای عملکرد مدل اهمیت دارد؟
توکن‌سازی نحوه نمایش عددی متن را تعیین می‌کند، که مستقیماً بر میزان توانایی مدل در یادگیری الگوها تأثیر می‌گذارد. توکن‌سازی که قطعات کوچک زیادی تولید می‌کند، طول متن را هدر می‌دهد، در حالی که توکن‌سازی که کلمات نادر را به صورت تک توکن نگه می‌دارد، ممکن است مدل را در تعمیم ناتوان کند. توکن‌سازی خوب، تعادلی بین اندازه واژگان و پوشش ایجاد می‌کند.
مشکلات رایج توکن‌سازهای مبتنی بر قانون چیست؟
آنها اغلب در اختصاراتی مانند "don't" شکست می‌خورند، کلمات با خط فاصله را به درستی مدیریت نمی‌کنند، با ایموجی‌ها و URLها مشکل دارند و با ورود واژگان جدید به زبان، نیاز به به‌روزرسانی مداوم دارند. آنها همچنین تمایل دارند نتایج متناقضی را در بین زبان‌ها ایجاد کنند، مگر اینکه هر زبان مجموعه قوانین دقیق و منظم خود را داشته باشد.

حکم

هنگام ساخت سیستم‌های مدرن NLP یا LLM که باید واژگان متنوع، زبان‌های متعدد یا متن‌های پر سر و صدای دنیای واقعی را مدیریت کنند، توکن‌سازی مبتنی بر داده را انتخاب کنید. توکن‌سازی مبتنی بر قانون را زمانی انتخاب کنید که به شفافیت کامل، حداقل محاسبات نیاز دارید یا در یک دامنه محدود کار می‌کنید که در آن قوانین دست‌ساز از قبل زبان را به خوبی پوشش می‌دهند.

مقایسه‌های مرتبط

LLM های مبتنی بر ابزار در مقابل LLM های مستقل

LLM های مبتنی بر ابزار، مدل‌های زبانی مستقل را با اتصال آنها به APIهای خارجی، ماشین‌حساب‌ها و پایگاه‌های داده گسترش می‌دهند و بازیابی اطلاعات و اجرای وظایف را در زمان واقعی امکان‌پذیر می‌سازند. LLM های مستقل صرفاً به پارامترهای آموزش‌دیده خود متکی هستند و آنها را مستقل اما محدود به دانش حاصل از داده‌های آموزشی می‌کنند.

LLM های متن باز در مقابل API های اختصاصی LLM

LLM های متن باز، مدل‌های هوش مصنوعی قابل تنظیم و خود-میزبان با دسترسی کامل به کد ارائه می‌دهند، در حالی که API های اختصاصی LLM، خدمات مدیریت شده و بهبود یافته را از طریق نقاط پایانی مبتنی بر ابر با قیمت گذاری مبتنی بر میزان استفاده ارائه می‌دهند.

RAG (تولید افزوده بازیابی) در مقابل LLM های تنظیم دقیق

RAG و LLM های تنظیم‌شده دقیق، هر دو کیفیت خروجی هوش مصنوعی را بهبود می‌بخشند، اما به روش‌های اساساً متفاوتی عمل می‌کنند. RAG اطلاعات خارجی را در زمان پرس‌وجو دریافت می‌کند، در حالی که تنظیم دقیق، دانش جدید را مستقیماً در وزن‌های مدل قرار می‌دهد. انتخاب بین آنها بستگی به این دارد که داده‌های شما چند وقت یکبار تغییر می‌کنند و به چه نوع دقتی نیاز دارید.

RAG با متن بصری در مقابل RAG با متن فقط متنی

RAG با زمینه بصری، مدل‌های زبانی را با بازیابی تصاویر، نمودارها و دیاگرام‌ها در کنار متن غنی می‌کند، در حالی که RAG فقط متنی صرفاً به متون نوشتاری متکی است. RAG بصری در وظایف چندوجهی مانند درک اسناد و پاسخ به سؤالات بصری برتری دارد، در حالی که RAG فقط متنی ساده‌تر، سریع‌تر و ارزان‌تر برای استقرار باقی می‌ماند.

RAG چندوجهی در مقابل RAG فقط متنی

RAG چندوجهی متن، تصاویر، صدا و ویدیو را برای بازیابی غنی‌تر با هم پردازش می‌کند، در حالی که RAG فقط متنی منحصراً بر محتوای نوشتاری تمرکز دارد. انتخاب بستگی به این دارد که آیا داده‌ها و موارد استفاده شما فراتر از اسناد متنی ساده است یا خیر.