توکنسازیان ال پیپردازش زبان طبیعییادگیری ماشینیهوش مصنوعی
توکنسازی مبتنی بر داده در مقابل توکنسازی مبتنی بر قانون
توکنسازی دادهمحور، قوانین تقسیمبندی را از پیکرههای متنی بزرگ با استفاده از روشهای آماری یا عصبی یاد میگیرد، در حالی که توکنسازی مبتنی بر قانون به الگوهای زبانی دستساز و فرهنگ لغتها متکی است. هر دو رویکرد، متن را به واحدهای معنادار میشکنند، اما از نظر انعطافپذیری، دقت و نیازهای محاسباتی تفاوتهای چشمگیری دارند.
برجستهها
توکنسازهای دادهمحور از متن یاد میگیرند، در حالی که توکنسازهای مبتنی بر قانون از الگوهای دستساز پیروی میکنند.
روشهای زیرکلماتی مانند BPE و WordPiece کلمات ناشناخته را بسیار بهتر از جستجوی فرهنگ لغت مدیریت میکنند.
سیستمهای مبتنی بر قانون، قابلیت تفسیر کامل و هزینه آموزش صفر را ارائه میدهند که برای دامنههای قابل پیشبینی ایدهآل است.
مدلهای زبانهای بزرگ مدرن تقریباً منحصراً برای خطوط لوله ورودی خود به توکنسازی مبتنی بر داده متکی هستند.
توکنسازی مبتنی بر داده چیست؟
یک رویکرد یادگیری ماشینی که با تجزیه و تحلیل الگوها در مجموعه دادههای متنی بزرگ، مرزهای توکن را به طور خودکار کشف میکند.
الگوریتمها به جای تکیه بر الگوهای نوشته شده دستی، قوانین تقسیمبندی را از پیکرههای آموزشی یاد میگیرند.
روشهای زیرکلمه مانند کدگذاری جفت بایت (BPE)، WordPiece و مدل زبان Unigram در این دسته قرار میگیرند.
مدلهای زبانهای بزرگ مدرن از جمله GPT و BERT از توکنسازهای دادهمحور استفاده میکنند که روی صدها گیگابایت متن آموزش دیدهاند.
این توکنایزرها با شکستن اصطلاحات نادر به زیرکلمات آشنا، کلمات خارج از واژگان را به زیبایی مدیریت میکنند.
با افزایش اندازه و تنوع دادههای آموزشی، عملکرد بهبود مییابد.
توکنسازی مبتنی بر قانون چیست؟
یک رویکرد سنتی که متن را با استفاده از قوانین زبانی از پیش تعریف شده، عبارات منظم و فهرستهای کلمات گزینشی، تقسیم میکند.
مرزهای توکن توسط الگوهای دستساز مانند فضای خالی، علائم نگارشی و قوانین ریختشناسی تعیین میشوند.
کتابخانههایی مانند word_tokenize از NLTK و pipelineهای مبتنی بر قانون از spaCy نمونههایی هستند که به طور گسترده مورد استفاده قرار میگیرند.
این سیستمها اغلب برای مدیریت شکل کلمات در زبانهای خاص، به فرهنگ لغتها و فهرستهای وندی متکی هستند.
رفتار کاملاً قابل پیشبینی و بررسی آن آسان است زیرا هر قانون به صراحت نوشته شده است.
آنها به هیچ داده آموزشی نیاز ندارند و میتوانند بلافاصله پس از تعریف قوانین، مستقر شوند.
جدول مقایسه
ویژگی
توکنسازی مبتنی بر داده
توکنسازی مبتنی بر قانون
رویکرد
با استفاده از روشهای آماری یا عصبی، از پیکرههای متنی بزرگ یاد میگیرد
از قوانین دستساز، الگوهای regex و دیکشنریها استفاده میکند
آموزش مورد نیاز
بله، به دادههای متنی خام یا حاشیهنویسیشدهی قابل توجهی نیاز دارد
خیر، قوانین به صورت دستی توسط توسعهدهندگان نوشته میشوند
مدیریت کلمات ناشناخته
کلمات نادر را به واحدهای زیرکلمه شناخته شده تجزیه میکند
اغلب با شکست مواجه میشود یا نیاز به بهروزرسانی دستی دیکشنری دارد
تفسیرپذیری
پایینتر، زیرا الگوهای آموختهشده در وزنهای مدل تعبیه شدهاند
والا، هر قانونی قابل خواندن و حسابرسی است
سازگاری با زبانهای جدید
به راحتی در شرکتهای جدید آموزش مجدد داده میشود
نیاز به ساخت مجموعه قوانین جدید از ابتدا دارد
هزینه محاسباتی
در طول آموزش بالاتر، در استنتاج سریع
در کل، عملکرد ضعیف، اجرا روی حداقل سختافزار
الگوریتمهای رایج
BPE، WordPiece، Unigram LM، SentencePiece
تقسیم عبارت منظم، حذف پیوست، جستجوی فرهنگ لغت
استفاده شده توسط
GPT، BERT، RoBERTa، T5 و اکثر LLM های مدرن
NLTK، خطوط لوله قانون spaCy، سیستمهای NLP قدیمی
مقایسه دقیق
چگونه متن را تقسیم میکنند
توکنسازهای دادهمحور، الگوهای فراوانی را در میلیونها جمله تجزیه و تحلیل میکنند تا تصمیم بگیرند که یک توکن کجا تمام میشود و توکن دیگر کجا شروع میشود. به عنوان مثال، BPE با کاراکترهای منفرد شروع میکند و مکرراً جفتهای مجاور پرتکرار را ادغام میکند تا به اندازه واژگان هدف برسد. در مقابل، توکنسازهای مبتنی بر قانون، یک توالی ثابت از عملیات مانند تقسیم فضای خالی، حذف علائم نگارشی یا حذف پسوندهایی مانند "-ing" و "-ed" را بر اساس جداول مورفولوژیکی از پیش تعریف شده اعمال میکنند.
برخورد با کلمات نادر و ناشناخته
یکی از بزرگترین نقاط قوت روشهای مبتنی بر داده، مدیریت دقیق کلماتی است که مدل هرگز ندیده است. یک اصطلاح پزشکی نادر مانند "pneumonoultramicroscopicsilicovolcanoconiosis" به قطعات زیرکلمه آشنا که مدل از قبل آنها را میفهمد، تجزیه میشود. سیستمهای مبتنی بر قانون معمولاً در برخورد با چنین کلماتی دچار مشکل میشوند، یا آنها را به عنوان یک توکن بزرگ باقی میگذارند یا آنها را به طور کامل حذف میکنند، مگر اینکه کسی آنها را به صورت دستی به فرهنگ لغت اضافه کند.
شفافیت و اشکالزدایی
توکنسازهای مبتنی بر قانون، شفافیت را ترجیح میدهند. یک توسعهدهنده میتواند فایل قانون را باز کند، دقیقاً نحوه تقسیم متن را بخواند و هرگونه خروجی غیرمنتظره را به یک الگوی خاص ردیابی کند. توکنسازهای مبتنی بر داده بیشتر شبیه جعبههای سیاه رفتار میکنند، جایی که ورودی یکسان همیشه خروجی یکسانی تولید میکند، اما توضیح اینکه چرا یک تقسیم خاص انتخاب شده است، نیاز به بررسی آمار آموزشی یا داخلی مدل دارد.
الزامات منابع
آموزش یک توکنساز دادهمحور نیازمند محاسبات و ذخیرهسازی قابل توجهی است و اغلب دهها گیگابایت متن را برای ساخت یک واژگان باکیفیت پردازش میکند. پس از آموزش، استنتاج سریع و فایل توکنساز کوچک است. توکنسازهای مبتنی بر قانون تقریباً به هیچ منبعی برای ساخت یا اجرا نیاز ندارند، که آنها را برای سیستمهای با تأخیر کم، دستگاههای تعبیهشده یا پروژههایی که زیرساخت آموزشی در دسترس نیست، جذاب میکند.
پوشش زبان
رویکردهای دادهمحور به طور طبیعی با آموزش مجدد روی یک مجموعه داده جدید، به زبانهای جدید مقیاسپذیر میشوند، به همین دلیل است که مدلهای چندزبانه مانند XLM-Roberta میتوانند دهها زبان را با یک توکنساز پوشش دهند. سیستمهای مبتنی بر قانون برای هر زبان جدید به تخصص زبانی نیاز دارند، زیرا قوانین پیوست، کلاسهای کاراکتر و فهرست کلمات باید توسط کسی که مورفولوژی را به خوبی میداند، ساخته شوند.
دقت در عمل
برای وظایف مدرن NLP، توکنسازهای مبتنی بر داده، در معیارهایی که شامل متن نویزدار، رسانههای اجتماعی یا کد میشوند، به طور مداوم از توکنسازهای مبتنی بر قانون بهتر عمل میکنند. توکنسازهای مبتنی بر قانون هنوز هم در حوزههای ساختاریافته مانند اسناد حقوقی یا نوشتار رسمی، که در آنها تقسیمبندی قابل پیشبینی و قوانین قابل خواندن توسط انسان، بیش از رسیدگی به موارد حاشیهای اهمیت دارند، جایگاه خود را حفظ کردهاند.
مزایا و معایب
توکنسازی مبتنی بر داده
مزایا
+کلمات ناشناخته را مدیریت میکند
+مقیاسها به زبانهای جدید
+دقت بالا
+از دادهها یاد میگیرد
مصرف شده
−نیاز به دادههای آموزشی دارد
−کمتر قابل تفسیر
−هزینه راهاندازی بالاتر
−اشکالزدایی پیچیده
توکنسازی مبتنی بر قانون
مزایا
+کاملاً شفاف
+بدون نیاز به آموزش
+هزینه محاسباتی پایین
+سفارشیسازی آسان
مصرف شده
−با کلمات نادر مشکل دارد
−کار با زبان دستی
−سازگاری محدود
−مقیاسپذیری دشوار
تصورات نادرست رایج
افسانه
توکنسازی مبتنی بر قانون منسوخ شده است و دیگر در هوش مصنوعی مدرن استفاده نمیشود.
واقعیت
توکنسازهای مبتنی بر قانون همچنان در خطوط تولید پردازش زبان طبیعی (NLP) رایج هستند، به خصوص برای مراحل پیشپردازش مانند تقسیم جمله، نرمالسازی و تشخیص زبان. بسیاری از سیستمهای مدرن به جای جایگزینی یکی با دیگری، روشهای مبتنی بر قانون و دادهمحور را با هم ترکیب میکنند.
افسانه
توکنسازی مبتنی بر داده همیشه نتایج بهتری نسبت به روشهای مبتنی بر قانون ارائه میدهد.
واقعیت
کیفیت به شدت به مجموعه آموزشی و وظیفه بستگی دارد. یک توکنساز دادهمحور با آموزش ضعیف میتواند عملکرد بدتری نسبت به یک توکنساز قانونمحور با تنظیم خوب داشته باشد، به خصوص در متنهای مختص دامنه که دادههای آموزشی با توزیع هدف مطابقت ندارند.
افسانه
توکنسازی صرفاً تقسیم متن بر اساس فاصله است.
واقعیت
توکنسازهای دنیای واقعی، علائم نگارشی، انقباضات، عبارات چند کلمهای، ایموجیها و واحدهای زیرکلمه را مدیریت میکنند. تقسیم سادهی فضای خالی، بیشتر پیچیدگیهایی را که توکنسازی برای حل آنها طراحی شده است، از دست میدهد.
افسانه
یک توکنساز دادهمحور، پس از آموزش، دیگر هرگز نیازی به بهروزرسانی ندارد.
واقعیت
با تکامل زبان، ظهور اصطلاحات عامیانه جدید و ظهور اصطلاحات خاص هر حوزه، واژگان نیز دچار تغییر میشوند. بسیاری از تیمها به صورت دورهای توکنسازهای خود را بازآموزی یا گسترش میدهند تا با تغییرات توزیع متن همگام باشند.
افسانه
همه LLM های مدرن از یک توکنایزر یکسان استفاده میکنند.
واقعیت
خانوادههای مختلف مدل از طرحهای توکنسازی متفاوتی استفاده میکنند. مدلهای GPT از BPE، BERT از WordPiece و T5 از SentencePiece استفاده میکنند. این انتخابها بر اندازه واژگان، تعداد توکنها و عملکرد پاییندستی به روشهای قابل اندازهگیری تأثیر میگذارند.
سوالات متداول
تفاوت اصلی بین توکنسازی مبتنی بر داده و مبتنی بر قانون چیست؟
توکنسازی مبتنی بر داده، قوانین تقسیمبندی را به طور خودکار از پیکرههای متنی بزرگ با استفاده از الگوریتمهایی مانند BPE یا WordPiece یاد میگیرد. توکنسازی مبتنی بر قانون، الگوهای دستساز، عبارات منظم و فرهنگ لغتهای نوشته شده توسط توسعهدهندگان را اعمال میکند. مورد اول از طریق آموزش تطبیق مییابد، در حالی که مورد دوم به دانش زبانی صریح متکی است.
مدلهای زبانی بزرگ از کدام روش توکنسازی استفاده میکنند؟
اکثر مدلهای زبانی بزرگ، از جمله GPT، BERT، RoBERTa و T5، از توکنسازی زیرکلمات مبتنی بر داده استفاده میکنند. مدلهای GPT به رمزگذاری جفت بایت، BERT از WordPiece و T5 از SentencePiece استفاده میکنند. این روشها به مدلها اجازه میدهند تا کلمات نادر و چندین زبان را به طور موثر مدیریت کنند.
آیا توکنسازی مبتنی بر قانون سریعتر از توکنسازی مبتنی بر داده است؟
در زمان استنتاج، هر دو سریع هستند، اما توکنایزرهای مبتنی بر قانون معمولاً از حافظه کمتری استفاده میکنند و نیازی به بارگذاری مدل ندارند. تفاوت سرعت بیشتر در طول راهاندازی ظاهر میشود، زیرا سیستمهای مبتنی بر قانون به طور کامل از مرحله آموزش صرف نظر میکنند و میتوانند بلافاصله مستقر شوند.
آیا توکنسازی مبتنی بر داده میتواند زبانهایی را که برای آنها آموزش ندیده است، مدیریت کند؟
نه، مگر اینکه توکنساز روی دادههای چندزبانه آموزش دیده باشد. توکنسازی که فقط روی انگلیسی آموزش دیده باشد، با اسکریپتهای چینی، عربی یا کرهای مشکل خواهد داشت. توکنسازهای چندزبانه مانند آنهایی که در XLM-Roberta استفاده میشوند، به طور خاص روی دهها زبان آموزش دیدهاند تا این مشکل را برطرف کنند.
رمزگذاری جفت بایت (BPE) چیست؟
BPE یک الگوریتم توکنسازی زیرکلمات مبتنی بر داده است که با کاراکترهای منفرد شروع میشود و مکرراً جفتهای مجاور پرتکرار را در مجموعه آموزشی ادغام میکند. پس از هزاران ادغام، واژگانی از واحدهای زیرکلمات رایج تولید میکند که اندازه واژگان را با پوشش کلمات نادر متعادل میکند.
آیا توکنسازهای مبتنی بر قانون هنوز برای وظایف مدرن پردازش زبان طبیعی (NLP) کار میکنند؟
بله، مخصوصاً برای مراحل پیشپردازش مانند تقسیمبندی جمله، نرمالسازی علائم نگارشی و شناسایی زبان. با این حال، برای ورودی مدل اصلی، اکثر سیستمهای NLP مدرن، توکنایزرهای مبتنی بر داده را ترجیح میدهند زیرا آنها به واژگان ناآشنا بهتر تعمیم میدهند.
یک توکنساز دادهمحور به چه مقدار داده آموزشی نیاز دارد؟
این بستگی به اندازه واژگان هدف و پوشش زبان دارد، اما توکنسازهای LLM معمولی روی هر محدودهای از چند گیگابایت تا چند صد گیگابایت متن آموزش داده میشوند. پیکرههای بزرگتر و متنوعتر عموماً توکنسازهایی تولید میکنند که کلمات نادر و موارد حاشیهای را با ظرافت بیشتری مدیریت میکنند.
آیا میتوانم توکنسازی مبتنی بر قانون و دادهمحور را با هم ترکیب کنم؟
کاملاً، و بسیاری از سیستمهای تولیدی این کار را انجام میدهند. یک الگوی رایج این است که ابتدا نرمالسازی مبتنی بر قانون (کوچک کردن حروف، حذف کاراکترهای ویژه، بسط انقباضات) اعمال شود و سپس متن تمیز شده برای تقسیمبندیهای نهایی به یک توکنساز زیرکلمه مبتنی بر داده داده شود.
چرا توکنسازی برای عملکرد مدل اهمیت دارد؟
توکنسازی نحوه نمایش عددی متن را تعیین میکند، که مستقیماً بر میزان توانایی مدل در یادگیری الگوها تأثیر میگذارد. توکنسازی که قطعات کوچک زیادی تولید میکند، طول متن را هدر میدهد، در حالی که توکنسازی که کلمات نادر را به صورت تک توکن نگه میدارد، ممکن است مدل را در تعمیم ناتوان کند. توکنسازی خوب، تعادلی بین اندازه واژگان و پوشش ایجاد میکند.
مشکلات رایج توکنسازهای مبتنی بر قانون چیست؟
آنها اغلب در اختصاراتی مانند "don't" شکست میخورند، کلمات با خط فاصله را به درستی مدیریت نمیکنند، با ایموجیها و URLها مشکل دارند و با ورود واژگان جدید به زبان، نیاز به بهروزرسانی مداوم دارند. آنها همچنین تمایل دارند نتایج متناقضی را در بین زبانها ایجاد کنند، مگر اینکه هر زبان مجموعه قوانین دقیق و منظم خود را داشته باشد.
حکم
هنگام ساخت سیستمهای مدرن NLP یا LLM که باید واژگان متنوع، زبانهای متعدد یا متنهای پر سر و صدای دنیای واقعی را مدیریت کنند، توکنسازی مبتنی بر داده را انتخاب کنید. توکنسازی مبتنی بر قانون را زمانی انتخاب کنید که به شفافیت کامل، حداقل محاسبات نیاز دارید یا در یک دامنه محدود کار میکنید که در آن قوانین دستساز از قبل زبان را به خوبی پوشش میدهند.