به گزارش خبرگزاری خبرآنلاین و براساس گزارش هوشیو، این اشتباه فنی تجربهی کاربری را مختل میکند و پرسشهای مهمی دربارهی شیوهی پردازش زبان در مدلهای هوش مصنوعی بهوجود آورده است. در ادامه، علل اصلی این مشکل و راهحلهای موقتی را به زبانی ساده و با مثال توضیح میدهیم.
فرض کنید شما پیام «سلام» را در چتبات تایپ میکنید، اما خروجی بهصورت «你好» ظاهر میشود!
علتها
۱. سوئیچ ناگهانی در توکنسازی
مدلهای بزرگ زبانی مثل ChatGPT و Claude روی دادههای چندزبانه آموزش دیدهاند. در فرایند «توکنسازی» (شکستن متن به واحدهای پردازشی)، زبان چینی بهدلیل فراوانی بالا در دادهها و ساختار خاص هر کاراکتر، موقع ابهام یا ورودی ناقص بهسرعت جایگزین فارسی یا انگلیسی میشود.
۲. ساختار فشردهی زبان چینی
برخلاف فارسی و انگلیسی، چینی بین کلمات فاصله ندارد و هر کاراکتر میتواند کلمه یا بخش معنیدار باشد. بیشتر توکنایزرها برای زبانهای فاصلهدار طراحی شدهاند؛ پس اگر مدل وارد تولید متن چینی شود، زنجیرهای از همان کاراکترها را سریع تولید میکند.
۳. مشکل کدگذاری متن (Mojibake)
گاهی خود نرمافزار یا مرورگر متن را با کدگذاری اشتباه (مثلاً ذخیره با UTF-8 و خواندن با GBK) نمایش میدهد. در این حالت بهجای حروف فارسی/انگلیسی، «کاراکترهای بیمعنی» (اغلب چینی) دیده میشوند.
۴. بایاس در دادههای آموزشی
بخش قابلتوجهی از دادههای آموزشی LLMها به زبانهای انگلیسی و چینی اختصاص دارد. روشهای فشردهسازی مثل Byte-Pair Encoding یا WordPiece در زبان چینی ممکن است توکنهای اضافی یا غلط تولید کنند. وقتی ورودی ناکام است، مدل به سراغ زبانی میرود که توکنهایش در آموزش بیشتر بودهاند.
۵. ناپایداری در زمان دودلی
تحقیقات نشان میدهد در شرایط خطا یا دودلی، مدلهای چندزبانه به زبانهای پرتکرار و کمپشتیبانی مثل چینی سوئیچ میکنند و خروجی نامربوط تولید میکنند.
راهحلهای فعلی
۱. بهروزرسانی توکنایزر
استفاده از نسخههای جدید توکنایزر (مثلاً cl100k_base) که کاراکترهای پرتکرار چینی را در یک توکن واحد قرار میدهند و از تولید ناگهانی زنجیرهای جلوگیری میکنند.
۲. حذف حالت slow tokenizer
در برخی مدلهای متنباز، زیرتوکنهای کمآموزشدیده با غیرفعال کردن حالت «slow tokenizer» از چرخه خروجی حذف میشوند.
۳.اصلاح قالببندی گفتوگو
با تنظیم دقیق پارامترهای قالببندی و حذف فاصلههای اضافی بین نقشها (مثلاً کاربر و مدل)، احتمال سوئیچ ناخواسته کاهش یافته است.
۴. پیشنوشت صریح برای محدود کردن زبان
بسیاری از توسعهدهندگان قبل از ورودی کاربر از عبارتهایی مثل «لطفاً فقط به فارسی پاسخ دهید» استفاده میکنند تا مدل در یک زبان مشخص بماند.
جمعبندی
با وجود راهحلهای موضعی، این باگ هنوز در سرویسهای بزرگ (مثل نسخه رسمی ChatGPT) گهگاه دیده میشود و تولیدکنندگان اصلی بیانیهای برای رفع کامل آن ندادهاند. تا زمان ارائه یک توکنایزر و معماری یکپارچه که ابهامات چندزبانه را برطرف کند، توصیه میشود:
در هنگام بروز مشکل، از پیشنوشت صریح برای تعیین زبان خروجی استفاده کنید.
منتظر بهروزرسانیهای رسمی بمانید تا اصلاح اساسی در سطح مدل انجام شود.
۲۲۷۲۲۷
نظر شما