نگار علی- شرکت نوپای چینی دیپسیک (DeepSeek) که در زمینه هوش مصنوعی فعالیت میکند، رویکرد نوینی را برای بهبود تواناییهای استدلالی مدلهای زبانی بزرگ (LLMs) معرفی کرده است. این در حالی است که مردم با اشتیاق منتظر انتشار مدل نسل بعدی این شرکت هستند. دیپسیک با همکاری محققان دانشگاه تسینگهوا، تکنیکی را توسعه داده که ترکیبی از روشهای مدلسازی پاداش مولد (GRM) و تنظیم نقد خوداصلمحور است.
*«نقد خوداصلمحور» یکی از روشهایی است که شرکت دیپسیک در همکاری با دانشگاه تسینگهوا برای بهبود عملکرد مدلهای زبانی بزرگ (LLMs) توسعه داده است. این تکنیک بخشی از رویکرد دوگانهای است که با مدلسازی پاداش مولد (GRM) ترکیب شده تا مدلها بتوانند پاسخهای دقیقتر و سریعتری به پرسوجوهای عمومی ارائه دهند. در این روش، مدل بهگونهای تنظیم میشود که بر اساس اصول درونی خود، خروجیهایش را ارزیابی و اصلاح کند. به عبارت دیگر، این فرآیند به مدل اجازه میدهد تا بهصورت خودکار نقاط ضعف یا خطاهای احتمالی در استدلال خود را شناسایی کرده و آنها را بهبود ببخشد، بدون اینکه صرفاً به بازخورد خارجی وابسته باشد. این رویکرد به هدایت مدل به سمت ترجیحات انسانی و افزایش کارایی آن کمک میکند.
این روش دوگانه، که جزئیات آن در مقالهای روز جمعه منتشر شد، با هدف ارائه پاسخهای بهتر و سریعتر به پرسوجوهای عمومی توسط مدلهای زبانی بزرگ طراحی شده است.
بر اساس گزارش محققان، مدلهای DeepSeek-GRM که از این روش بهره میبرند، عملکرد بهتری نسبت به روشهای موجود نشان دادهاند و به سطح رقابتی با مدلهای پاداش عمومی قدرتمند دست یافتهاند. مدلسازی پاداش فرایندی است که مدلهای زبانی را به سمت ترجیحات انسانی هدایت میکند. دیپسیک قصد دارد این مدلهای GRM را بهصورت متنباز در دسترس عموم قرار دهد، هرچند هنوز جدول زمانی مشخصی برای این کار اعلام نشده است.
این مقاله علمی که در بخش آنلاین مقالات علمی arXiv منتشر شده، در حالی ارائه میشود که گمانهزنیها درباره گام بعدی این شرکت نوپا پس از جلب توجه جهانی با مدل پایه V3 و مدل استدلالی R1 بالا گرفته است. بنا بر گزارش رویترز در ماه گذشته، مدل DeepSeek-R2، که جانشین R1 محسوب میشود، ممکن است همین ماه منتشر شود. دیپسیک با عجله در تلاش است تا از افزایش شهرت خود بهرهبرداری کند. انتشار DeepSeek-R1 با عملکرد مقرونبهصرفهاش که با مدلهای پیشرو رقابت میکرد، جامعه فناوری جهانی را تحت تأثیر قرار داد.
با این حال، دیپسیک درباره شایعات مربوط به انتشار R2 سکوت اختیار کرده و از طریق کانالهای رسمی عمومی اظهارنظری نکرده است. البته ماه گذشته، یک حساب خدمات مشتریان این شرکت در چت گروهی با مشتریان تجاری، این گزارش را تکذیب کرد؛ خبری که رسانههای چینی آن را منتشر کردند. دیپسیک هنوز به درخواست اظهارنظر در روز جمعه پاسخی نداده است.
دیپسیک که در شهر هانگژو مستقر است و در سال ۲۰۲۳ توسط کارآفرین لیانگ ونفنگ تأسیس شده، در چند ماه اخیر در مرکز توجه جهانی قرار گرفته، اما این شرکت ترجیح داده بهجای ارتباط عمومی، تمرکز خود را بر تحقیق و توسعه بگذارد.
منبع: scmp
۲۲۷۲۲۷
نظر شما