آزمایشگاه ماشینهای تفکر، API آموزشی تینکر را به صورت عمومی ارائه کرده و سه قابلیت جدید شامل پشتیبانی از مدل استدلالی کیمی K2، نمونهبرداری سازگار با OpenAI و ورودی تصویری با مدلهای زبانی Qwen3-VL را افزوده است.
تینکر چه کار میکند؟
تینکر، API آموزشی است که بر روی تنظیم دقیق مدلهای زبان بزرگ تمرکز دارد و فرآیندهای پیچیدهی آموزشی توزیع شده را ساده میکند. شما تنها با یک حلقه سادهی پایتون روی ماشین CPU کار میکنید و داده یا محیط RL، خطاها و منطق آموزشی را تعریف میکنید.
API، یک مجموعه کوچک از اصول را فراهم میآورد که شامل forward_backward برای محاسبهگرادیانها، optim_step برای بروز رسانی وزنها، sample برای تولید خروجیها و توابعی برای ذخیره و بارگذاری حالت میباشد.
تینکر از Low Rank Adaptation یا LoRA استفاده میکند که برترین مدلها را بهینهتر میکند و امکان آزمایش نامحدود مدلهای پیچیده را فراهم میسازد.
قابلیت جدید و تفکری کیمی K2
در بهروزرسانی دسامبر 2025، مهمترین تغییر این است که تینکر حالا به همه قابل دسترسی است و هیچ لیست انتظاری وجود ندارد. کاربران میتوانند مدل moonshotai/Kimi-K2-Thinking را روی تینکر بهینهسازی کنند. این مدل برای زنجیرههای طولانی تفکر و استفاده از ابزارهای سنگین طراحی شده است.
ورودی بصری با Qwen3-VL در تینکر
قابلیت دوم، ورودی تصویری است. تینکر دو مدل زبانی بصری Qwen3-VL را در دسترس قرار داده است. کاربران میتوانند با ترکیب ImageChunk و متن، ورودیها را به مدل ارسال کنند.
Qwen3-VL در برابر DINOv2 در ردهبندی تصاویر
تیم تینکر مدل Qwen3-VL-235B-A22B-Instruct را بهعنوان یک ردهبند تصویر تنظیم کرد و بر روی چهار مجموعه داده استاندارد آزمایش کرد تا کارایی مدل را نشان دهد.
- Caltech 101
- Stanford Cars
- Oxford Flowers
- Oxford Pets
مدل Qwen3-VL به عنوان یک مدل زبانی با ورودی تصویری، دستهبندی را به عنوان تولید متن انجام میدهد و برتری خود را نسبت به DINOv2 نشان میدهد.
نکات کلیدی
- تینکر حالا به طور عمومی در دسترس است؛ بنابراین هر کسی میتواند مدلهای زبان بزرگ با وزنهای باز را تنظیم کند.
- پلتفرم از مدل استدلالی کیمی K2 پشتیبانی میکند و آن را در دسترس میگذارد.
- تینکر میتواند با استفاده از URI مدل و ابزارهای استاندارد OpenAI نمونهبرداری کند.
- ورودی تصویری با مدلهای Qwen3-VL فعال شده است.
- تینکر نشان داد که Qwen3-VL 235B کارایی بیشتری در ردهبندی تصاویر نسبت به پایه DINOv2 دارد.