آزمایشگاه ماشین‌های تفکر تینکر را برای استفاده عمومی ارائه کرد: افزودن قابلیت تفکری کیمی K2 و ورودی بصری Qwen3-VL

آزمایشگاه ماشین‌های تفکر، API آموزشی تینکر را به صورت عمومی ارائه کرده و سه قابلیت جدید شامل پشتیبانی از مدل استدلالی کیمی K2، نمونه‌برداری سازگار با OpenAI و ورودی تصویری با مدل‌های زبانی Qwen3-VL را افزوده است.

تینکر چه کار می‌کند؟

تینکر، API آموزشی است که بر روی تنظیم دقیق مدل‌های زبان بزرگ تمرکز دارد و فرآیندهای پیچیده‌ی آموزشی توزیع شده را ساده می‌کند. شما تنها با یک حلقه ساده‌ی پایتون روی ماشین CPU کار می‌کنید و داده یا محیط RL، خطاها و منطق آموزشی را تعریف می‌کنید.

API، یک مجموعه کوچک از اصول را فراهم می‌آورد که شامل forward_backward برای محاسبه‌گرادیان‌ها، optim_step برای بروز رسانی وزن‌ها، sample برای تولید خروجی‌ها و توابعی برای ذخیره و بارگذاری حالت می‌باشد.

تینکر از Low Rank Adaptation یا LoRA استفاده می‌کند که برترین مدل‌ها را بهینه‌تر می‌کند و امکان آزمایش نامحدود مدل‌های پیچیده را فراهم می‌سازد.

قابلیت جدید و تفکری کیمی K2

در به‌روزرسانی دسامبر 2025، مهم‌ترین تغییر این است که تینکر حالا به همه قابل دسترسی است و هیچ لیست انتظاری وجود ندارد. کاربران می‌توانند مدل moonshotai/Kimi-K2-Thinking را روی تینکر بهینه‌سازی کنند. این مدل برای زنجیره‌های طولانی تفکر و استفاده از ابزارهای سنگین طراحی شده است.

ورودی بصری با Qwen3-VL در تینکر

قابلیت دوم، ورودی تصویری است. تینکر دو مدل زبانی بصری Qwen3-VL را در دسترس قرار داده است. کاربران می‌توانند با ترکیب ImageChunk و متن، ورودی‌ها را به مدل ارسال کنند.

Qwen3-VL در برابر DINOv2 در رده‌بندی تصاویر

تیم تینکر مدل Qwen3-VL-235B-A22B-Instruct را به‌عنوان یک رده‌بند تصویر تنظیم کرد و بر روی چهار مجموعه داده استاندارد آزمایش کرد تا کارایی مدل را نشان دهد.

Caltech 101
Stanford Cars
Oxford Flowers
Oxford Pets

مدل Qwen3-VL به عنوان یک مدل زبانی با ورودی تصویری، دسته‌بندی را به عنوان تولید متن انجام می‌دهد و برتری خود را نسبت به DINOv2 نشان می‌دهد.

نکات کلیدی

تینکر حالا به طور عمومی در دسترس است؛ بنابراین هر کسی می‌تواند مدل‌های زبان بزرگ با وزن‌های باز را تنظیم کند.
پلتفرم از مدل استدلالی کیمی K2 پشتیبانی می‌کند و آن را در دسترس می‌گذارد.
تینکر می‌تواند با استفاده از URI مدل و ابزارهای استاندارد OpenAI نمونه‌برداری کند.
ورودی تصویری با مدل‌های Qwen3-VL فعال شده است.
تینکر نشان داد که Qwen3-VL 235B کارایی بیشتری در رده‌بندی تصاویر نسبت به پایه DINOv2 دارد.