لابراتوار ماشین‌های فکری، API آموزشی Tinker را به‌طور عمومی در دسترس قرار داده و سه قابلیت کلیدی به آن افزوده است: مدل استنتاجی Kimi K2، نمونه‌گیری سازگار با OpenAI و ورودی تصویری از طریق مدل‌های زبانی Qwen3-VL. این به مهندسان هوش مصنوعی امکان می‌دهد مدل‌های پیشرفته را بدون نیاز به ساخت زیرساخت‌های آموزشی توزیع‌شده، بهینه‌سازی کنند.

کاربردهای Tinker

Tinker یک API آموزشی است که به‌طور خاص بر تنظیم دقیق مدل‌های زبانی بزرگ تمرکز دارد. این API به شما اجازه می‌دهد با استفاده از یک حلقه ساده‌ی پایتون که روی کامپیوترهای مبتنی بر CPU اجرا می‌شود، داده یا محیط تقویتی، ضرر و منطق آموزشی را تعریف کنید. سپس این حلقه روی خوشه‌ای از GPUها اجرا می‌شود.

API مجموعه کوچکی از ابتدائیات مانند forward_backward برای محاسبه گرادیان‌ها، optim_step برای به‌روزرسانی وزن‌ها، و sample برای تولید خروجی را فراهم می‌کند. این امکانات به کاربرانی که مایل به پیاده‌سازی یادگیری نظارتی یا تقویتی هستند، اما نمی‌خواهند با مشکلات GPU سر و کار داشته باشند، کمک می‌کند.

انتشار عمومی و Kimi K2

تغییر اصلی این به‌روزرسانی این است که دیگر نیازی به لیست انتظار نیست و کاربران می‌توانند ثبت‌نام کرده و از مدل‌های موجود و قیمت‌ها به‌طور مستقیم استفاده کنند.

مدل Kimi K2 حدود یک تریلیون پارامتر دارد و برای زنجیره‌های طولانی فکر و استفاده از ابزارهای سنگین طراحی شده است.

نمونه‌گیری سازگار با OpenAI

نسخه جدید مسیر دیگری را اضافه می‌کند که با رابط تکمیل‌کننده‌های OpenAI همخوانی دارد. یک چک‌پوینت مدل در Tinker می‌تواند از طریق یک URI مشابه به آن دسترسی داشته باشد.

ورودی تصویری با Qwen3-VL

قابلیت دوم، ورودی تصویری است. Tinker دو مدل زبانی تصویری Qwen3-VL را ارائه می‌دهد که در لیست مدل‌های Tinker به عنوان مدل‌های Vision MoE در دسترس هستند.

مقایسه Qwen3-VL و DINOv2 در دسته‌بندی تصاویر

برای نشان دادن قدرت مسیر جدید تصویری، تیم Tinker مدل Qwen3-VL-235B-A22B-Instruct را به صورت یک دسته‌بند تصویر تنظیم کردند. آنها از چهار مجموعه داده‌ی استاندارد استفاده کردند:

  • Caltech 101
  • Stanford Cars
  • Oxford Flowers
  • Oxford Pets

نکات کلیدی

  1. Tinker اکنون به صورت عمومی در دسترس است و ابزارهایی برای تنظیم مدل‌های LLM باز فراهم می‌کند.
  2. پلتفرم از مدل Kimi K2 Thinking پشتیبانی می‌کند که به عنوان یک مدل استدلالی در لیست Tinker قابل تنظیم است.
  3. قابلیت نمونه‌گیری سازگار با OpenAI فراهم شده است.
  4. ورودی تصویری از طریق مدل‌های Qwen3-VL فعال است.
  5. مقایسه Qwen3-VL با DINOv2 نشان داده که مدل‌های زبانی تصویری از نظر کارایی داده بهتر عمل می‌کنند.