آزمایشگاه ماشین‌های فکر API آموزش Tinker خود را به عرضه عمومی رسانده و سه قابلیت مهم اضافه کرده است: پشتیبانی از مدل استدلال Kimi K2، نمونه‌گیری سازگار با OpenAI و ورودی تصویر از طریق مدل‌های زبان بینایی Qwen3-VL. این امر برای مهندسان هوش مصنوعی Tinker را به روشی عملی برای تنظیم مدل‌های پیشرفته تبدیل می‌کند.

عملکرد Tinker چیست؟

Tinker یک API آموزش است که به تنظیم مدل‌های زبانی بزرگ می‌پردازد و پیچیدگی آموزش توزیع‌شده را پنهان می‌کند. شما یک حلقه ساده پایتون می‌نویسید که روی ماشین با CPU کار می‌کند و داده‌ها یا محیط RL را تعریف می‌کنید. سرویس Tinker این حلقه را روی یک خوشه از GPUها اجرا می‌کند و محاسبه‌ای که مشخص کرده‌اید را انجام می‌دهد.

قابلیت‌های جدید Tinker

تغییر مهم در به‌روزرسانی دسامبر 2025 این است که Tinker از حالت لیست انتظار خارج شده و هرکسی می‌تواند ثبت‌نام کند و مدل‌های موجود را ببیند.

کاربران اکنون می‌توانند مدل moonshotai/Kimi-K2-Thinking را در Tinker تنظیم کنند. این مدل استدلالی دارای حدود ۱ تریلیون پارامتر است و برای زنجیره‌های طولانی فکر طراحی شده است.

ورودی تصویری با Qwen3-VL در Tinker

قابلیت اصلی دوم ورودی تصویر است. Tinker اکنون دو مدل زبان بینایی Qwen3-VL را ارائه می‌دهد که به صورت Vision MoE مدل شناخته می‌شوند.

برای ارسال یک تصویر به مدل، شما یک ModelInput ایجاد می‌کنید که ImageChunk را با تکه‌های متنی درهم‌آمیخته می‌کند. ورودی‌های تصویری به‌طور کامل در تنظیمات آموزشی LoRA Tinker پشتیبانی می‌شوند.

Qwen3-VL در مقابل DINOv2 در طبقه‌بندی تصاویر

برای نشان دادن قابلیت‌های جدید ورودی بینایی، تیم Tinker مدل Qwen3-VL-235B-A22B-Instruct را به عنوان طبقه‌بندی کننده تصویر تنظیم کرد. آن‌ها از ۴ مجموعه داده استاندارد استفاده کردند:

  • Caltech 101
  • Stanford Cars
  • Oxford Flowers
  • Oxford Pets

مدل با دریافت تصویر و تولید نام دسته به عنوان یک دنباله متنی طبقه‌بندی را انجام می‌دهد.

نتیجه‌گیری کلیدی

  1. Tinker اکنون در دسترس عموم است و هر کسی می‌تواند مدل‌های زبانی بزرگ را با یک حلقه آموزشی پایتون تنظیم کند.
  2. پلتفرم از مدل استدلال Kimi K2 پشتیبانی می‌کند و به‌عنوان یک مدل قابل تنظیم در خط تولید Tinker ارائه می‌شود.
  3. Tinker با یک رابط نمونه‌گیری سازگار با OpenAI، مدل‌ها را در حالت آموزشی با استفاده از URI مدل تکیه داده شده در اختیار کاربران قرار می‌دهد.
  4. ورودی تصویری از طریق مدل‌های Qwen3-VL فعال شده است.
  5. مدل Qwen3-VL 235B در Tinker توانسته است عملکرد بهتری در طبقه‌بندی تصاویر نسبت به مدل پایه DINOv2 داشته باشد.