آزمایشگاه ماشینهای فکر API آموزش Tinker خود را به عرضه عمومی رسانده و سه قابلیت مهم اضافه کرده است: پشتیبانی از مدل استدلال Kimi K2، نمونهگیری سازگار با OpenAI و ورودی تصویر از طریق مدلهای زبان بینایی Qwen3-VL. این امر برای مهندسان هوش مصنوعی Tinker را به روشی عملی برای تنظیم مدلهای پیشرفته تبدیل میکند.
عملکرد Tinker چیست؟
Tinker یک API آموزش است که به تنظیم مدلهای زبانی بزرگ میپردازد و پیچیدگی آموزش توزیعشده را پنهان میکند. شما یک حلقه ساده پایتون مینویسید که روی ماشین با CPU کار میکند و دادهها یا محیط RL را تعریف میکنید. سرویس Tinker این حلقه را روی یک خوشه از GPUها اجرا میکند و محاسبهای که مشخص کردهاید را انجام میدهد.
قابلیتهای جدید Tinker
تغییر مهم در بهروزرسانی دسامبر 2025 این است که Tinker از حالت لیست انتظار خارج شده و هرکسی میتواند ثبتنام کند و مدلهای موجود را ببیند.
کاربران اکنون میتوانند مدل moonshotai/Kimi-K2-Thinking را در Tinker تنظیم کنند. این مدل استدلالی دارای حدود ۱ تریلیون پارامتر است و برای زنجیرههای طولانی فکر طراحی شده است.
ورودی تصویری با Qwen3-VL در Tinker
قابلیت اصلی دوم ورودی تصویر است. Tinker اکنون دو مدل زبان بینایی Qwen3-VL را ارائه میدهد که به صورت Vision MoE مدل شناخته میشوند.
برای ارسال یک تصویر به مدل، شما یک ModelInput ایجاد میکنید که ImageChunk را با تکههای متنی درهمآمیخته میکند. ورودیهای تصویری بهطور کامل در تنظیمات آموزشی LoRA Tinker پشتیبانی میشوند.

Qwen3-VL در مقابل DINOv2 در طبقهبندی تصاویر
برای نشان دادن قابلیتهای جدید ورودی بینایی، تیم Tinker مدل Qwen3-VL-235B-A22B-Instruct را به عنوان طبقهبندی کننده تصویر تنظیم کرد. آنها از ۴ مجموعه داده استاندارد استفاده کردند:
- Caltech 101
- Stanford Cars
- Oxford Flowers
- Oxford Pets
مدل با دریافت تصویر و تولید نام دسته به عنوان یک دنباله متنی طبقهبندی را انجام میدهد.
نتیجهگیری کلیدی
- Tinker اکنون در دسترس عموم است و هر کسی میتواند مدلهای زبانی بزرگ را با یک حلقه آموزشی پایتون تنظیم کند.
- پلتفرم از مدل استدلال Kimi K2 پشتیبانی میکند و بهعنوان یک مدل قابل تنظیم در خط تولید Tinker ارائه میشود.
- Tinker با یک رابط نمونهگیری سازگار با OpenAI، مدلها را در حالت آموزشی با استفاده از URI مدل تکیه داده شده در اختیار کاربران قرار میدهد.
- ورودی تصویری از طریق مدلهای Qwen3-VL فعال شده است.
- مدل Qwen3-VL 235B در Tinker توانسته است عملکرد بهتری در طبقهبندی تصاویر نسبت به مدل پایه DINOv2 داشته باشد.