دوشنبه، 26 خرداد، 1404

علی‌بابا چین مدل هوش مصنوعی استدلالگر تصویری معرفی کرد

Alibaba، غول فناوری چینی، مدل جدید هوش مصنوعی از سری Qwen به نام QVQ-Max را معرفی کرد. این مدل استدلالگر تصویر است و می‌تواند محتوای عکس‌ها و فیلم‌ها را درک کند و با تحلیل و استدلال، اطلاعاتی درباره آنها ارائه دهد.

براساس گزارش >>Neowin، علی‌بابا می‌گوید با مدل QVQ-Max شکاف مدل‌های هوش مصنوعی مبتنی‌بر متن و اطلاعات دنیای واقعی در تصاویر را پر می‌کند. این هوش مصنوعی با قابلیت استدلال بصری می‌تواند واقعیت‌های جهان را ببیند، بفهمد و درباره آنها فکر کند. این شرکت چینی ادعا می‌کند این مدل در تجزیه‌وتحلیل تصاویر و شناسایی عناصر کلیدی عملکرد خیلی خوبی دارد و در مواردی می‌توان از آن برای تصویرسازی و تولید فیلم‌نامه نیز استفاده کرد.

هوش مصنوعی استدلالگر تصویری Alibaba

مانند سایر چت‌بات‌های هوش مصنوعی، QVQ-Max نیز می‌تواند در کارهای مختلف کمکتان کند و با اضافه شدن این قابلیت تصویری می‌توانید کارهای بیشتری را به آن بسپارید؛ برای مثال عکس مسائل ریاضی و فیزیک همراه نمودارها را برایش بفرستید.

علی‌بابا QVQ-Max را اولین نسخه از مدل استدلالگر تصویری خود نامیده است و به‌مرور می‌خواهد آن را در چندین مرحله بهبود دهد. ابتدا Alibaba می‌خواهد دقت تشخیص تصویر را بهبود ببخشد. سپس مدل را در حل مسائل چندمرحله‌ای و پیچیده بهتر کند. درنهایت قصد دارد این مدل را از تعاملات مبتنی‌بر متن فراتر برده و آن را به قابلیت‌هایی مثل تولید بصری مجهز کند.

برای استفاده از QVQ-Max، ابتدا باید به >>chat.qwen.ai بروید، روی منوی مدل‌ها در بالا سمت چپ کلیک کنید، گزینه «Expand more models» را بزنید و QVQ-Max را انتخاب کنید. برای آنکه بهتر از قابلیت‌های این مدل استفاده کنید، بهتر است تصویری را پیوست کنید سپس از مدل درباره آن سؤال کنید.

علی‌بابا چندی قبل نیز >>مدل Qwen2.5-Max را منتشر کرد که در بنچمارک‌های مختلف از مدل V3 دیپ‌‌سیک، GPT-4o و Llama-3.1-405B متا بهتر عمل می‌کند.

2 ماه پیش

دسته‌بندی‌ها