Alibaba، غول فناوری چینی، مدل جدید هوش مصنوعی از سری Qwen به نام QVQ-Max را معرفی کرد. این مدل استدلالگر تصویر است و میتواند محتوای عکسها و فیلمها را درک کند و با تحلیل و استدلال، اطلاعاتی درباره آنها ارائه دهد.
براساس گزارش >>Neowin، علیبابا میگوید با مدل QVQ-Max شکاف مدلهای هوش مصنوعی مبتنیبر متن و اطلاعات دنیای واقعی در تصاویر را پر میکند. این هوش مصنوعی با قابلیت استدلال بصری میتواند واقعیتهای جهان را ببیند، بفهمد و درباره آنها فکر کند. این شرکت چینی ادعا میکند این مدل در تجزیهوتحلیل تصاویر و شناسایی عناصر کلیدی عملکرد خیلی خوبی دارد و در مواردی میتوان از آن برای تصویرسازی و تولید فیلمنامه نیز استفاده کرد.
هوش مصنوعی استدلالگر تصویری Alibaba
مانند سایر چتباتهای هوش مصنوعی، QVQ-Max نیز میتواند در کارهای مختلف کمکتان کند و با اضافه شدن این قابلیت تصویری میتوانید کارهای بیشتری را به آن بسپارید؛ برای مثال عکس مسائل ریاضی و فیزیک همراه نمودارها را برایش بفرستید.
علیبابا QVQ-Max را اولین نسخه از مدل استدلالگر تصویری خود نامیده است و بهمرور میخواهد آن را در چندین مرحله بهبود دهد. ابتدا Alibaba میخواهد دقت تشخیص تصویر را بهبود ببخشد. سپس مدل را در حل مسائل چندمرحلهای و پیچیده بهتر کند. درنهایت قصد دارد این مدل را از تعاملات مبتنیبر متن فراتر برده و آن را به قابلیتهایی مثل تولید بصری مجهز کند.
برای استفاده از QVQ-Max، ابتدا باید به >>chat.qwen.ai بروید، روی منوی مدلها در بالا سمت چپ کلیک کنید، گزینه «Expand more models» را بزنید و QVQ-Max را انتخاب کنید. برای آنکه بهتر از قابلیتهای این مدل استفاده کنید، بهتر است تصویری را پیوست کنید سپس از مدل درباره آن سؤال کنید.
علیبابا چندی قبل نیز >>مدل Qwen2.5-Max را منتشر کرد که در بنچمارکهای مختلف از مدل V3 دیپسیک، GPT-4o و Llama-3.1-405B متا بهتر عمل میکند.