مدل هوش مصنوعی جدید اپل میتواند تصاویر را به صحنههای سهبعدی تبدیل کند

کد منبع این مدل هماکنون در گیتهاب در دسترس است.
اپل از مدل هوش مصنوعی جدیدی به نام Matrix3D رونمایی کرده که به کاربران اجازه میدهد تصاویر خود را به صحنههای سهبعدی تبدیل کنند.
به گزارش 9to5mac، این مدل هوش مصنوعی نتیجه همکاری تیم یادگیری ماشینی اپل با محققان دانشگاه نانجینگ و دانشگاه علوم و فناوری هنگکنگ است. مدل Matrix3D که به مدل فتوگرامتری بزرگ معروف نیز است، میتواند فقط با چند عکس دوبعدی اشیا و صحنههای سهبعدی را بازسازی کند اما با مدلهای فعلی تفاوت نسبتاً زیادی دارد.
مدل هوش مصنوعی Matrix3D اپل توانایی چشمگیری در خلق صحنههای سهبعدی دارد

ابتدا باید تعریف و کاربرد فتوگرامتری را بدانید. این فناوری از عکسها برای اندازهگیری استفاده میکند تا مدلهای سهبعدی یا نقشهها را ایجاد کند. درحالحاضر، این فرایند شامل استفاده از مدلهای جداگانه برای مراحلی مانند تخمین موقعیت دوربین (pose estimation) و پیشبینی عمق (depth prediction) است. البته این روش خطای زیادی نیز میتواند داشته باشد.
اینجاست که کاربرد Matrix3D مشخص میشود. این مدل همه مراحل را یکپارچه انجام میدهد و ورودیهایی مانند تصاویر، پارامترهای دوربین (مثل زاویه و فاصله کانونی) و دادههای عمق را میگیرد سپس با استفاده از معماری واحد آنها را پردازش میکند. این رویکرد نهفقط جریان کاری را سادهتر میکند، بلکه دقت نهایی را نیز افزایش میدهد.
آموزش Matrix3D نیز در نوع خود بسیار جالب است. محققان برای آموزش این مدل از استراتژی Masked learning استفاده کردهاند. این روش شباهت زیادی به سیستمهای اولیه مبتنیبر Transformer دارد که پایهگذار نسخههای اولیه ChatGPT بوده است.
در این روش، بخشهایی از دادههای ورودی تصادفی در فرایند آموزش از دسترس مدل پنهان میشوند. این کار باعث میشود Matrix3D مجبور شود نحوه تکمیل بخشهای ناقص را یاد بگیرد. این تکنیک بسیار مهم است؛ زیرا به مدل امکان میدهد حتی با مجموعهدادههای کوچک یا ناقص نیز مؤثر آموزش ببیند.
نتیجه این روش آموزشی فوقالعاده چشمگیر بوده است. مدل Matrix3D با فقط 3 تصویر ورودی میتواند بازسازیهای سهبعدی دقیقی از اشیا و حتی کل محیطها تولید کند. این قابلیت میتواند کاربردهای بسیار جالبی برای هدستهای واقعیت ترکیبی اپل ویژن پرو داشته باشد.
کد منبع Matrix3D در گیتهاب منتشر شده و مقاله مربوط به آن را نیز در arXiv در دسترس است. همچنین از طریق سایت اختصاصی این مدل میتوانید نمونه ویدیوهای آن را تماشا کنید.