Firma Microsoft ogłosiła MAI-Image-1, swój pierwszy model generowania obrazu opracowany całkowicie we własnym zakresie. Firma oświadczyła, że model będzie dostępny w Copilot i Bing Image Creator „już wkrótce”, a obecnie jest dostępny do testów na LMArena, platformie, na której użytkownicy oceniają dwa anonimowe chatboty i głosują na najlepszą odpowiedź. W rankingu LMArena dotyczącym przetwarzania tekstu na obraz MAI-Image-1 zajął dziewiąte miejsce, uzyskując wynik 1096 punktów. Dla porównania Google Gemini-2.5-Flash, znany również jako Nano-Banana, zdobył 1154 punkty i zajmuje drugie miejsce, podczas gdy model OpenAI zdobył 1123 punkty i uplasował się na siódmej pozycji. Na czele tabeli liderów stoi Hunyuan-image-3.0, model opracowany przez chińską firmę technologiczną Hunyuan. Microsoft stwierdził, że jego zespół programistów skupił się na unikaniu powtarzających się lub ogólnie stylizowanych wyników za pomocą MAI-Image-1. „Na przykład nadaliśmy priorytet rygorystycznej selekcji danych i szczegółowej ocenie skupionej na zadaniach, które ściśle odzwierciedlają rzeczywiste przypadki kreatywnego użycia” – wyjaśniła firma, dodając, że uwzględniła opinie profesjonalistów z branż kreatywnych. Według doniesień model doskonale radzi sobie z generowaniem krajobrazów i fotorealistycznych obrazów. Jego wydajność jest znana z dokładnego rejestrowania szczegółów, takich jak oświetlenie, cienie i odbicia, szczególnie w porównaniu z „wieloma większymi, wolniejszymi modelami”. Oprócz MAI-Image-1 firma Microsoft opracowała inne modele wewnętrzne, w tym MAI-Voice-1 do generowania mowy naturalnej i serię małych modeli językowych Phi przeznaczonych do wydajnych zadań wnioskowania. Ten rozwój wewnętrzny następuje równolegle z ciągłym wsparciem finansowym i infrastrukturalnym firmy dla OpenAI. Dziedzina generowania obrazów AI przeżywa obecnie okres dużej aktywności. Model OpenAI zyskał ostatnio popularność dzięki możliwości naśladowania stylu graficznego Studio Ghibli, a „Nano-Banana” firmy Google został doceniony za zaawansowane możliwości edycji. Korzystając z LMArena, AIM przeprowadził porównanie MAI-Image-1 firmy Microsoft, Gemini-2.5-Flash firmy Google i GPT-image-1 OpenAI. Modele testowano z podpowiedzią przedstawiającą dwie osoby w kawiarni przy oknie późnym popołudniem. Ocena skupiała się na tym, jak każdy model radził sobie z mieszanym oświetleniem, odbiciami i realizmem cieni. Użytkownicy mogą odwiedzić LMArena, aby przetestować te modele za pomocą podobnych podpowiedzi.

Microsoft przedstawia MAI-Image-1 dla Copilot
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft przedstawia Surface RTX Spark Dev Box do zaawansowanych obciążeń AI
Surface RTX Spark Dev Box firmy Microsoft łączy układ NVIDIA RTX Spark z pamięcią do 128 GB, aby...
X uruchamia funkcję „Reaguj za pomocą wideo” dla użytkowników iOS
X uruchamia funkcję „Reaguj za pomocą wideo” na iOS, umożliwiającą użytkownikom publikowanie filmów z reakcjami w stylu TikTok...
Microsoft przedstawia Project Solara, który będzie zasilał urządzenia nowej generacji przeznaczone dla agentów
Project Solara wprowadza przetwarzanie oparte na agentach, które łączy oprogramowanie i sprzęt w celu tworzenia wyspecjalizowanych, spersonalizowanych i...
Google udostępnia czerwcową aktualizację Androida z nowymi funkcjami bezpieczeństwa i udostępniania
Czerwcowa aktualizacja Androida wprowadza nowe narzędzia personalizacji, stylowe aktualizacje i ulepszone funkcje bezpieczeństwa, które pomagają użytkownikom zachować bezpieczeństwo...




