Firma Microsoft ogłosiła MAI-Image-1, swój pierwszy model generowania obrazu opracowany całkowicie we własnym zakresie. Firma oświadczyła, że ​​model będzie dostępny w Copilot i Bing Image Creator „już wkrótce”, a obecnie jest dostępny do testów na LMArena, platformie, na której użytkownicy oceniają dwa anonimowe chatboty i głosują na najlepszą odpowiedź. W rankingu LMArena dotyczącym przetwarzania tekstu na obraz MAI-Image-1 zajął dziewiąte miejsce, uzyskując wynik 1096 punktów. Dla porównania Google Gemini-2.5-Flash, znany również jako Nano-Banana, zdobył 1154 punkty i zajmuje drugie miejsce, podczas gdy model OpenAI zdobył 1123 punkty i uplasował się na siódmej pozycji. Na czele tabeli liderów stoi Hunyuan-image-3.0, model opracowany przez chińską firmę technologiczną Hunyuan. Microsoft stwierdził, że jego zespół programistów skupił się na unikaniu powtarzających się lub ogólnie stylizowanych wyników za pomocą MAI-Image-1. „Na przykład nadaliśmy priorytet rygorystycznej selekcji danych i szczegółowej ocenie skupionej na zadaniach, które ściśle odzwierciedlają rzeczywiste przypadki kreatywnego użycia” – wyjaśniła firma, dodając, że uwzględniła opinie profesjonalistów z branż kreatywnych. Według doniesień model doskonale radzi sobie z generowaniem krajobrazów i fotorealistycznych obrazów. Jego wydajność jest znana z dokładnego rejestrowania szczegółów, takich jak oświetlenie, cienie i odbicia, szczególnie w porównaniu z „wieloma większymi, wolniejszymi modelami”. Oprócz MAI-Image-1 firma Microsoft opracowała inne modele wewnętrzne, w tym MAI-Voice-1 do generowania mowy naturalnej i serię małych modeli językowych Phi przeznaczonych do wydajnych zadań wnioskowania. Ten rozwój wewnętrzny następuje równolegle z ciągłym wsparciem finansowym i infrastrukturalnym firmy dla OpenAI. Dziedzina generowania obrazów AI przeżywa obecnie okres dużej aktywności. Model OpenAI zyskał ostatnio popularność dzięki możliwości naśladowania stylu graficznego Studio Ghibli, a „Nano-Banana” firmy Google został doceniony za zaawansowane możliwości edycji. Korzystając z LMArena, AIM przeprowadził porównanie MAI-Image-1 firmy Microsoft, Gemini-2.5-Flash firmy Google i GPT-image-1 OpenAI. Modele testowano z podpowiedzią przedstawiającą dwie osoby w kawiarni przy oknie późnym popołudniem. Ocena skupiała się na tym, jak każdy model radził sobie z mieszanym oświetleniem, odbiciami i realizmem cieni. Użytkownicy mogą odwiedzić LMArena, aby przetestować te modele za pomocą podobnych podpowiedzi.

  Czy cena Starlink jest wystarczająco niska dla globalnej sieci internetowej?

Source: Microsoft przedstawia MAI-Image-1 dla Copilot