Firma Apple dokonała znaczącego przełomu w dziedzinie sztucznej inteligencji, wprowadzając Apple MGIE, rewolucyjny model sztucznej inteligencji o otwartym kodzie źródłowym, który umożliwia użytkownikom edytowanie obrazów za pomocą instrukcji w języku naturalnym. MGIE, skrót od MLLM-Guided Image Editing, wykorzystuje moc multimodalnych dużych modeli językowych (MLLM) do interpretowania poleceń użytkownika i wykonywania manipulacji na poziomie pikseli z niezwykłą dokładnością.
Model oferuje szeroki zakres możliwości edycji, w tym modyfikację w stylu Photoshopa, globalną optymalizację zdjęć i edycję lokalną. Oznacza to, że użytkownicy mogą łatwo ulepszać swoje obrazy za pomocą prostego polecenia tekstowego, co daje im możliwość tworzenia edycji o profesjonalnej jakości bez konieczności posiadania rozległej wiedzy w zakresie edycji zdjęć.
Rozwój MGIE jest wynikiem przełomowej współpracy firmy Apple z zespołem badaczy z Uniwersytetu Kalifornijskiego w Santa Barbara. Modelka była przedstawione w artykule badawczym zaakceptowane na prestiżowej Międzynarodowej Konferencji na temat reprezentacji uczenia się (ICLR) 2024, wiodącej platformie badań nad sztuczną inteligencją. Artykuł ukazuje imponującą skuteczność MGIE w ulepszaniu automatycznych wskaźników i ocen dokonywanych przez ludzi, przy jednoczesnym zachowaniu wydajności wnioskowania konkurencyjnego.
Co to jest Apple MGIE?
Apple MGIE to rewolucyjny system do edycji obrazów, który wykorzystuje uczenie maszynowe, aby umożliwić użytkownikom edycję obrazów przy użyciu instrukcji w języku naturalnym. Ta innowacyjna technologia pozwala użytkownikom po prostu opisać pożądane zmiany w obrazie, a MGIE automatycznie zastosuje modyfikacje, eliminując potrzebę stosowania skomplikowanych narzędzi do edycji lub menu.
Podobnie jak inne najnowocześniejsze narzędzia do tworzenia obrazów AI, takie jak Midjourney, StableDiffusion i DALL-E, Apple MGIE wypełnia lukę między ludzkimi intencjami a manipulacją obrazem. Wykorzystując możliwości uczenia się multimodalnego, MGIE może zrozumieć zarówno informacje wizualne (sam obraz), jak i informacje tekstowe (instrukcje użytkownika), co pozwala na wykonywanie manipulacji na poziomie pikseli z niezwykłą dokładnością.
Apple MGIE to rewolucja w dziedzinie edycji obrazów, zapewniająca przyjazny dla użytkownika i skuteczny sposób ulepszania obrazów i manipulowania nimi. Niezależnie od tego, czy jesteś profesjonalnym fotografem, grafikiem, czy osobą wpływającą na media społecznościowe, MGIE może pomóc Ci stworzyć wspaniałe zdjęcia, które pozostawią trwałe wrażenie na Twoich odbiorcach.
Jak działa Apple MGIE?
Apple MGIE wykorzystuje przetwarzanie języka naturalnego i uczenie maszynowe, aby umożliwić użytkownikom edycję obrazów za pomocą prostych, opisowych poleceń. System działa na zasadzie zrozumienia intencji użytkownika, a następnie manipulacji obrazem w celu dokładnego odzwierciedlenia pożądanych zmian.
Oto zestawienie przepływu pracy MGIE:
- Wprowadzanie poleceń: użytkownik opisuje pożądane zmiany prostym językiem angielskim, np. „Uczyń niebo na tym obrazku bardziej błękitnym” lub „Usuń czerwony samochód z tego zdjęcia”
- Zrozumienie intencji: Zaawansowany model języka MGIE odszyfrowuje instrukcje użytkownika, identyfikując konkretne obiekty, atrybuty i pożądane modyfikacje
- Wizualne zrozumienie: Jednocześnie MGIE analizuje obraz, identyfikując kluczowe elementy i ich relacje
- Edycja z przewodnikiem: Łącząc zrozumienie językowe i wizualne, MGIE inteligentnie manipuluje obrazem, aby dokładnie odzwierciedlał polecenia użytkownika. Nie podąża ślepo za instrukcjami, ale potrafi interpretować kontekst i wprowadzać rozsądne zmiany
Podstawową koncepcją MGIE jest wypełnienie luki pomiędzy ludzkimi intencjami a manipulacją obrazem, dzięki czemu edycja obrazu staje się bardziej dostępna i wydajna dla każdego. Dzięki MGIE użytkownicy mogą łatwo ulepszać obrazy i manipulować nimi za pomocą prostych poleceń w języku naturalnym, otwierając nowe możliwości twórczej ekspresji i komunikacji.
Jak korzystać z Apple MGIE
Aby korzystać z MGIE, użytkownicy mogą uzyskać dostęp do projektu open source w serwisie GitHub, który zapewnia pełny dostęp do kodu źródłowego, danych szkoleniowych i wstępnie wytrenowanych modeli. Pozwala to programistom i badaczom zrozumieć jego wewnętrzne działanie i potencjalnie przyczynić się do ulepszeń. Dodatkowo, A notes demonstracyjny jest dostępny w serwisie GitHub, prowadząc użytkowników przez różne zadania edycyjne, korzystając z instrukcji w języku naturalnym. Służy to jako praktyczne wprowadzenie do możliwości MGIE.
Aby szybko i wygodnie wypróbować MGIE, użytkownicy mogą również eksperymentować z systemem poprzez: demo internetowe hostowane w Hugging Face Spaces. Ta platforma internetowa umożliwia użytkownikom korzystanie z systemu bez konieczności lokalnej konfiguracji.
MGIE przyjmuje opinie użytkowników i pozwala na udoskonalenie edycji lub zażądanie różnych modyfikacji. To iteracyjne podejście gwarantuje, że wygenerowane zmiany będą zgodne z artystyczną wizją użytkownika.
Chociaż MGIE jest wciąż w fazie rozwoju, projekt typu open source sprawia, że jest on dostępny dla szerokiego grona użytkowników i współpracowników. Trwające badania i wkład użytkowników ukształtują jego przyszłe możliwości i potencjalne zastosowania, czyniąc z niego ekscytującą i szybko rozwijającą się technologię w dziedzinie edycji obrazów.
Autor wyróżnionego obrazu: pvproductions/Freepik.
Source: Apple MGIE oznacza ciche wejście technologicznego giganta do sektora sztucznej inteligencji