Model Meta ImageBind AI otwiera nowe możliwości w generatywnej sztucznej inteligencji

Nowy model Meta ImageBind AI typu open source, który łączy ze sobą wiele strumieni danych, takich jak tekst, dźwięk, dane wizualne, odczyty temperatury i odczyty ruchu, została upubliczniona przez Meta.

Model jest obecnie tylko przedsięwzięciem badawczym bez bezpośrednich zastosowań konsumenckich lub praktycznych, ale sugeruje przyszłość generatywną systemy sztucznej inteligencji które mogą generować wciągające, wielozmysłowe wrażenia. Pokazuje również, jak otwarcie Meta nadal dzieli się swoimi badaniami nad sztuczną inteligencją w przeciwieństwie do konkurentów takich jak OpenAI I Googlez których oba stały się bardziej samotne.

Główną ideą badania jest integracja kilku rodzajów danych w jeden wielowymiarowy indeks (lub „osadzanieprzestrzeń,” używać żargon sztucznej inteligencji). Chociaż w tym momencie może to zabrzmieć trochę abstrakcyjnie, fundamentalne pojęcie stojące za niedawnym wzrostem generatywnej sztucznej inteligencji jest takie samo.

Czym jest Meta ImageBind AI?

Na przykład w fazie szkolenia szereg generatorów obrazów AI, w tym DALEJ–mi, StabilnyDyfuzjaI W połowie podróżypolegać na tych systemach. Odnosząc te dane do opisów zdjęć, poszukują wzorców w danych wizualnych. Dzięki temu systemy te mogą tworzyć obrazy, które odpowiadają wprowadzanym tekstom przez użytkowników. Liczne technologie sztucznej inteligencji wytwarzają również wideo lub dźwięk w podobny sposób.

Pozew Siri o prywatność kontra Apple: Czy asystenci głosowi powinni znać Twoją osobistą działalność?

Według Meta ImageBind AI to pierwszy model do integracji sześć różnychformy danych w jedną przestrzeń osadzania. Wizualne (w formie obrazu i wideo), termiczne (obrazy w podczerwieni), tekstowe, dźwiękowe, informacje o głębi i — co najbardziej intrygujące — pomiary ruchu wytwarzane przez inercyjną jednostkę pomiarową (IMU) to sześć kategorii danych, które są uwzględniane w modelu.

IMU są używane w telefonach i smartwatchach do różnych funkcji, w tym do przełączania telefonu z trybu poziomego do pionowego i identyfikowania różnych form fizycznydziałalność.

Chodzi o to, że podobnie jak obecne systemy sztucznej inteligencji robią to z wprowadzaniem tekstu, przyszłe systemy sztucznej inteligencji będą w stanie odwoływać się do tych danych. Weźmy na przykład futurystyczny system rzeczywistości wirtualnej, który tworzy nie tylko dane audio i wizualne, ale także Twoje środowisko I ruch na prawdziwej scenie.

Gdybyś poprosił go o symulację przedłużającego się rejsu morskiego, umieściłby cię na statku z trzęsącym się pokładem pod stopami i zimnym wiatrem oceanicznego powietrza, a także szumem fal w oddali.

Projekty Blockchain wymagają więcej talentów programistów: czy akademia kryptowalut jest odpowiedzią?

Jak działa sztuczna inteligencja Meta ImageBind?

W poście na blogu Meta ImageBind AI wspomina że przyszłe modele mogą obejmować „dotyk, mowę, zapach i sygnały fMRI mózgu”. Odkrycie, zgodnie z oświadczeniem, „przybliża maszyny o krok do zdolności ludzi do jednoczesnego, holistycznego i bezpośredniego uczenia się z wielu różnych form informacji”. Co jest w porządku; cokolwiek. jak minutowe są te etapy, określi.)

Oczywiście wszystko to jest dość hipotetyczne i prawdopodobne jest, że bezpośrednie zastosowania tego typu badań będą znacznie bardziej ograniczone. Na przykład Meta pokazał opracował w zeszłym roku model AI, który tworzy krótkie, rozmyte filmy z opisów tekstowych. Przyszłe iteracje systemu mogą łączyć dodatkowe strumienie danych, wytwarzając na przykład dźwięk w celu uzupełnienia wyjścia wideo, jak wykazano w pracach takich jak ImageBind.

Jednak dla tych, którzy śledzą branżę, badania są szczególnie intrygujące, ponieważ Meta ImageBind AI wykorzystuje model open-sourcingowy, co jest trendem, który jest uważnie obserwowany w dziedzinie sztucznej inteligencji.

Podejście open-source Meta ImageBind AI: dlaczego to działa?

Ci, którzy są przeciwni open-sourcingowi, jak np OpenAItwierdzą, że podejście to jest złe dla twórców, ponieważ konkurenci mogą powielać ich pracę, a nawet może być niebezpieczne, ponieważ może pozwolić niecnym podmiotom na wykorzystywanie najnowocześniejszych modeli sztucznej inteligencji.

HarmonyOS jest tutaj: Które telefony Huawei otrzymają aktualizację HarmonyOS?

Odpowiadając, zwolennicy twierdzą, że open-sourcing umożliwia stronom trzecim badanie systemów pod kątem wad i naprawianie niektórych niedociągnięć. Wskazują, że może to nawet przynieść korzyści finansowe, ponieważ skutecznie umożliwia firmom zatrudnianie zewnętrznych koderów jako nieopłacanych pracowników w celu zwiększenia ich pracy.

Chociaż pojawiły się wyzwania, Meta ImageBind AI do tej pory pozostaje solidnie w obozie open source. (Na przykład jego najnowszy model językowy, Lamazostała udostępniona online na początku tego roku.) Pod wieloma względami brak komercyjnego sukcesu firmy w zakresie sztucznej inteligencji (nie ma ona chatbota, z którym mogłaby konkurować Bing, BardLub ChatGPT) umożliwiła realizację tej strategii. W międzyczasie ta taktyka jest nadal używana z ImageBind.

Zapoznaj się z poniższymi artykułami, aby być na bieżąco z najnowszymi osiągnięciami technologicznymi, w szczególności tymi dotyczącymi sztucznej inteligencji.