Apple udostępniło swój FastVLM (model języka wizualnego) do testowania bezpośrednio w przeglądarce internetowej, umożliwiając użytkownikom komputer Mac z Apple Silicon zasilany przez Apple MAC na doświadczenie niemal instantowych możliwości przetwarzania obrazu o wysokiej rozdzielczości. Model, początkowo wydany kilka miesięcy temu, wykorzystuje MLX, otwartą framework uczenia maszynowego Apple zoptymalizowany dla Apple Silicon, aby osiągnąć znacznie szybsze podpisy wideo i mniejszy rozmiar modelu w porównaniu z jego odpowiednikami. Doniesiono, że FastVLM jest nawet 85 razy szybszy w podpisach wideo i więcej niż trzy razy mniejszy niż porównywalne modele. Apple rozszerzyło dostępność projektu, dzięki czemu oprócz GitHub jest dostępny na przytulaniu twarzy. Użytkownicy mogą teraz załadować lekki model FastVLM-0,5B bezpośrednio w swojej przeglądarce, aby ocenić jego wydajność. Według testów ładowanie modelu zajmuje kilka minut na 16 GB M2 Pro MacBook Pro. Po załadowaniu model dokładnie opisuje wygląd użytkownika, otaczające środowisko, wyrażenia i obiekty. Użytkownicy mogą wchodzić w interakcje z modelem, dostosowując monit lub wybierając z ustalonych opcji, takich jak „Opisz to, co widzisz w jednym zdaniu”, „Jaki jest kolor mojej koszuli?”, „Zidentyfikuj dowolny tekst lub treść pisemną widoczną”, „Jakie emocje lub działania są przedstawiane?” i „Nazwij obiekt, który trzymam w dłoni”. Pozwala to na dostosowane i interaktywne wrażenia. Ponadto użytkownicy mogą zastosować aplikację wirtualnej aparatu do zasilania wideo na żywo narzędziu, umożliwiając jej natychmiastowe opisanie wielu scen. Podkreśla to szybkość i dokładność modelu. Kluczową funkcją tej implementacji jest to, że działa lokalnie w przeglądarce, zapewniając prywatność danych, ponieważ żadne dane nie opuszcza urządzenia. Model może również działać offline, co czyni go odpowiednim do aplikacji w urządzeniach do noszenia i technologii wspomagającej, w których kluczowe jest niskie opóźnienia i wydajność. Demo oparte na przeglądarce wykorzystuje 0,5 miliarda parametrów wersji FastVLM. Rodzina FastVLM zawiera większe warianty o 1,5 miliarda i 7 miliardach parametrów. Chociaż te większe modele mogą oferować lepszą wydajność i prędkość, uruchamianie ich bezpośrednio w przeglądarce jest mało prawdopodobne ze względu na ograniczenia zasobów. Apple zachęca użytkowników do testowania modelu i podzielenia się opinią.
Source: Demo Apple FastVlm działa teraz w przeglądarce na Apple Silicon





