NVIDIA Audio2Face staje się oprogramowaniem open source: animacja twarzy oparta na sztucznej inteligencji dla każdego

  • Audio2Face staje się oprogramowaniem typu open source dzięki licencji Apache 2.0 i dostępowi do zestawu SDK, modeli i infrastruktury szkoleniowej.
  • Bezpośrednia integracja poprzez oficjalne wtyczki do Unreal Engine 5 i Autodesk Maya.
  • Synchronizacja ruchu warg i modele emocji (Audio2Emotion) dla treści tworzonych w czasie rzeczywistym i nagranych wcześniej.
  • Szerokie zastosowanie w branży: korzystają z niego już studia i dostawcy, m.in. Codemasters, Reallusion i The Farm 51.

Audio2Face oprogramowanie open source

Uczynienie cyfrowej postaci wyrazistą jak prawdziwa osoba pozostaje solą w oku wielu gier i aplikacji 3D. Wraz z otwarciem Audio2FaceNVIDIA zapewnia twórcom gier i studiom bezpośrednią drogę do niezawodnej synchronizacji głosu i gestów twarzy, zarówno w czasie rzeczywistym, jak i w produkcji offline.

Nowością nie jest sama synchronizacja, ale sposób dostępu: narzędzie staje się oprogramowanie typu open source (Apache 2.0), dzięki czemu każdy może oceniać, integrować i dostosowywać komponenty bez barier licencyjnych. Ułatwia to zarówno dużym, jak i małym zespołom prowadzenie bardziej ekspresyjne awatary bez żmudnych, ręcznych procesów animacji.

Czym jest Audio2Face i jakie zmiany wprowadza dzięki temu, że jest oprogramowaniem typu open source?

Technologia animacji twarzy AI

Audio2Face używa generatywna sztuczna inteligencja do analizy cech mowy – fonemów, intonacji, a nawet niuansów emocjonalnych – i przekształcania ich w dane dotyczące animacji twarzy. System synchronizacja ust, policzków i brwi dokładnie, zarówno w przypadku transmisji na żywo, jak i wstępnie renderowanych scen.

Podczas otwierania projektu za pomocą Licencja Apache 2.0firma umożliwia bezpłatny dostęp do kodu, modeli i narzędzia, co przyspiesza eksperymenty, umożliwia audyty techniczne i zachęca do udziału środowiska akademickiego i przemysłowego. Innymi słowy, zmniejsza tarcia w testowaniu, iteracji i wdrażaniu.

Cel jest jasny: zapewnić lepszą animację twarzy większej liczbie osób gry wideo, aplikacje 3D i doświadczenia cyfrowe, redukując koszty i czas produkcji bez poświęcania wyrazistych szczegółów.

Wszystko, co wydała firma NVIDIA: SDK, modele i szkolenia

Komponenty Audio2Face

Firma opublikowała Audio2Face SDK Z bibliotekami i dokumentacją do uruchamiania animacji na urządzeniu lub w chmurze. Dostępne są również wtyczki referencyjne, które upraszczają proces obsługi silników i oprogramowania powszechnie stosowanego w branży.

W pakiecie znajdują się modele: regresja (v2.2) i dyfuzja (v3.0) zorientowany na synchronizacja ust, oprócz modeli Audio2Emotion (wersja produkcyjna v2.2 i eksperymentalna v3.0) potrafi wnioskować o stanach emocjonalnych na podstawie dźwięku.

Dla tych, którzy muszą go wykorzystać w swojej dziedzinie, Struktura szkolenia (wersja 1.0) i przykładowych danych. Pozwala to na dostosowanie modeli do języki, akcenty lub style interpretacji specyficznych, a nawet różnych «Platformy wiertnicze» zabiegi na twarz.

Ofertę uzupełniają oficjalne wtyczki do Autodesk Maya (wersja 2.0) y Unreal Engine 5 (v2.5, kompatybilny z UE 5.5 i 5.6), zaprojektowane tak, aby integrować się z profesjonalnymi procesami pracy bez konieczności wymyślania Ameryki na nowo.

Integracja z UE5 i Maya, wydajność i wymagania

Integracja z silnikami 3D

Podejście firmy NVIDIA polega na gotowe wtyczki i przykłady aby szybko rozpocząć korzystanie z Unreal Engine 5 i Maya, korzystając ze scen testowych i przewodników, które pomogą Ci sprawdzić rezultaty już od pierwszego dnia.

Realizacja może odbywać się w czasie rzeczywistym lub w tryb offline, w zależności od projektu. Chociaż zaleca się akcelerację GPU, programiści mogą rozważyć różne konfiguracje, priorytetyzując jakość, opóźnienie lub koszt w zależności od przypadku użycia.

Dzięki strukturze szkoleniowej zespoły techniczne mogą specjalizować system, dodatkowe języki i warianty mowy, co jest kluczowe, jeśli szukasz wiarygodnej synchronizacji ruchu ust na wielu rynkach.

Będąc częścią ekosystemu sztucznej inteligencji marki — z rozwiązaniami takimi jak ACE, Edify i RTX NIM—, Audio2Face wpisuje się w nowoczesne procesy łączące generację, interakcję i animację.

Przyjęcie i rzeczywiste przypadki w branży

Studia, które już korzystają z Audio2Face

Technologia ta jest już obecna w projektach komercyjnych i narzędziach firm trzecich. Ferma 51 Używa go w Chernobylite 2: Strefa wykluczenia i Survios zoptymalizował proces edycji twarzy w Alien: Rogue Incursion Evolved Edition, aby uzyskać bardziej wciągające sceny.

W dziedzinie kreatywnego oprogramowania, Reallusion zintegrowano Audio2Face z iClone i Character Creator, łącząc je z AccuLip oraz funkcje sterowania twarzami w celu zaawansowanej edycji.

Ponadto badania i dostawcy, tacy jak Codemasters, NetEase, Perfect World Games, GSC Game World, Convai, Inworld AI, Streamlabs y Cyfrowi ludzie UneeQ należą do tych, którzy wdrażają lub integrują to rozwiązanie.

Jego zakres nie ogranicza się do tradycyjnych gier: istnieją przypadki, media, rozrywka i obsługa klienta, gdzie ekspresyjne awatary i interakcja w czasie rzeczywistym dodają wartości i wsparcia.

Alternatywy, społeczność i kolejne kroki

Społeczność programistów i alternatywy

Audio2Face to nie jedyna opcja na rynku. W ekosystemie Unreal, OVR Lip Sync a jego integracja z MetaHuman Creator oferuje prawidłowe ścieżki, choć nie są one open source i zazwyczaj wymagają ustawienia ręczne dla idealnego dopasowania do każdego projektu.

Kluczowa różnica jest w otwarciu: z dostępny kod, modele i szkoleniaOferta firmy NVIDIA ułatwia współtworzenie, przeprowadzanie audytów i dostosowywanie rozwiązań, a także zapewnia dostęp do planu działania tworzonego przez społeczność.

Firma zachęca programistów, studentów i badaczy do współpracy poprzez Serwer Discord Audio2Face, dziel się postępami i proponuj usprawnienia dla nowych przypadków użycia.

Dla zespołów, które wciąż mają wątpliwości, punkt wyjścia jest jasny: przetestować Wtyczki UE5 i Maya, oceń opóźnienia i jakość, a w razie potrzeby przeprowadź ćwiczenia z wykorzystaniem własnych danych, aby uzyskać perfekcyjną synchronizację ruchu ust w językach i stylach wymaganych przez każdą produkcję.

Dzięki przejściu na oprogramowanie typu open source technologia ta lepiej wpisuje się w ograniczone budżety i pozwala większej liczbie studiów na rozwijanie swoich postaci na poziomie ekspresja i synchronizacja co wcześniej wymagało większych zasobów. Praktyczny krok, który mógłby przyspieszyć wdrażanie synchronizacji ruchu ust z wykorzystaniem sztucznej inteligencji we wszelkiego rodzaju interaktywnych doświadczeniach.

jak zrobić awatara za pomocą AI
Podobne artykuł:
Jak stworzyć awatara ze sztuczną inteligencją: kompletny przewodnik, kroki i narzędzia