Microsoft sukūrė tai, ką ekspertai pavadino „košmariška vaizdų klastojimo mašina” (Video)

21 balandžio

06:58 2024

Spausdinti šį Įrašą

„Microsoft” neatsilieka nuo „OpenAI”: korporacija pristatė savo vaizdo įrašų generatorių. Jis iš vienos nuotraukos sukuria tikrovišką vaizdo įrašų seką ir ypač gerai kopijuoja žmogaus veido išraiškas. Ekspertai jį jau pavadino košmariška vaizdų klastojimo (deepfakes) mašina.

Generatyviniai neuroniniai tinklai pastaraisiais metais smarkiai pažengė į priekį, pereidami nuo statinių vaizdų kūrimo prie vaizdo įrašų kūrimo. Viena ryškiausių šios srities naujovių yra „Microsoft” algoritmas VASA-1, generuojantis vaizdo įrašus pagal vieną vaizdą ir garso takelį.

VASA-1 naudoja pažangų modelį veido ir lūpų judesiams su garsu sinchronizuoti, todėl sukuriami itin tikroviški vaizdo įrašai. Šis algoritmas ypač išsiskiria gebėjimu imituoti natūralius galvos judesius ir veido išraiškas, o tai vaizdo įrašų sekai suteikia gyvumo ir tikroviškumo.

Techniškai VASA-1 veikia paslėptoje veido erdvėje, kurioje generuojama veido ir galvos dinamika. „Microsoft” pabrėžia, kad dėl naujovių ir išsamių eksperimentų, įskaitant naujų metrikų įvedimą, jų metodas pagal daugelį parametrų gerokai lenkia ankstesnius.

Algoritmas palaiko internetinį vaizdo įrašų generavimą 512×512 pikselių raiška ir 40 kadrų per sekundę greičiu, taip sumažinant pradinį vėlavimą ir sudarant sąlygas realiuoju laiku sąveikauti su tikroviškais avatarais.

Nors VASA-1 gali būti potencialas suklastotiems vaizdo įrašams kurti, „Microsoft” ją apibūdina kaip parodomąją mokslinių tyrimų priemonę ir neplanuoja artimiausiu metu išleisti į komercinę rinką.