Nowa SI od Microsoft podrabia ludzki głos. Wystarczy jej 3-sekundowa próbka

2023-01-16 15:57

To naprawdę imponujące: wystarczy, że algorytm przeanalizuje krótkie nagranie głosu danej osoby, by następnie móc zacząć czytać dowolny głos za pomocą syntezy o dokładnie takim brzmieniu. VALL-E, bo tak się nazywa to narzędzie, odezwie się Twoim głosem prosto z telefonu. Dlaczego zatem nas to martwi?

Nowa SI od Microsoft podrabia ludzki głos Wystarczy jej 3-sekundowa próbka

i

Autor: Pixabay.com

Mówiących do nas maszyn jest coraz więcej. Takich, które chcą z nami pogadać także. Rozmawiamy z naszymi telefonami prosząc cyfrowych asystentów o zamówienie przewozu, jedzenia albo wyszukanie czegoś w internecie albo okolicy. Codzienność, chyba się już większości z nas to opatrzyło. Jednak kiedy maszyna zaczyna mówić naszym głosem rzeczy, których my wcale nie nagraliśmy wcześniej, robi się jakoś tak dziwnie.

Wielki powrót! Ville Valo o "Neon Noir" w Esce Rock.

Kiedy kilka lat temu pojawiała się technologia umożliwiająca naklejanie dowolnej twarzy na inną w filmach wraz z nią ruszyła fala deep fake’ów, czyli fałszywych filmów, często oczerniających lub pornograficznych, które miały za zadanie zniesławić osobę na nie naklejoną. Samo w sobie narzędzie oczywiście nie jest złe, problem dopiero pojawia się przy jego nieodpowiednim zastosowaniu. W przypadku fałszywek głosowych można wyobrazić sobie bardzo wiele zastosowań takiej SI, choćby do tego by wyciągnąć od kogoś 3 sekundową próbkę głosu, a następnie syntetycznie tworzyć oczerniające nagrania, fałszować zgody telefoniczne lub podszywać się celem wyłudzenia.

Nietrudno sobie wyobrazić z jakim zapałem za takie narzędzia zabiorą się wszyscy oszuści wykorzystujący starsze osoby „na wnuczka” lub wszelkie inne mutacje tego sposobu. Microsoft, który stoi za VALL-E, uspokaja, że jednocześnie pracuje nad systemem do wykrywania czy dany dźwięk był tworzony z udziałem jego algorytmu. Ma to pomóc odróżnić fałszywkę od prawdziwego człowieka.