Nowa SI od Microsoft podrabia ludzki głos Wystarczy jej 3-sekundowa próbka

i

Autor: Pixabay

Nowa SI od Microsoft podrabia ludzki głos. Wystarczy jej 3-sekundowa próbka

2023-01-16 15:57

To naprawdę imponujące: wystarczy, że algorytm przeanalizuje krótkie nagranie głosu danej osoby, by następnie móc zacząć czytać dowolny głos za pomocą syntezy o dokładnie takim brzmieniu. VALL-E, bo tak się nazywa to narzędzie, odezwie się Twoim głosem prosto z telefonu. Dlaczego zatem nas to martwi?

Mówiących do nas maszyn jest coraz więcej. Takich, które chcą z nami pogadać także. Rozmawiamy z naszymi telefonami prosząc cyfrowych asystentów o zamówienie przewozu, jedzenia albo wyszukanie czegoś w internecie albo okolicy. Codzienność, chyba się już większości z nas to opatrzyło. Jednak kiedy maszyna zaczyna mówić naszym głosem rzeczy, których my wcale nie nagraliśmy wcześniej, robi się jakoś tak dziwnie.

Kiedy kilka lat temu pojawiała się technologia umożliwiająca naklejanie dowolnej twarzy na inną w filmach wraz z nią ruszyła fala deep fake’ów, czyli fałszywych filmów, często oczerniających lub pornograficznych, które miały za zadanie zniesławić osobę na nie naklejoną. Samo w sobie narzędzie oczywiście nie jest złe, problem dopiero pojawia się przy jego nieodpowiednim zastosowaniu. W przypadku fałszywek głosowych można wyobrazić sobie bardzo wiele zastosowań takiej SI, choćby do tego by wyciągnąć od kogoś 3 sekundową próbkę głosu, a następnie syntetycznie tworzyć oczerniające nagrania, fałszować zgody telefoniczne lub podszywać się celem wyłudzenia.

Nietrudno sobie wyobrazić z jakim zapałem za takie narzędzia zabiorą się wszyscy oszuści wykorzystujący starsze osoby „na wnuczka” lub wszelkie inne mutacje tego sposobu. Microsoft, który stoi za VALL-E, uspokaja, że jednocześnie pracuje nad systemem do wykrywania czy dany dźwięk był tworzony z udziałem jego algorytmu. Ma to pomóc odróżnić fałszywkę od prawdziwego człowieka.

Wielki powrót! Ville Valo o "Neon Noir" w Esce Rock.