Sztuczna inteligencja a twórczość głosowa
Ostatnimi czasy sztuczna inteligencja (AI) przestała być frazesem używanym wyłącznie w twórczości science-fiction – stała się częścią naszej rzeczywistości. Od wszelkiego rodzaju asystentów, po generatory tekstów, obrazów czy dźwięków, maszyna i produkowane przez nią odpowiedzi wdarły się przebojem do naszej codzienności. Czy istnieją wady tego stanu rzeczy? Jeśli tak, to czy są przeciwważone zaletami? Nad tymi pytaniami oraz innymi dylematami związanymi z wykorzystaniem AI przy zagadnieniach związanych z głosem ludzkim pochylimy się w tym wpisie.
Jak sztuczna inteligencja dostaje swój głos? Rozwój głosów AI obejmuje wiele nowatorskich dziedzin, ale do głównie stosowanych metod należą:
- algorytmy uczenia maszynowego – umożliwiają systemom uczenie się na podstawie danych i z biegiem czasu poprawianie ich wydajności. Uczenie nadzorowane jest często wykorzystywane do szkolenia modeli głosu AI przy użyciu dużych zbiorów danych dotyczących ludzkiej mowy. Dzięki nadzorowanemu uczeniu się model sztucznej inteligencji uczy się rozpoznawać wzorce i korelacje między danymi wejściowymi tekstowymi a odpowiadającymi im komunikatami głosowymi. Sztuczna inteligencja uczy się na wielu przykładach ludzkiej mowy i dostosowuje swoje ustawienia tak, aby to co wygeneruje było jak najbardziej zbliżone do mowy prawdziwego człowieka. W miarę jak model przetwarza więcej danych, udoskonala zrozumienie fonetyki, intonacji i innych cech mowy, co prowadzi do coraz bardziej naturalnych i wyrazistych głosów;
- przetwarzanie języka naturalnego (NLP) – umożliwia maszynom rozumienie i interpretowanie ludzkiego języka. Korzystanie z technik NLP pozwala sztucznej inteligencji rozkładać zapisane słowa i zdania w celu znalezienia ważnych szczegółów, takich jak gramatyka, znaczenie oraz emocje. NLP pozwala głosom AI interpretować i wypowiadać złożone zdania, nawet jeśli słowa mają wiele znaczeń lub brzmią tak samo. Dzięki temu głos AI brzmi naturalnie i ma sens, niezależnie od rodzaju używanego języka. NLP to magia, która wypełnia lukę między słowami pisanymi a mową mówioną, dzięki czemu głosy AI brzmią jak prawdziwi ludzie, nawet w przypadku skomplikowanych wzorców językowych.
- techniki syntezy mowy – umożliwiają maszynom przekształcanie przetworzonego tekstu w zrozumiałą i wyrazistą mowę. Można to zrobić na różne sposoby, na przykład poprzez składanie nagranej mowy w celu utworzenia zdań (synteza konkatenatywna) lub używanie modeli matematycznych do tworzenia mowy (synteza parametryczna), co pozwala na większe dostosowanie. W ostatnim czasie pojawiła się przełomowa metoda zwana neuronowym TTS (Text-to-Speech). Wykorzystuje modele głębokiego uczenia się, takie jak sieci neuronowe, do generowania mowy z tekstu. Dzięki tej technice głosy AI brzmią jeszcze bardziej naturalnie i wyraziście, rejestrując najdrobniejsze szczegóły, które sprawiają, że ludzka mowa jest wyjątkowa, takie jak rytm i ton.
W praktyce dostępne narzędzia można podzielić na dwie główne kategorie: Text-to-Speech oraz Voice-to-Voice. Każde z nich umożliwia stworzenie klonu głosu danej osoby, jednak TTS jest dużo bardziej ograniczony w zakresie odtwarzania nietypowych słów, odgłosów, reakcji oraz możliwości wyrażania emocji. Voice-to-Voice w dużym uproszczeniu „zastępuje” brzmienie jednego głosu drugim, umożliwiając na przykład stworzenie sztucznego wykonania utworu jednego wokalisty przez zupełnie innego wokalistę, zaś Text-to-Speech wykorzystuje stworzony model głosu do odczytania wprowadzonego tekstu (tworząc z tekstu mel spektrogram, a następnie przekazując go do vocodera, który generuje plik audio) [1]. Podobnie jak w przypadku każdego zagadnienia związanego z uczeniem maszynowym, tak i tutaj jakość ostatecznie wygenerowanej mowy zależy w dużej mierze od modelu i danych, na których model ten był trenowany.
Początki badań nad ludzką mową miały miejsce już pod koniec XVIII wieku, jednak prace nad syntezą mowy nabrały rozpędu dużo później, gdyż w latach 20-30. XX wieku, kiedy to w Bell Labs opracowano pierwszy vocoder [2]. Zagadnienia związane z imitacją i klonowaniem głosu (co określane jest też mianem głosowych deepfake’ów) pierwszy raz na szerszą skalę poruszono w artykule naukowym opublikowanym w 1997 roku, zaś najszybszy rozwój technologii znanych nam dzisiaj nastąpił po 2010 roku. Szczególnym wydarzeniem, które napędziło popularność i dostępność narzędzi do klonowania głosu, było opublikowanie przez Google w 2017 roku algorytmu do syntezy mowy Tacotron [3].
Już teraz sztuczna inteligencja „rozmawia” z nami w wielu sytuacjach z codziennego życia: wirtualni asystenci jak Siri czy Alexa w urządzeniach czy automaty do telefonicznej obsługi klienta w różnych firmach i instytucjach to już powszechne zjawisko. Jednakże technologia ta daje możliwości, które mogą być źródłem problemów, co wzbudza kontrowersje dotyczące etyczności rozwijania jej w przyszłości.
Na pierwszy plan wysuwają się tutaj problemy zgłaszane przez osoby pracujące głosem, które obawiają się niebezpieczeństwa utraty pracy na rzecz maszyn. W przypadku tych osób głos, poza byciem częścią tożsamości, jest też źródłem wyrazu artystycznego i narzędziem pracy. W przypadku stworzenia odpowiednio dobrego modelu głosu danego człowieka, dalsza jego praca nagle, teoretycznie, przestaje być potrzebna. Dokładnie ten temat był przedmiotem dyskusji, która rozpaliła Internet w sierpniu 2023, kiedy to jeden z twórców wstawił na serwis YouTube wykonaną samodzielnie w Blenderze animację inspirowaną kultowym serialem Scooby-Doo [4]. Powodem kontrowersji było użycie przez początkującego autora AI do wygenerowania dialogów dla 4 występujących postaci, które używały modeli głosowych oryginalnej (i wciąż czynnej zawodowo) obsady. Na twórcę spadła fala krytyki za używanie czyjegoś głosu bez pozwolenia, na własny użytek. Sprawa dyskutowana była w środowisku osób zawodowo związanych z animacją, skomentowała ją także jedna z aktorek głosowych z oryginalnej obsady serialu. Wyraziła ona swoje oburzenie i dodała, że nigdy nie podejmie współpracy z tym twórcą oraz że będzie ostrzegała przed nim swoich kolegów z branży. Po opublikowaniu przeprosin przez twórcę (który przyznał się do błędu i tłumaczył swoje działania brakiem funduszy na zatrudnienie osób podkładających głos oraz całkowicie hobbystycznym i niezarobkowym charakterem stworzonej animacji) „wilczy bilet” został cofnięty, a strony pogodziły się. Z dyskusji wyłaniał się jednak wniosek o konieczności uregulowania prawnego wykorzystywania sztucznej inteligencji do takich celów. Lista zawodów, których ten temat dotyczy jest długa, a już w tym momencie istnieje mnóstwo utworów korzystających z czyjegoś głosu w podobny sposób. I mimo, że są to w większości treści tworzone przez fanów i dla fanów, w swego rodzaju hołdzie dla materiału źródłowego, to nadal jest to technicznie wykorzystanie części czyjejś tożsamości bez jego zgody.
Kolejnym dylematem są wątpliwości etyczne, gdy rozważamy wykorzystanie głosu osoby zmarłej do tworzenia nowych treści. Internet pełen jest już „coverów”, w których nowo wydane utwory są „śpiewane” przez nieżyjących już artystów. Jest to temat niezwykle delikatny, biorąc pod uwagę uczucia rodziny, bliskich i fanów zmarłego, jak i to, jak zmarła osoba postrzegałaby takie wykorzystanie części jej wizerunku.
Następnym zagrożeniem jest oszukiwanie i wprowadzanie w błąd za pomocą tej technologii. O ile przeróbki z politykami grającymi w gry multiplayer pozostają raczej w strefie niewinnych żartów, tak wkładanie w usta polityków słów, których nigdy nie wypowiedzieli, na przykład w trakcie kampanii wyborczej jest już sytuacją niebezpieczną, która może mieć poważne konsekwencje dla całego społeczeństwa. Na takie fałszywki i manipulacje są narażone obecnie zwłaszcza osoby starsze, jednak wraz z udoskonalaniem modeli i równoległym rozwojem metod generowania obrazu i ruchu ust, nawet osoby zaznajomione ze zjawiskiem mogą mieć coraz większe problemy z rozdzieleniem fałszu od rzeczywistości [5].
Podobne oszustwa w najgorszym przypadku mogą poskutkować kradzieżą tożsamości. Co jakiś czas nagłaśniane są sprawy, gdy postać celebryty występuje w reklamie, o której on sam nigdy nie słyszał [6]. Ofiarami takich kradzieży tożsamości mogą być również eksperci bądź autorytety w danej dziedzinie, na przykład lekarze, których sztucznie wytworzony wizerunek jest wykorzystywany do reklamowania rozmaitych, często nie mających żadnego związku z medycyną preparatów. Tego typu sytuacje, już teraz mające miejsce w naszym kraju [7], są szczególnie szkodliwe, gdyż potencjalni odbiorcy takich reklam są narażeni nie tylko na niepotrzebny wydatek, lecz również ryzykują swoim zdrowiem a może i życiem. Nie jest także rzadkością weryfikacja biometryczna za pomocą głosu – w przypadku wiernego modelu głosu klienta i wycieku jego danych osobistych sytuacja taka może skutkować potencjalną katastrofą. Ryzyko takiego scenariusza potwierdzono już w przypadku jednej ze stworzonych przez australijski rząd aplikacji [8].
Niezwykle trudno przewidzieć w jakim kierunku będzie zmierzał rozwój sztucznej inteligencji w zastosowaniu do generowania głosu ludzkiego. Konieczne wydają się regulacje w kwestii możliwości stosowania modeli głosu celebrytów w celach zarobkowych oraz zapewnienie, iż człowiek nie zostanie w tej sferze całkowicie zastąpiony przez maszynę. Brak znaczących zmian w tej materii może poskutkować dalszą utratą zaufania do narzędzi wykorzystujących sztuczną inteligencję. Ten temat dzieli ludzi, ma wielu zwolenników jak i przeciwników. Jak każde narzędzie, nie jest ono dobre ani złe – wszystko zależy od sposobu wykorzystania i intencji korzystającego. Już teraz istnieją narzędzia, które pozwalają wykryć, czy dane nagranie zostało sztucznie wygenerowane. Nie można też zapominać, iż do stworzenia przekonującego klonu ludzkiego głosu potrzebna jest wiedza, umiejętności i wysiłek. W przeciwnym wypadku rezultat jest niezgrabny i natychmiast można rozpoznać, że coś jest nie tak, doświadczamy wtedy „doliny niesamowitości” (eng. uncanny valley). Obecne w ludzkim głosie subtelności, emocje, różnice, akcenty, niedoskonałości są niezwykle trudne do odwzorowania. To daje nadzieję, iż maszyna nie wyprze całkiem człowieka i to tylko dzięki naszej doskonałej niedoskonałości.