Sztuczna inteligencja a twórczość głosowa

Sztuczna inteligencja a twórczość głosowa

Ostatnimi czasy sztuczna inteligencja (AI) przestała być frazesem używanym wyłącznie w twórczości science-fiction – stała się częścią naszej rzeczywistości. Od wszelkiego rodzaju asystentów, po generatory tekstów, obrazów czy dźwięków, maszyna i produkowane przez nią odpowiedzi wdarły się przebojem do naszej codzienności. Czy istnieją wady tego stanu rzeczy? Jeśli tak, to czy są przeciwważone zaletami? Nad tymi pytaniami oraz innymi dylematami związanymi z wykorzystaniem AI przy zagadnieniach związanych z głosem ludzkim pochylimy się w tym wpisie. 

Jak sztuczna inteligencja dostaje swój głos? Rozwój głosów AI obejmuje wiele nowatorskich dziedzin, ale do głównie stosowanych metod należą:  

 

  • algorytmy uczenia maszynowego – umożliwiają systemom uczenie się na podstawie danych i z biegiem czasu poprawianie ich wydajności. Uczenie nadzorowane jest często wykorzystywane do szkolenia modeli głosu AI przy użyciu dużych zbiorów danych dotyczących ludzkiej mowy. Dzięki nadzorowanemu uczeniu się model sztucznej inteligencji uczy się rozpoznawać wzorce i korelacje między danymi wejściowymi tekstowymi a odpowiadającymi im komunikatami głosowymi. Sztuczna inteligencja uczy się na wielu przykładach ludzkiej mowy i dostosowuje swoje ustawienia tak, aby to co wygeneruje było jak najbardziej zbliżone do mowy prawdziwego człowieka. W miarę jak model przetwarza więcej danych, udoskonala zrozumienie fonetyki, intonacji i innych cech mowy, co prowadzi do coraz bardziej naturalnych i wyrazistych głosów;  

 

  • przetwarzanie języka naturalnego (NLP) – umożliwia maszynom rozumienie i interpretowanie ludzkiego języka. Korzystanie z technik NLP pozwala sztucznej inteligencji rozkładać zapisane słowa i zdania w celu znalezienia ważnych szczegółów, takich jak gramatyka, znaczenie oraz emocje. NLP pozwala głosom AI interpretować i wypowiadać złożone zdania, nawet jeśli słowa mają wiele znaczeń lub brzmią tak samo. Dzięki temu głos AI brzmi naturalnie i ma sens, niezależnie od rodzaju używanego języka. NLP to magia, która wypełnia lukę między słowami pisanymi a mową mówioną, dzięki czemu głosy AI brzmią jak prawdziwi ludzie, nawet w przypadku skomplikowanych wzorców językowych.  

 

  • techniki syntezy mowy – umożliwiają maszynom przekształcanie przetworzonego tekstu w zrozumiałą i wyrazistą mowę. Można to zrobić na różne sposoby, na przykład poprzez składanie nagranej mowy w celu utworzenia zdań (synteza konkatenatywna) lub używanie modeli matematycznych do tworzenia mowy (synteza parametryczna), co pozwala na większe dostosowanie. W ostatnim czasie pojawiła się przełomowa metoda zwana neuronowym TTS (Text-to-Speech). Wykorzystuje modele głębokiego uczenia się, takie jak sieci neuronowe, do generowania mowy z tekstu. Dzięki tej technice głosy AI brzmią jeszcze bardziej naturalnie i wyraziście, rejestrując najdrobniejsze szczegóły, które sprawiają, że ludzka mowa jest wyjątkowa, takie jak rytm i ton.  

 

 

W praktyce dostępne narzędzia można podzielić na dwie główne kategorie: Text-to-Speech oraz Voice-to-Voice. Każde z nich umożliwia stworzenie klonu głosu danej osoby, jednak TTS jest dużo bardziej ograniczony w zakresie odtwarzania nietypowych słów, odgłosów, reakcji oraz możliwości wyrażania emocji. Voice-to-Voice w dużym uproszczeniu „zastępuje” brzmienie jednego głosu drugim, umożliwiając na przykład stworzenie sztucznego wykonania utworu jednego wokalisty przez zupełnie innego wokalistę, zaś Text-to-Speech wykorzystuje stworzony model głosu do odczytania wprowadzonego tekstu (tworząc z tekstu mel spektrogram, a następnie przekazując go do vocodera, który generuje plik audio) [1]. Podobnie jak w przypadku każdego zagadnienia związanego z uczeniem maszynowym, tak i tutaj jakość ostatecznie wygenerowanej mowy zależy w dużej mierze od modelu i danych, na których model ten był trenowany.  

Początki badań nad ludzką mową miały miejsce już pod koniec XVIII wieku, jednak prace nad syntezą mowy nabrały rozpędu dużo później, gdyż w latach 20-30. XX wieku, kiedy to w Bell Labs opracowano pierwszy vocoder [2]. Zagadnienia związane z imitacją i klonowaniem głosu (co określane jest też mianem głosowych deepfake’ów) pierwszy raz na szerszą skalę poruszono w artykule naukowym opublikowanym w 1997 roku, zaś najszybszy rozwój technologii znanych nam dzisiaj nastąpił po 2010 roku. Szczególnym wydarzeniem, które napędziło popularność i dostępność narzędzi do klonowania głosu, było opublikowanie przez Google w 2017 roku algorytmu do syntezy mowy Tacotron [3].   

 

Już teraz sztuczna inteligencja „rozmawia” z nami w wielu sytuacjach z codziennego życia: wirtualni asystenci jak Siri czy Alexa w urządzeniach czy automaty do telefonicznej obsługi klienta w różnych firmach i instytucjach to już powszechne zjawisko. Jednakże technologia ta daje możliwości, które mogą być źródłem problemów, co wzbudza kontrowersje dotyczące etyczności rozwijania jej w przyszłości. 

Na pierwszy plan wysuwają się tutaj problemy zgłaszane przez osoby pracujące głosem, które obawiają się niebezpieczeństwa utraty pracy na rzecz maszyn. W przypadku tych osób głos, poza byciem częścią tożsamości, jest też źródłem wyrazu artystycznego i narzędziem pracy. W przypadku stworzenia odpowiednio dobrego modelu głosu danego człowieka, dalsza jego praca nagle, teoretycznie, przestaje być potrzebna. Dokładnie ten temat był przedmiotem dyskusji, która rozpaliła Internet w sierpniu 2023, kiedy to jeden z twórców wstawił na serwis YouTube wykonaną samodzielnie w Blenderze animację inspirowaną kultowym serialem Scooby-Doo [4]. Powodem kontrowersji było użycie przez początkującego autora AI do wygenerowania dialogów dla 4 występujących postaci, które używały modeli głosowych oryginalnej (i wciąż czynnej zawodowo) obsady. Na twórcę spadła fala krytyki za używanie czyjegoś głosu bez pozwolenia, na własny użytek. Sprawa dyskutowana była w środowisku osób zawodowo związanych z animacją, skomentowała ją także jedna z aktorek głosowych z oryginalnej obsady serialu. Wyraziła ona swoje oburzenie i dodała, że nigdy nie podejmie współpracy z tym twórcą oraz że będzie ostrzegała przed nim swoich kolegów z branży. Po opublikowaniu przeprosin przez twórcę (który przyznał się do błędu i tłumaczył swoje działania brakiem funduszy na zatrudnienie osób podkładających głos oraz całkowicie hobbystycznym i niezarobkowym charakterem stworzonej animacji) „wilczy bilet” został cofnięty, a strony pogodziły się. Z dyskusji wyłaniał się jednak wniosek o konieczności uregulowania prawnego wykorzystywania sztucznej inteligencji do takich celów. Lista zawodów, których ten temat dotyczy jest długa, a już w tym momencie istnieje mnóstwo utworów korzystających z czyjegoś głosu w podobny sposób. I mimo, że są to w większości treści tworzone przez fanów i dla fanów, w swego rodzaju hołdzie dla materiału źródłowego, to nadal jest to technicznie wykorzystanie części czyjejś tożsamości bez jego zgody. 

 

Kolejnym dylematem są wątpliwości etyczne, gdy rozważamy wykorzystanie głosu osoby zmarłej do tworzenia nowych treści. Internet pełen jest już „coverów”, w których nowo wydane utwory są „śpiewane” przez nieżyjących już artystów. Jest to temat niezwykle delikatny, biorąc pod uwagę uczucia rodziny, bliskich i fanów zmarłego, jak i to, jak zmarła osoba postrzegałaby takie wykorzystanie części jej wizerunku.  

Następnym zagrożeniem jest oszukiwanie i wprowadzanie w błąd za pomocą tej technologii. O ile przeróbki z politykami grającymi w gry multiplayer pozostają raczej w strefie niewinnych żartów, tak wkładanie w usta polityków słów, których nigdy nie wypowiedzieli, na przykład w trakcie kampanii wyborczej jest już sytuacją niebezpieczną, która może mieć poważne konsekwencje dla całego społeczeństwa. Na takie fałszywki i manipulacje są narażone obecnie zwłaszcza osoby starsze, jednak wraz z udoskonalaniem modeli i równoległym rozwojem metod generowania obrazu i ruchu ust, nawet osoby zaznajomione ze zjawiskiem mogą mieć coraz większe problemy z rozdzieleniem fałszu od rzeczywistości [5].  

Podobne oszustwa w najgorszym przypadku mogą poskutkować kradzieżą tożsamości. Co jakiś czas nagłaśniane są sprawy, gdy postać celebryty występuje w reklamie, o której on sam nigdy nie słyszał [6]. Ofiarami takich kradzieży tożsamości mogą być również eksperci bądź autorytety w danej dziedzinie, na przykład lekarze, których sztucznie wytworzony wizerunek jest wykorzystywany do reklamowania rozmaitych, często nie mających żadnego związku z medycyną preparatów. Tego typu sytuacje, już teraz mające miejsce w naszym kraju [7], są szczególnie szkodliwe, gdyż potencjalni odbiorcy takich reklam są narażeni nie tylko na niepotrzebny wydatek, lecz również ryzykują swoim zdrowiem a może i życiem. Nie jest także rzadkością weryfikacja biometryczna za pomocą głosu – w przypadku wiernego modelu głosu klienta i wycieku jego danych osobistych sytuacja taka może skutkować potencjalną katastrofą. Ryzyko takiego scenariusza potwierdzono już w przypadku jednej ze stworzonych przez australijski rząd aplikacji [8]. 

 

Niezwykle trudno przewidzieć w jakim kierunku będzie zmierzał rozwój sztucznej inteligencji w zastosowaniu do generowania głosu ludzkiego. Konieczne wydają się regulacje w kwestii możliwości stosowania modeli głosu celebrytów w celach zarobkowych oraz zapewnienie, iż człowiek nie zostanie w tej sferze całkowicie zastąpiony przez maszynę. Brak znaczących zmian w tej materii może poskutkować dalszą utratą zaufania do narzędzi wykorzystujących sztuczną inteligencję. Ten temat dzieli ludzi, ma wielu zwolenników jak i przeciwników.  Jak każde narzędzie, nie jest ono dobre ani złe – wszystko zależy od sposobu wykorzystania i intencji korzystającego. Już teraz istnieją narzędzia, które pozwalają wykryć, czy dane nagranie zostało sztucznie wygenerowane. Nie można też zapominać, iż do stworzenia przekonującego klonu ludzkiego głosu potrzebna jest wiedza, umiejętności i wysiłek. W przeciwnym wypadku rezultat jest niezgrabny i natychmiast można rozpoznać, że coś jest nie tak, doświadczamy wtedy „doliny niesamowitości” (eng. uncanny valley). Obecne w ludzkim głosie subtelności, emocje, różnice, akcenty, niedoskonałości są niezwykle trudne do odwzorowania. To daje nadzieję, iż maszyna nie wyprze całkiem człowieka i to tylko dzięki naszej doskonałej niedoskonałości.

 

Problemy w danych historycznych i zakodowane uprzedzenia

Prater & Borden

 

W 2014 roku osiemnastoletnia Brisha Borden została oskarżona o popełnienie kradzieży mienia wartości osiemdziesięciu dolarów po tym, jak postanowiła przejechać się pozostawionym i niezabezpieczonym rowerkiem dziecięcym. Brisha w przeszłości, w wieku nieletnim, popełniła mniejsze wykroczenia. 

 

Rok wcześniej czterdziestojednoletni Vernon Prater został przyłapany na kradzieży narzędzi ze sklepu o łącznej wartości 86,35 dolarów. Vernon był już oskarżony o kradzież z bronią w ręku, za co dostał wyrok pięciu lat pozbawienia wolności. Był też oskarżony o próbę dokonania napadu z bronią w ręku. 

 

W USA w tamtym czasie używany był system służący predykcji ryzyka, który miał na celu ocenę, czy dana osoba w przyszłości będzie popełniać inne przestępstwa. System ten dawał ocenę od 1 do 10, gdzie im wyższa wartość liczbowa, tym większe ryzyko popełniania przestępstw w przyszłości. Borden – czarna nastolatka – dostała ocenę wysokiego ryzyka: 8. Prater zaś – biały, dorosły mężczyzna – ocenę niskiego ryzyka: 3. Po dwóch latach Brisha Borden nie popełniła żadnego przestępstwa, natomiast Vernon Prater odsiadywał wyrok ośmiu lat pozbawienia wolności po tym, jak włamał się do magazynu i ukradł elektronikę wartości kilku tysięcy dolarów. [1] 

 

Ukryte dane

 

Zautomatyzowane systemy uczenia maszynowego i big data są coraz liczniejsze w naszym codziennym życiu. Poczynając od algorytmów proponujących użytkownikowi serial do obejrzenia, kończąc na takim, który zadecyduje o racie twojego kredytu hipotecznego. I właśnie, w momencie, kiedy algorytm decyduje o tak ważnej dla człowieka sprawie wchodzimy na dość niebezpieczny grunt. Czy możemy w ogóle ufać takim systemom, aby podejmowały istotne decyzje? Algorytmy komputerowe dają poczucie bezstronności i obiektywności. Czy jednak istotnie tak jest? 

 

W dużym skrócie – algorytmy uczenia maszynowego „uczą się” podejmować decyzje na podstawie dostarczonych danych. Niezależnie od sposobu tej nauki, czy to proste drzewa decyzyjne, czy bardziej zaawansowane sztuczne sieci neuronowe, z założenia algorytm powinien wyciągnąć ukryte w danych wzorce. Tak więc algorytm będzie tak obiektywny, jak obiektywne są dane uczące. O ile możemy się zgodzić, że na przykład dane medyczne czy pogodowe są obiektywne, ponieważ oczekiwane rezultaty nie wynikają z decyzji ludzkich, o tyle decyzje o np. przyznaniu kredytu czy zatrudnieniu były historycznie podejmowane przez ludzi. A ludzie, jak wiadomo, nie są stuprocentowo obiektywni i kierują się określonym światopoglądem i niestety też uprzedzeniami. A te uprzedzenia trafiają do danych w mniej lub bardziej bezpośredni sposób. 

 

Kwestia przygotowania danych nadających się do trenowania algorytmów uczenia maszynowego to bardzo obszerne zagadnienie. Omówienie możliwych rozwiązań to temat na osobny artykuł. 

 

W takim razie, skoro nie chcemy aby algorytm podejmował decyzje na podstawie płci, wieku czy koloru skóry, to czy nie można po prostu nie podawać tych danych? Takie naiwne podejście, choć wydaje się logiczne, ma jedną dużą lukę. Informacja o tych danych wrażliwych może być (i prawdopodobnie jest) zakodowana w innych, pozornie niepowiązanych informacjach. 

 

Dane historyczne są tworzone przez ludzi, a ludzie niestety kierują się pewnymi uprzedzeniami. Decyzje te przesiąkają przez dane, i nawet jeśli tworząc model uwzględni się, aby na wejściu nie uwzględniał danych o rasie, wieku, płci itp. to może się okazać, że informacje te przedostają się pośrednio poprzez np. informacje o kodzie pocztowym. Można przykładowo użyć sieci Bayesowskich (Bayesian networks) do zwizualizowania wzajemnych połączeń między różnymi cechami. To narzędzie ma na celu wskazanie gdzie mogą ukryte być dane, na podstawie których nie chcielibyśmy podejmować decyzji. [2]

Sądowy system oceny ryzyka w USA

 

Powróćmy do algorytmu wykorzystywanego w systemie karnym USA (system COMPAS). Julia Dressel i Hany Farid [3] spróbowali zbadać działanie tego systemu. Na początku przeprowadzili sondę, w której ankietowani bez żadnego doświadczenia w kryminologii dostali krótki opis dokonanego przestępstwa osoby oskarżonej (w tym jej wiek i płeć, ale nie rasę) i historię jej wcześniejszych oskarżeń, ich celem było przewidzenie, czy dana osoba będzie ponownie karana w ciągu najbliższych dwóch lat. Wyniki przeprowadzonego badania wykazały skuteczność (67%) podobną do systemu wykorzystywanego przez system karny USA (65,2%). Co ciekawe, udział odpowiedzi fałszywie pozytywnych, czyli takich, w których osoby oskarżone zostały przydzielone błędnie do grupy wysokiego ryzyka, był stały bez względu na rasę. Osoby czarnoskóre, zarówno w anonimowej sondzie, jak i według systemu COMPAS, miały większe prawdopodobieństwo bycia zakwalifikowanymi do grupy wyższego ryzyka niż osoby białe. Dla przypomnienia – ankietowani nie posiadali informacji o rasie osób oskarżonych. 

 

Następnie przetestowane zostały inne metody uczenia maszynowego, w tym algorytm regresji logistycznej z dwoma cechami na wejściu – wiek i liczba wcześniejszych oskarżeń. Algorytm ten działa w taki sposób, że na (w tym przypadku) dwuwymiarowej płaszczyźnie (każda oś jest wartością danej cechy) umieszczane są poszczególne pomiary ze zbioru treningowego. Następnie wyznaczana jest prosta oddzielająca przypadki z dwóch różnych kategorii. Zwykle nie jest możliwe idealne wyznaczenie prostej, która by bezbłędnie oddzielała dwie kategorie. Dlatego też wyznacza się prostą, której błąd jest minimalny. W ten sposób uzyskano takie działanie prostej, która dzieli płaszczyznę na dwie kategorie – osoby które w przeciągu dwóch lat zostały oskarżone, i te które nie zostały oskarżone (Rys.1). 

wykres liniowy przedstawiający analizę danych historycznych
Rys.1 Sposób działania algorytmu regresji logistycznej.

Algorytm ten ma skuteczność (66,8%) zbliżoną do systemu COMPAS (65,4%). W tym przypadku również zaobserwowano dużo wyższy odsetek osób czarnych niepoprawnie sklasyfikowanych jako osoby wyższego ryzyka od osób białych. 

 

Jak się okazuje, informacja o rasie może przeniknąć też w danych o ilości zatrzymań [2][3]. Na przykład w USA osoby czarnoskóre są aresztowane za posiadanie narkotyków cztery razy częściej od osób białych [8][9]. 

 

Niedziałające modele

 

Czasami modele po prostu nie działają. 

 

W 2012 roku opublikowano dane systemu oceniającego nowojorskich nauczycieli z lat 2007-2010. System ten dawał nauczycielom ocenę od 1 do 100 rzekomo na podstawie osiągnięć uczniów danego nauczyciela. Gary Rubinstein [4] postanowił przyjrzeć się opublikowanym danym. Zauważył, że w statystykach nauczyciele, którzy zostali objęci programem oceny przez kilka lat, mają osobną ocenę z każdego roku. Wychodząc z założenia, że ocena nauczyciela nie powinna się dramatycznie zmienić z roku na rok, postanowił sprawdzić jak zmieniła się w rzeczywistości. Wykreślił oceny nauczycieli, gdzie na osi X oznaczył ocenę z nauczania pierwszego roku, a na osi Y ocenę z drugiego roku nauczania tej samej klasy. Każda kropka na wykresie reprezentuje jednego nauczyciela (Rys.2).

analiza danych historycznych na wykresie z różowymi kwadratami
Rys.2 Wykres ocen nauczycieli w dwóch następujących po sobie latach. [4]

Logicznym wynikiem byłaby zależność zbliżona do liniowej, bądź inna korelacja, ze względu na to że wyniki tej samej klasy u jednego nauczyciela z roku na rok nie powinien się drastycznie zmienić. Tutaj wykres przypomina bardziej generator liczb losowych, a niektóre klasy oceniane na ocenę bliską 100, następnego roku miały wynik bliski 0 i vice versa. Nie jest to wynik, który powinien zwracać system, na podstawie którego ustalane są płace nauczycieli, czy nawet decyzja czy zwolnić taką osobę. Ponieważ ten system po prostu nie działa. 

 

Podobny problem mają algorytmy rozpoznawania twarzy. Zwykle takie technologie są tworzone w taki sposób, że algorytm uczenia maszynowego analizuje wiele obrazów, które są twarzą, i wiele obrazów które przedstawiają coś innego. System wykrywa wzorce, które są charakterystyczne dla twarzy, które nie występują na innych obrazach. Problem zaczyna się, gdy ktoś ma twarz odbiegającą od tych występujących w zbiorze treningowym. Osoby tworzące taki algorytm powinny postarać się o jak najbardziej różnorodny zbiór treningowy. Niestety okazuje się, że często w zbiorach treningowych jest niedostateczna reprezentacja osób o ciemniejszym kolorze skóry. Zbiory treningowe najczęściej mają dystrybucję koloru skóry podobną do społeczeństwa, z którego są zbierane dane. To znaczy, jeżeli zbiór treningowy składa się na przykład ze zdjęć obywateli USA i Europy, wtedy procentowy udział każdego koloru skóry w zbiorze danych będzie zbliżony do tego w demografii USA i Europy, gdzie przeważają osoby o jasnej karnacji (Rys.3). 

wykres słupkowy przedstawiający dane historyczne z podziałem na rasy
Rys.3 Po lewej: dane ze spisu ludności w USA [6]. Po prawej: procentowy udział ras w ogólnodostępnych zbiorach danych [7].

Na uniwersytecie MIT [5] zbadano dokładność algorytmów rozpoznawania twarzy z uwzględnieniem podziału na płeć i kolor skóry. Okazało się, że technologie najpopularniejszych firm, takich jak Amazon czy IBM, nie radzą sobie z rozpoznawaniem kobiet o ciemnym kolorze skóry (rys.4). W sytuacji, gdy technologie te używane są w produktach wykorzystujących technologię rozpoznawania twarzy, pojawia się problem dostępności i bezpieczeństwa. Jeśli dokładność działania jest niska nawet dla jednej określonej grupy odbiorców, istnieje duże ryzyko uzyskania dostępu do np. telefonu przez osobę do tego nieupoważnioną. W czasach kiedy technologie rozpoznawania twarzy wykorzystywane są przez policję w kamerach monitoringu, istnieje duże ryzyko, że niewinne osoby zostaną błędnie rozpoznane jako osoby poszukiwane. Takie sytuacje już miały wielokrotnie miejsce. A wszystko przez niepoprawnie działający algorytm, który dość łatwo można by naprawić poprzez odpowiednie dobranie danych uczących. 

wykres słupkowy przedstawiający dane historyczne z podziałem na przedsiębiorstwa
Rys.4 Zbadana dokładność technologii rozpoznawania twarzy. [5]

Po opublikowaniu badania MIT większość firm poprawiła działanie swoich algorytmów, dzięki czemu dysproporcje w rozpoznawaniu twarzy są znikome. 

 

Inkluzywny kod

 

Nie możemy być w stu procentach ufni algorytmom uczenia maszynowego i big data. Zwłaszcza jeśli w grę wchodzi decydowanie o ludzkim losie. 

Jeśli chcemy tworzyć narzędzia, które są skuteczne, i nie uczą się uprzedzeń ludzkich, należy zejść do poziomu danych. Trzeba analizować wzajemne zależności atrybutów, które mogą wskazywać na rasę, płeć, czy wiek. Selekcjonować te, które są naprawdę niezbędne do poprawnego działania algorytmu. Następnie konieczna jest analiza samego działania algorytmu i jego wyników, aby zapewnić, że algorytm jest w istocie obiektywny. 

Modele uczenia maszynowego uczą się poszukując wzorców i odtwarzając je. Jeśli podajemy nieprzefiltrowane dane historyczne, nie tworzymy tak naprawdę nowych, skuteczniejszych narzędzi, tylko automatyzujemy status quo. A gdy w grę wchodzi ludzki los, my, jako developerzy, nie możemy pozwolić sobie na powtarzanie starych błędów.

 

Bibliografia

Grać jak z nut – cz.3

W drugiej części artykułu stworzyliśmy harmonię utworu. Potrzebujemy teraz jakiejś dobrej melodii, która będzie do tej harmonii pasować. Melodie składają się z motywów, czyli małych fragmentów ok. 2-5 nutowych oraz ich wariacji (czyli przekształceń). Zaczniemy od wygenerowania pierwszego motywu – jego rytmu i dźwięków. Podobnie jak w przypadku generowaniu harmonii, skorzystamy ze statystyk, N-gramów, wyznaczonych na utworach muzycznych. Do przygotowania takich statystyk wykorzystamy bazę Essen Folksong Collection. Równie dobrze można skorzystać z dowolnej innej bazy melodii, taki wybór bazy będzie rzutować na to, jakiego rodzaju melodie będą generowane. Z każdego utworu trzeba wyodrębnić melodię, zamienić ją na ciąg wartości rytmicznych oraz ciąg dźwięków, a z tych  ciągów wyciągnąć statystyki. Przy tworzeniu statystyk dźwięków warto melodie najpierw  w pewien sposób przygotować –  przetransponować je wszystkie do dwóch tonacji, np. C-dur i c-moll. Zmniejszy to liczbę możliwych (prawdopodobnych) N-gramów 12-krotnie, a dzięki temu statystyki będą lepiej oszacowane.

Dobry motyw

Stworzenie pierwszego motywu zaczniemy od wygenerowania jego rytmu. Przypomnę tutaj, że przyjęliśmy wcześniej pewne uproszczenie – każdy z motywów i ich wariacji będzie trwać dokładnie jeden takt. Kolejne kroki generowania rytmu motywu: – losujemy pierwszą wartość rytmiczną z użyciem unigramów, – losujemy kolejną wartość rytmiczną z użyciem bigramów i unigramów – kontynuujemy losowanie kolejnych wartości rytmicznych, z użyciem N-gramów co raz wyższych rzędów (aż do 5-gramów), – przerywamy aż osiągniemy sumaryczną wartość rytmiczną równą długości jednego taktu – jeśli przekroczyliśmy długość 1 taktu, zaczynamy cały proces od początku (takie generowanie jest to na tyle szybkie, że możemy sobie pozwolić na taką niezbyt optymalną metodę prób i błędów).

Następny etap to wygenerowanie dźwięków motywu. Kolejnym uproszczeniem jakie wcześniej przyjęliśmy jest to, że generujemy utwory tylko w tonacji C-dur, dlatego skorzystamy ze statystyk N-gramów stworzonych na utworach przetransponowanych do tej tonacji, z wyłączeniem utworów w tonacjach molowych. Schemat działania jest podobny do tego przy generowaniu rytmu: – losujemy pierwszy dźwięk z użyciem unigramów, – losujemy kolejny dźwięk z użyciem bigramów i unigramów, – kontynuujemy aż wylosujemy tyle dźwięków, ile wylosowaliśmy wcześniej wartości rytmicznych – sprawdzamy, czy motyw pasuje do harmonii, jeśli nie to wracamy zaczynamy od początku – jeśli po ok. 100 próbach nie udało się wygenerować motywu pasującego do harmonii, to może oznaczać, że przy zadanej harmonii i zadanym rytmie jest bardzo małe prawdopodobieństwo wylosowania dźwięków, które będą pasować do harmonii. W takim przypadku cofamy się i generujemy nowy rytm motywu.

Generuj do skutku

Zarówno przy generowaniu rytmu motywu jak i generowaniu jego dźwięków stosujemy metodę prób i błędów. Będziemy ją też stosować w opisanym niżej generowaniu wariacji motywów. Choć taki sposób może się to wydawać “głupi”, to jest prosty i działa. Pomimo iż bardzo często takie losowo wygenerowane motywy nie pasują do harmonii, to możemy sobie pozwolić na wiele takich pomyłek. Nawet 1000 prób zajmuje krótki czas obliczeń na dzisiejszych komputerach, a wystarczy by znaleźć odpowiedni motyw.

Wariacje z powtórzeniami

Mamy pierwszy motyw, a następnie potrzebujemy dalszego ciągu melodii. Nie będziemy jednak cały czas generować nowych motywów, ponieważ utwór stałby się chaotyczny. Nie możemy także ciągle powtarzać tego samego motywu, ponieważ utwór stałby się zbyt nudny. Rozsądną drogą będzie oprócz powtórzeń motywów stworzyć także modyfikację tego motywu co zapewni zróżnicowanie, ale nie uczyni utworu chaotycznym.

Istnieje wiele metod tworzenia wariacji motywu. Jedną z nich jest transpozycja chromatyczna. Polega ona na tym, że wszystkie nuty transponowane są w górę lub dół o ten sam interwał. W takim przypadku zdarza się, że wariacja motywu posiada dźwięki spoza tonacji utworu. To z kolei powoduje, że szansa na to, że wariacja będzie pasować do harmonii jest bardzo mała. Kolejnym sposobem jest transpozycja diatoniczna, gdzie wszystkie nuty są transponowane o tę samą liczbę stopni skali. W przeciwieństwie do poprzedniej metody, wariacje diatoniczne nie posiadają dźwięków spoza tonacji.

Następnym sposobem jest zmiana jednego interwału – zmieniamy wtedy jeden z interwałów motywu pozostawiając wszystkie pozostałe interwały niezmienione. W ten sposób jedna część motywu (początek lub koniec) transponujemy (transpozycją chromatyczną lub diatoniczną). Inne metody to zamiana dwóch nut o tej samej wartości rytmicznej na jedną oraz zamiana jednej nuty na dwie nuty o tej samej wartości rytmicznej. W przypadku pierwszej metody, jeśli motyw posiada dwie nuty o tej samej wartości rytmicznej to możemy zmienić jego rytm i połączyć dwie takie nuty. W przypadku drugiej metody w sposób losowy wybieramy nutę, która zamieniamy na dwie „krótsze”.

Dzięki każdemu z opisanych sposobów tworzenia wariacji można wygenerować różne motywy. Wymienione metody nie są jedynymi obowiązującymi. Można ich wymyślić znacznie więcej. Jedyną zasadą ograniczającą w tym procesie jest to by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja, a gdzie zaczyna już inny motyw jest umowna.

Itp. itd.

Metod do tworzenia wariacji motywów jest o wiele więcej, wymyślić można ich mnóstwo. Jedyne co nas ogranicza, to zasada, by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja, tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja a gdzie zaczyna już inny motyw jest raczej umowna i każdy trochę inaczej ją “czuje”, definiuje.

Czy to już koniec?

No to tyle jeśli chodzi o generowanie utworów. Podsumujmy więc kroki jakie przedsięwzięliśmy:

  1. Generacja harmonii utworu:
    • generacja rytmu harmonicznego,
    • generacja progresji akordów.
  2. Generacja melodii:
    • generowanie rytmu motywu,
    • generowanie dźwięków motywu,
    • tworzenie wariacji motywów,
    • tworzenie motywów i wariacji “aż do skutku”, czyli aż będą dopasowane do wygenerowanej harmonii

Pozostało nam jeszcze sprawienie by wygenerowane utwory miały zadaną, tj. dopasowaną do umiejętności grającego, trudność.

Sterowanie trudnością

Jednym z naszych założeń była możliwość sterowania trudnością utworu. Możemy to uzyskać dzięki dwóm podejściom:

  1. generowaniu utworów „jak leci” i sprawdzanie ich poziomów trudności (wg sposobów opisanych wcześniej); przygotowaniu w ten sposób dużej bazy utworów, z której następnie zostaną wybrane losowe utwory o zadanej trudności,
  2. sterowaniu parametrami tworzenia harmonii, motywów i wariacji tak by częściej generowały elementy muzyczne o zadanej trudności

Oba sposoby nie wykluczają się wzajemnie, dlatego możemy z powodzeniem stosować je razem. W pierwszej kolejności należy wygenerować losowo np. 1000 utworów, a następnie sterować parametrami tak by wytworzyć kolejne (ale tylko takie jakich nam brakuje). Odnośnie sterowania parametrami warto zaznaczyć, że można zmieniać prawdopodobieństwo powtórzenia się motywu. Dla utworów o zadanym niskim poziomie trudności nadane prawdopodobieństwo będzie większe (powtórzenia gra się łatwiej). Trudne utwory z kolei będą miały nadane większe prawdopodobieństwo oraz rzadziej spotykane harmonie (które wymuszą także rzadziej spotykane motywy i wariacje).

Grać jak z nut – cz. 2

W pierwszej części artykułu poznaliśmy bardzo dużo pojęć muzycznych i technicznych. Teraz czas je wykorzystać do zbudowania automatycznego kompozytora. Zanim jednak do tego przystąpimy, musimy przyjąć pewne założenia (a raczej uproszczenia):

  • utwory będą się składały z 8 taktów w budowie okresowej (poprzednik 4 takty, następnik 4 takty)
  • metrum będzie 4/4 (czyli 4 ćwierćnuty na takt, akcent na pierwszą i trzecią miarę taktu)
  • długość każdego motywu wynosi 1 takt (mimo że to wymaganie wydaje się restrykcyjne, jednak wiele popularnych utworów jest zbudowanych właśnie z motywów, które trwają 1 takt).
  • stosowana będzie tylko tonacja C-dur (w razie potrzeby zawsze można po wygenerowaniu utworu przetransponować go do dowolnej tonacji)
  • ograniczymy się do ok. 25 najczęściej stosowanych odmian stopni harmonicznych (stopni jest 7, ale część z nich ma kilka wersji, z dodatkowymi dźwiękami, które zmieniają barwę akordu).

Co jest potrzebne do stworzenia utworu?

Do stworzenia w automatyczny sposób prostego utworu muzycznego potrzebne nam jest:

  • wygenerowanie harmonii utworu – akordów i ich rytmu
  • stworzenie motywów – ich dźwięków (wysokości) i rytmu
  • stworzenie wariacji tych motywów – j.w.
  • połączenia motywów i wariacji w melodię, dopasowując je do harmonii

Po opanowaniu podstaw możemy przejść do pierwszej części automatycznego komponowania – generowania harmonii. Zacznijmy od stworzenia rytmu harmonii.

Wolny rytm

Choć można by się pokusić o stworzenie statystycznego modelu rytmu harmonicznego, to, niestety, (przynajmniej w chwili pisania tego artykułu) nie ma dostępnej bazy, która by to umożliwiła. Wobec powyższego, musimy poradzić sobie w inny sposób – sami wymyślmy taki model. W tym celu wybierzmy kilka “sensownych” rytmów harmonicznych i zadamy im jakieś “sensowne” prawdopodobieństwa.

rytmprawdopodobieństworytmprawdopodobieństwo
[8]0.2[2,2]0.1
[6, 2]0.1[2,1,1]0.02
[2, 6]0.1[3,1]0.02
[7, 1]0.02[1,1,1,1]0.02
[4]0.4[1,1,2]0.02
Tab1. Rytmy harmoniczne, wartości wyrażane w ćwierćnutach – [6, 2] oznacza rytm, w którym są dwa akordy, pierwszy trwa 6 ćwierćnut, a drugi 2 ćwierćnuty.


Rytmy w tabeli przedstawione są w postaci tego, jak długo akordy będą trwały, a długość trwania przedstawiona jest w liczbie ćwierćnut. Niektóre rytmy trwają dwa takty (np. [8], [6, 2]), a pozostałe jeden takt ([4], [1, 1, 2] itd.).

Generowanie rytmu harmonii przebiega w następujący sposób. Losujemy kolejne rytmy aż do momentu, gdy otrzymamy tyle taktów, ile potrzebowaliśmy (w naszym przypadku 8). Ze względu na to, że rytmy mają różną długość, czasami mogą wyniknąć z tego pewne komplikacje. Przykładowo, może zaistnieć taka sytuacja, że do zakończenia generacji będzie potrzebny ostatni rytm o długości 4 ćwierćnut, a my natomiast wylosujemy rytm o długości 8. W takim przypadku, aby uniknąć niepotrzebnych problemów, można wymusić losowanie z podzbioru rytmów o długości 4 ćwierćnut.

W takim razie, zgodnie z powyższymi ustaleniami, załóżmy, że wylosowaliśmy następujące rytmy:

  • poprzednik: [4, 4], [2, 2], [3, 1], 
  • następnik: [3, 1], [8], [2, 2]

Likelihood

W kolejnym kroku będziemy wykorzystywali pojęcie likelihood. Jest to nieznormalizowane do jedynki prawdopodobieństwo (tzw. pseudo-prawdopodobieństwo), które pomaga ocenić względny poziom prawdopodobieństwa różnych zdarzeń. Dla przykładu, jeżeli likelihoody zdarzeń A i B wynoszą odpowiednio 10 oraz 20, to oznacza, że zdarzenie B jest dwa razy bardziej prawdopodobne od zdarzenia A. Równie dobrze mogłyby te likelihoody wynosić 1 oraz 2, albo 0.005 oraz 0.01. Z likelihoodów można policzyć prawdopodobieństwo. Jeśli założymy, że jedynie zdarzenia A i B mogą wystąpić, to ich prawdopodobieństwa będą wynosić odpowiednio:

Obrazek posiada pusty atrybut alt; plik o nazwie Zasob-1.svg

Progresje akordów

Aby wygenerować prawdopodobne przebiegi harmoniczne najpierw przygotujemy sobie modele N-gramowe stopni harmonicznych. W tym celu skorzystamy z modeli n-gramów udostępnionych na githubie (https://github.com/DataStrategist/Musical-chord-progressions).

Nasz przykładzie będzie wykorzystywać 1-, 2-, 3-, 4- i 5-gramy.

W rytmie harmonii poprzednika jest 6 wartości rytmicznych, więc musimy przygotować przebieg 6 stopni harmonicznych. Pierwszy akord generujemy z użyciem unigramów (1-gramów). Przygotowujemy sobie zatem najpierw likelihoody dla każdego możliwego stopnia, a następnie losujemy z uwzględnieniem tych likelihoodów. Wzór na likelihood jest w tym przypadku dość prosty:

likelihoodX=p(X)

gdzie
X oznacza dowolny stopień harmoniczny
p(X) to prawdopodobieństwo 1-gramu X

My w tym przypadku wylosowaliśmy IV stopień (w tej tonacji F-dur).

Drugi akord generujemy z użyciem bigramów oraz unigramów, z wagą większą dla bigramów:

likelihoodX=waga2gramp(X v IV)+waga1gram*p(X)

gdzie:

  • p(X v IV) to prawdopodobieństwo przebiegu (IV, X)
  • wagaNgram to przyjęta waga N-gramu (im większa tym większy wpływ tego modelu n-gramowego, a mniejszy wpływ innych modeli)

Wagi n-gramów możemy przyjąć takie, jakie chcemy. Na potrzeby przykładu wybraliśmy takie:

n-gram12345
waga0.0010.010.115

Kolejny akord jaki wylosowaliśmy to: vi stopień (a-moll).

Generowanie trzeciego akordu przebiega podobnie, z tym że możemy już wykorzystać 3-gramy:

likelihoodX=waga3gramp(X v IV, vi)+waga2gramp(X v IV)+waga1gram*p(X)

I tak kontynuujemy, aż wygenerujemy wszystkie potrzebne akordy. W naszym przypadku wylosowaliśmy:

IV,  vi, I, iii, IV, vi (w przyjętej tonacji C-dur to są kolejno akordy F-dur, a-moll, C-dur, e-moll, F-dur, a-moll)

Nie jest to jakiś bardzo często spotykany przebieg akordów, ale jak się okazuje występuje w 5 popularnych piosenkach (https://www.hooktheory.com/trends#node=4.6.1.3.4.6&key=rel)

Podsumowanie

Udało nam się wygenerować rytmy i akordy, które są składowymi harmonii utworu. Należy tutaj jednak zwrócić jeszcze uwagę, że dla uproszczenia, nie wzięliśmy pod uwagę dwóch ważnych czynników:

  • Przebiegi harmoniczne poprzednika i następnika są bardzo często w jakiś sposób powiązane. Harmonia następnika może być identyczna do tej poprzednika lub ewentualnie lekko zmieniona, aby sprawiać wrażenie, że te dwa zdania są ze sobą w jakiś sposób powiązane.
  • Poprzednik i następnik kończą się prawie zawsze na konkretnych stopniach harmonicznych. Nie jest to ścisła reguła, ale niektóre stopnie harmoniczne są o wiele bardziej prawdopodobne od innych na końcach zdań muzycznych.

Na potrzeby przykładu można jednak uznać zadanie za zakończone. Harmonię utworu mamy już gotową, teraz należy jedynie stworzyć melodię do tej harmonii. W trzeciej części naszego artykułu można dowiedzieć się, jak właśnie taką melodię skomponować.

Nowe rozwiązania w komputerach stacjonarnych

Współczesny rynek technologiczny prężnie rozwija się w zakresie komputerów stacjonarnych. Firmy technologiczne próbują wyróżniać swoje produkty poprzez wprowadzanie do nich innowacyjnych rozwiązań. W ostatnim czasie duży rozgłos zyskał Mac M1 Ultra.

Nowy komputer od Apple, odznacza się przede wszystkim swoją wielkością i mobilnością. Zaprezentowany na początku marca produkt jest pełnoprawnym desktopem zamkniętym w obudowie o wymiarach 197 x 197 x 95 mm. Porównując to do kart graficznych Nvidii z serii RTX, np. Gigabyte GeForce RTX 3090 Ti 24GB GDDR6X, gdzie samo GPU ma wymiary 331 x 150 x 70 mm, okazuje się, że otrzymujemy cały komputer o rozmiarach karty graficznej. [4]

Apple M1 Ultra  - przedni panel
Rys. 1 – Apple M1 Ultra  – przedni panel [5]

Różnica w budowie

Rdzenie to fizyczne elementy procesora w których zachodzą procesy i obliczenia, im więcej rdzeni tym szybciej pracować będzie komputer. Proces technologiczny wyrażony w nm oznacza wielkość bramki tranzystora i przekłada się na zapotrzebowanie energii oraz ciepło generowane przez procesor. Zatem im mniejsza wartość jest wyrażona w nm, tym wydajniejszy jest procesor.

Procesor M1 Ultra ma 20 rdzeni i tyle samo wątków, a wykonany jest w technologii 5nm. [4][6] Dla porównania AMD oferuje maksymalnie 16 rdzeni i 32 wątki w technologii 7nm [7] (nowe procesory AMD z serii ZEN4 mają mieć technologię 5nm, jednak na  ten moment nie znamy dokładnej specyfikacji [3]) a Intel 16 rdzeni i 32 wątki w technologii 14nm [8]. Wobec powyższego, w teorii produkt od Apple ma znaczną przewagę nad konkurencją w kwestiach wydajności pojedynczego wątku. [Rys. 2]

Wydajność nowego komputera Apple

Według zapewnień producenta, GPU od Apple miało przewyższać najlepszą, na tamten moment, dostępną kartę graficzną – RTX 3090.

Wykres  wydajności procesora od ilości zużytego prądu
Rys. 2 – Wykres  wydajności procesora od ilości zużytego prądu [9] . Wykres pokazany przez Apple podczas prezentacji nowego produktu

Zintegrowana karta graficzna miała zapewniać lepszą wydajność przy zużyciu ponad 200W mniej mocy. [Rys. 3] Po premierze, użytkownicy sprawdzili jednak szybko zapewnienia producenta i okazało się, że RTX znacznie przewyższa w testach benchmarkowych produkt Apple.

Wykres wydajności karty graficznej od ilości zużytego prądu
Rys. 3 – Wykres wydajności karty graficznej od ilości zużytego prądu [9]. Wykres pokazany przez Apple podczas prezentacji nowego produktu. Porównany z RTX 3090

Problemem jest to, że te benchmarki w większości wykorzystują programy niezoptymalizowane pod Mac OS, przez co produkt Apple nie wykorzystuje całości swojej mocy. W testach wykorzystujących całą moc GPU M1 Ultra wypada bardzo podobnie do swojego dedykowanego rywala. Niestety nie wszystkie aplikacje są napisane pod system operacyjny Apple, co mocno ogranicza zastosowania, w których wykorzystamy pełną moc komputera.[10]

Na poniższym wykresie zostało przedstawione porównanie liczby klatek na sekundę w “Shadow of the Tomb Raider” z 2018 roku. [Rys. 4] Im więcej klatek tym płynniejszy jest obraz. [2]

Liczba klatek na sekundę w grze z serii Tomb Raider
Rys. 4 – Liczba klatek na sekundę w grze z serii Tomb Raider (im więcej tym lepiej)[2]

Pobór energii nowego Mac Studio M1 Ultra w porównaniu do standardowych PC

Pomimo dużej mocy obliczeniowej, nowy produkt Apple jest bardzo energooszczędny. Producent podaje, że jego maksymalny ciągły pobór mocy wynosi 370W. Standardowe PC na współczesnych podzespołach nie schodzą poniżej 500W a rekomendowana moc dla sprzętu z najlepszymi częściami wynosi 1000W [Tab. 1] ( Nvidia GeForce RTX 3090 Ti + AMD R7/9 lub Intel i7/9 ).  

Intel i5
AMD R5
Intel i7
AMD R7
Intel i9 K
AMD R9
NVIDIA RTX 3090 Ti850W1000W1000W
NVIDIA RTX 3090 750W850W850W
NVIDIA RTX 3080 Ti750W850W850W
NVIDIA RTX 3080 750W850W850W
NVIDIA RTX 3070 Ti750W850W850W
NVIDIA RTX 3070 650W750W750W
Lower graphic cards650W650W650W
Tab. 1 – Tabela rekomendowanej mocy zasilacza zależnie od użytego procesora i karty graficznej. W kolumnach procesory AMD i Intel, w wierszach karty graficzne NVIDIA z serii RTX. [1]

Oznacza to znacznie mniejsze koszty utrzymania takiego komputera. Zakładając, że nasz komputer pracuje 8h dziennie i średni koszt kWh na poziomie 0,77 PLN, otrzymujemy oszczędność na poziomie 1500 zł rocznie. W krajach, które nie są zasilane zieloną energią oznacza to również mniejszą ilość zanieczyszczeń.

Problemy produktu od Apple

Produkty od Apple mają dedykowany software, co oznacza lepszą kompatybilność z hardware i przekłada się na lepszą wydajność, ale oznacza też, że dużo programów nie napisanych pod Mac OS nie jest w stanie całkowicie wykorzystać potencjału M1 Ultra. Produkt nie pozwala na korzystanie z dwóch systemów operacyjnych lub samodzielne zainstalowanie Windowsa/Linuxa. Okazuje się więc, że to co pozwala M1 Ultra osiągnąć tak dobre wyniki w niektórych warunkach, jest też powodem przez który nie jest w stanie konkurować wydajnością w innych programach. [10]

Podsumowanie

Apple M1 Ultra jest silnym komputerem w małej obudowie. Technologia 5nm zapewnia najlepszą energooszczędność wśród produktów aktualnie dostępnych na rynku. Jednak przez swoją niską kompatybilność i wysoką cenę nie zastąpi standardowych komputerów. Aby uzyskać maksymalną wydajność potrzebne są programy dedykowane pod system operacyjny Apple. Decydując się na ten komputer trzeba to mieć na myśli. Z tego powodu, pomimo wielu zalet jest to raczej produkt przeznaczony dla profesjonalnych grafików, muzyków lub edytorów wideo.

Bibliografia

[1] https://www.msi.com/blog/we-suggest-80-plus-gold-1000w-and-above-psus-for-nvidia-geforce-rtx-3090-Ti

[2] https://nano.komputronik.pl/n/apple-m1-ultra/

[3] https://www.tomshardware.com/news/amd-zen-4-ryzen-7000-release-date-specifications-pricing-benchmarks-all-we-know-specs

[4] https://www.x-kom.pl/p/730594-nettop-mini-pc-apple-mac-studio-m1-ultra-128gb-2tb-mac-os.html

[5] https://dailyweb.pl/apple-prezentuje-kosmicznie-wydajny-mac-studio-z-nowym-procesorem-m1-ultra/

[6] https://geex.x-kom.pl/wiadomosci/apple-m1-ultra-specyfikacja-wydajnosc/

[7] https://www.amd.com/pl/partner/ryzen-5000-series-desktop

[8] https://www.cpu-monkey.com/en/

[9] https://www.apple.com/pl/newsroom/2022/03/apple-unveils-m1-ultra-the-worlds-most-powerful-chip-for-a-personal-computer/

[10] https://youtu.be/kVZKWjlquAU?t=301

Chmura obliczeniowa a środowisko

Termin chmury obliczeniowej trudno jest jednoznacznie zdefiniować. Inne podejście do chmury będą miały przedsiębiorstwa czy osoby prywatne. Zwykle mówimy o chmurze obliczeniowej jako o sieci dostępnych na żądanie zasobów serwerowych – mocy obliczeniowej oraz przestrzeni dyskowej, ale również i oprogramowania – dostarczanych przez zewnętrzne podmioty, czyli tzw. dostawców chmury (ang. cloud provider). Dostarczane zasoby są dostępne przez Internet oraz zarządzane przez dostawcę, eliminując tym samym wymóg kupowania sprzętu oraz bezpośredniego zarządzania fizycznymi serwerami przez firmy. Dodatkowo, chmura jest rozproszona na wiele centrów danych w wielu rejonach świata, dzięki czemu możemy liczyć na mniejszą awaryjność oraz większą dostępność naszych usług [1].

Podstawowe działanie chmury

Zasoby dostępne w chmurze są współdzielone przez wielu klientów, dzięki czemu można lepiej wykorzystać dostępną moc obliczeniową oraz przy odpowiednim użyciu, może okazać się ona korzystniejsza cenowo. Takie podejście do współdzielenia zasobów może budzić pewne obawy, jednak dzięki wykorzystaniu technologii wirtualizacji, chmura zapewnia wyższe bezpieczeństwo niż w klasycznym modelu obliczeniowym. Wirtualizacja pozwala na tworzenie symulowanych komputerów, tzw. maszyn wirtualnych, które zachowują się tak jak ich fizyczne odpowiedniki, jednak znajdują się na jednym serwerze i są od siebie w pełni odizolowane. Współdzielenie zasobów i wirtualizacja pozwalają na efektywne wykorzystanie sprzętu oraz ostatecznie ograniczenie poboru prądu przez serwerownie. Oszczędności finansowe możemy natomiast odczuć ze względu na powszechnie stosowany przez dostawców model biznesowy “pay-as-you-go” polegający na rozliczaniu użytkowników za faktycznie wykorzystane zasoby (np. za minuty czy nawet sekundy wykorzystanego czasu obliczeniowego) w przeciwieństwie do stałego abonamentu. 

Samo określenie “chmury” zapoczątkowało się jako termin slangowy. Często na schematach technicznych infrastrukturę sieciową i serwerową reprezentujemy jako ikonę chmury [2]. Aktualnie “chmura obliczeniowa” jest powszechnie przyjętym określeniem w środowisku IT oraz popularnym modelem obliczeniowym. Przystępność cenowa chmury oraz brak konieczności samodzielnego zarządzania nią, sprawia, że ten model obliczeniowy jest coraz częściej wybierany przez firmy informatyczne, co pozytywnie przekłada się na aspekty środowiskowe [3].

Mniejsze zużycie energii elektrycznej 

Wzrastające zapotrzebowanie na rozwiązania z obszaru IT niesie za sobą równocześnie większe zapotrzebowanie na energię elektryczną – zasób strategiczny z punktu widzenia utrzymania chmury. Utrzymywanie swojej własnej serwerowni w przedsiębiorstwie wiąże się jednak z ogromnymi nakładami energetycznymi, które generuje nie tylko sam sprzęt komputerowy, ale także system do chłodzenia serwerowni. 

Wbrew pozorom większe serwerownie, które przeliczają na raz ogromne ilości danych są bardziej przyjazne środowisku niż lokalne serwerownie w przedsiębiorstwach [4]. Według badań Accenture, przeniesienie własności przedsiębiorstwa do chmury może zredukować zużycie energii nawet o prawie 65%. Jest to wynikiem tego, że największe rozwiązania chmurowe budowane są zazwyczaj w przeznaczonym do tego miejscu, co pozwala na lepszą organizację infrastruktury i zarządzanie zasobami [5]. Dostawcy dużych usług chmurowych mogą z wyprzedzeniem zaplanować system chłodzenia, który będzie dawać najlepsze efekty. Dodatkowo dysponują nowoczesnym, często dużo wydajniejszym prądowo sprzętem niż przeciętna serwerownia. W badaniach przeprowadzonych w 2019 roku, stwierdzono, że chmura AWS była 3,6 razy bardziej efektywna pod względem wykorzystywanej energii niż mediana badanych centrów danych przedsiębiorstw w USA [6].

Co więcej, ze względu na to, że chmura jest środowiskiem współdzielonym, można efektywnie sterować mocą. Skala użytkowników jednej chmury obliczeniowej pozwala na bardziej rozważne rozdysponowanie zużywanej energii pomiędzy poszczególnymi przypadkami. Zrównoważone zarządzanie zasobami umożliwia również nasz produkt Data Engineering, który zbiera i analizuje dane w celu maksymalizacji wydajności i efektywności pracy.

Zmniejszenie emisji szkodliwych substancji

Poprzez budowę centrów przetwarzania danych, które korzystają z ekologicznych źródeł energii oraz opierają się na niskoemisyjnych rozwiązaniach, można chociażby kontrolować emisję dwutlenku węgla i innych gazów mających wpływ na efekt cieplarniany. Zgodnie z danymi z raportu “The Green Behind Cloud” [7] migracje do chmury publicznej mogą zredukować globalną emisję dwutlenku węgla o 59 mln ton rocznie, co jest porównywalne do usunięcia 22 milionów samochodów z drogi.

Warto również zainteresować się migracją do dostawców mających na uwadze swój ślad węglowy. Dla przykładu chmura firmy Google jest w pełni neutralna pod względem emisji dwutlenku węgla wykorzystując energię odnawialną, a od roku 2030 zobowiązuje się do wykorzystywania wyłącznie energii bezemisyjnej przez całą dobę we wszystkich centrach danych [8]. Chmura Azure firmy Microsoft jest neutralna emisyjnie od 2012 roku, a klienci mogą śledzić emisję swoich usług w specjalnie przygotowanym kalkulatorze [9].

Redukcja hałasu związanego z użytkowaniem sprzętu IT 

Hałas klasyfikowany jest jako zanieczyszczenie środowiska. Mimo że na pierwszy rzut oka wydaje się on całkiem niepozorny i nieszkodliwy, ma on negatywny wpływ na zdrowie człowieka i jakość środowiska. W odniesieniu do człowieka, zwiększa on ryzyko chorób takich jak nowotwór, zawał serca czy nadciśnienie. Z kolei z perspektywy środowiskowej ma on wpływ na zmianę zachowania zwierząt, migracji ptaków czy też ich reprodukcję.

Głównym źródłem hałasu w rozwiązaniach przechowywania danych w serwerach w firmie jest specjalny system chłodzenia, który pozwala utrzymać odpowiednią temperaturę w serwerowni. Wykorzystanie rozwiązań chmurowych pozwala zredukować emitowany hałas przez urządzenia chłodzące w miejscach pracy, co w konsekwencji przyczynia się do zmniejszenia zanieczyszczenia środowiska hałasem.

Jeśli chcesz dowiedzieć się więcej o dostępnych rozwiązaniach pozwalających na redukcję hałasu przemysłowego, sprawdź nasz produkt Intelligent Acoustics.

Redukcja poziomu odpadów 

Zastosowanie chmury obliczeniowej w swojej działalności, w przeciwieństwie do posiadania tradycyjnych serwerów w zasobach firmowych, wpływa również na zmniejszenie ilości produkowanych odpadów komputerowych. Wynika to głównie z faktu, iż chmura obliczeniowa nie wymaga zakupu dodatkowego wyposażenia czy też przygotowania infrastruktury do serwerowni w firmie, co w późniejszej perspektywie ogranicza ilość sprzętu do utylizacji.  

Ponadto, stosowane mechanizmy wirtualizacji, polegające na zastępowaniu większej liczby serwerów z małą mocą obliczeniową na mniejsze ilości serwerów, które później skuteczniej wykorzystują ową moc, optymalizują i zwiększają wydajność serwera, a to w rezultacie zmniejsza zapotrzebowanie na zasoby sprzętowe.  

Podsumowanie 

Aktualnie działanie zrównoważone jest ważnym czynnikiem przy wyborze technologii. Ochrona środowiska staje się dla firm, a także producentów urządzeń sieciowych czy telekomunikacyjnych, sprawą priorytetową, co przekłada się na szukanie bardziej ekologicznych rozwiązań. Chmura obliczeniowa zdecydowanie wpisuje się w ten trend. Nie tylko przyczynia się do ograniczenia zużycia zasobów sprzętowych, energetycznych, a także redukuje emisję szkodliwych substancji do ekosystemu czy emitowany hałas do środowiska.  

Bibliografia

[1] https://www.wit.edu.pl/dokumenty/wydawnictwa_naukowe/zeszyty_naukowe_WITZ_06/0006_Joszczuk-Januszewska.pdf 

[2] https://rocznikikae.sgh.waw.pl/p/roczniki_kae_z36_21.pdf 

[3] http://yadda.icm.edu.pl/yadda/element/bwmeta1.element.ekon-element-000171363539  

[4] Paula Bajdor, Damian Dziembek “Środowiskowe i społeczne efekty zastosowania chmury obliczeniowej w przedsiębiorstwach”, 2018 

[5] https://www.accenture.com/_acnmedia/PDF-135/Accenture-Strategy-Green-Behind-Cloud-POV.pdf  

[6] “Reducing carbon by moving to AWS” https://www.aboutamazon.com/news/sustainability/reducing-carbon-by-moving-to-aws

[7] https://www.accenture.com/us-en/insights/strategy/green-behind-cloud

[8] “Operating on 24/7 Carbon-Free Energy by 2030.” https://sustainability.google/progress/energy/

[9] https://www.microsoft.com/en-us/sustainability/emissions-impact-dashboard

Generative Adversarial Networks GAN

GANy, czyli Generative Adversarial Networks pierwszy raz zostały zaproponowane przez studentów University of Montreal Iana Goodfelllow oraz innych (m. in. Yoshua Bengio) w 2014 roku. W 2016 roku dyrektor ds. badań nad AI w Facebook oraz profesor na New York University Yann LeCun nazwał je najbardziej interesującym pomysłem ostatnich 10 lat uczenia maszynowego.

Aby zrozumieć czym są GANy, należy je porównać z algorytmami dyskryminującymi, którymi mogą być chociażby zwykłe głębokie sieci neuronowe DNN. Wprowadzenie do sieci neuronowych przeczytasz w tym artykule, a więcej informacji o konwolucyjnych sieci neuronowych znajdziesz tutaj).

Dla przykładu skorzystajmy z problemu przewidzenia tego czy dany e-mail to spam czy nie. Słowa składające się na treść e-maila są zmiennymi, które wskazują na jedną z etykiet: spam, nie spam. Algorytm dyskryminujący na podstawie wektora danych wejściowych (słowa występujące w danej wiadomości są przekształcane na reprezentacje matematyczną) uczy się przewidywać jak bardzo dany e-mail jest spamem, tzn. wyjściem dyskryminatora jest prawdopodobieństwo jak bardzo dane wejściowe są spamem, zatem uczy się relacji pomiędzy wejściem a wyjściem.

GANy działają dokładnie na odwrót. Zamiast przewidywać co reprezentują dane wejściowe próbują przewidywać dane mając etykietę. Dokładniej próbują one odpowiedzieć na pytanie: Zakładając, że ten e-mail to spam, jak prawdopodobne są te dane?

Wyrażając się bardziej precyzyjnie, zadaniem Generative Adversarial Networks jest rozwiązanie problemu modelowania generatywnego (z ang. generative modeling), który można zrobić na 2 sposoby (zawsze potrzebujemy danych o dużej rozdzielczości, np. obrazy lub dźwięk). Pierwszą możliwością jest estymacja gęstości – mając dużą ilość przykładów chcemy znaleźć funkcję prawdopodobieństwa gęstości, która je opisuje. Drugie podejście to stworzenie algorytmu, który nauczy się generować dane z tego samego zbioru danych treningowych (nie chodzi bynajmniej o tworzenie tych samych informacji a nowych, które mogłyby być nimi).

Jakie jest podejście GANów do modelowania generatywnego?

To podejście można porównać do gry, w którą gra dwóch agentów. Jeden z nich to generator, który próbuje tworzyć dane. Natomiast drugi to dyskryminator, który przewiduje czy te dane są prawdziwe czy nie. Celem generatora jest oszukanie drugiego gracza. Zatem z czasem, gdy obie stają się coraz lepsze w swoim zadaniu jest on zmuszony generować dane, które są jak najbardziej podobne do danych treningowych.

Jak wygląda proces uczenia?

Pierwszy agent – czyli dyskryminator (jest on jakąś różniczkowalną funkcją D, zazwyczaj siecią neuronową) dostaje na wejście jedną z danych treningowych (np. zdjęcie twarzy). Dalej nazywamy to zdjęcie (jest to po prostu nazwa wejścia do modelu) i jego celem jest, aby D(x) było jak najbliższe 1 – co znaczy, że x jest prawdziwym przykładem.

Drugi agent – czyli generator (który też musi być różniczkowalną funkcją G, również jest zazwyczaj siecią neuronową) otrzymuje na wejście biały szum (losowe wartości, które pozwalają mu na generowanie różnych, prawdopodobnych zdjęć). Następnie stosując funkcję do szumu z otrzymujemy x (innymi słowy G(z) = x). Liczymy na to, że próbka x będzie dość podobna do oryginalnych danych treningowych, jednak ma pewnego rodzaju problemy jak np. zauważalne zaszumienie, co może pozwolić na rozpoznanie tej próbki jako fałszywy przykład przez dyskryminator. Kolejnym krokiem jest zastosowanie funkcji dyskryminującej D do fałszywej próbki x z generatora. Teraz celem D jest sprawienie, żeby D(G(z)) było jak najbliżej zera, natomiast celem G jest aby D(G(z)) było blisko jedynki.

Można to porównać do przykładu fałszerzy pieniędzy oraz policji. Policjanci chcą, aby społeczeństwo mogło posługiwać się prawdziwymi banknotami bez możliwości bycia oszukanymi oraz wykryć te fałszywe, a następnie usunąć je z obiegu i ukarać przestępców. W tym samym czasie fałszerze chcą oszukać policję i używać stworzone przez siebie pieniądze. Co za tym idzie – obydwa środowiska, policjantów oraz złodziei, uczą się wykonywać swoje zadanie coraz lepiej.

Zakładając, że przykładowe możliwości policjantów i fałszerzy, czyli dyskryminatora i generatora są nieograniczone to punkt równowagi tej gry jest następujący: generator nauczył się tworzyć idealne dane, których nie da się rozróżnić, co za tym idzie wynik dyskryminatora to zawsze 0.5 – to znaczy nie potrafi on powiedzieć czy dana próbka jest prawdziwa czy nie.

Jakie są zastosowania GANów?

Sieci te przede wszystkim są szeroko wykorzystywane do operacji nad obrazami. Nie jest to ich jedyne zastosowanie, ponieważ równie dobrze można ich używać do jakiegokolwiek rodzaju danych.

Style Transfer w wykonaniu CycleGAN
Rys. 1 Style Transfer w wykonaniu CycleGAN

Na przykład sieć DiscoGAN potrafi przetransferować styl lub wzór z jednej dziedziny (np. torebki) do innej (np. buta). Również umie ze szkicu przedmiotu wygenerować prawdopodobny obraz (jest wiele sieci, które to też potrafią, jedną z nich jest Pix2Pix). Jest to jedno z częstszych zastosowań GANów, tzw. Style Transfer. Innymi przykładami tego zastosowania jest np. sieć CycleGAN, która zwykłe zdjęcie potrafi przemienić w obraz Van Gogha, Moneta, itd. Pozwalają one także na generowanie zdjęć z opisu (sieć StackGAN) oraz potrafią zwiększać rozdzielczość obrazów (sieć SRGAN).

Przydatne materiały

[1] Goodfellow I., Improved Techniques for Training GANs, https://arxiv.org/abs/1606.03498
2016, https://arxiv.org/pdf/1609.04468.pdf

[2] Chintala S., How to train a GAN, https://github.com/soumith/ganhacks

[3] White T., Sampling Generative Networks, School of Design, Victoria University of Wellington, Wellington

[4] LeCun Y., Mathieu M., Zhao J., Energy-based Generative Adversarial Networks, Department of Computer Science, New York University, Facebook Artificial Intelligence Research, 2016, https://arxiv.org/pdf/1609.03126v2.pdf

Bibliografia

[1] Goodfellow I., Tutorial: Generative Adversarial Networks [online], „NIPS”, 2016, https://arxiv.org/pdf/1701.00160.pdf
[2] Skymind, A Beginner’s Guide to Generative Adversarial Networks (GANs) [online], San Francisco, Skymind, dostęp: 31.05.2019
[3] Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville,Aaron, and Bengio, Yoshua. Generative adversarial nets. InAdvances in Neural Information Processing Systems, pp. 2672–2680, 2014
[4] LeCun, Y., What are some recent and potentially upcoming breakthroughs in deep learning?, „Quora”, 2016, dostęp: 31.05.2019, https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning
[5] Kim T., DiscoGAN in PyTorch, dostęp: 31.05.2019, https://github.com/carpedm20/DiscoGAN-pytorch

Konwolucyjne sieci neuronowe

Sztuczna inteligencja w coraz większym tempie przybliża możliwości maszyn do ludzkich. Duże zainteresowanie zagadnieniem sprawia, że w ostatnich latach wiele dziedzin nauki zaliczyło duży skok rozwojowy.

Jednym z celów sztucznej inteligencji jest umożliwienie maszynom obserwowania otaczającego je świata w sposób podobny do ludzkiego. Jest to możliwe poprzez zastosowanie sieci neuronowych. Sieci neuronowe to matematyczne struktury, które w swojej podstawie inspirują się naturalnymi neuronami znajdującymi się w nerwach i mózgu człowieka.

Z pewnością wielokrotnie doświadczyłeś obecności sieci neuronowych w życiu codziennym, przykładowo w:

  • wykrywaniu i rozpoznawaniu twarzy na zdjęciach w smartfonie,
  • rozpoznawaniu komend głosowych przez wirtualnego asystenta,
  • autonomicznych samochodach.

Potencjał sieci neuronowych jest ogromny. Wymienione wyżej przykłady stanowią zaledwie ułamek obecnych zastosowań. Są one jednak związane ze szczególną klasą sieci neuronowych, zwanych konwolucyjnymi, CNN, bądź ConvNet (Convolutional Neural Networks).

Przetwarzanie obrazu a sieci neuronowe

Aby przybliżyć zagadnienie konwolucyjnych sieci neuronowych, skoncentrujemy się na ich najczęstszym zastosowaniu, czyli przetwarzaniu obrazu. CNN to algorytm, który może pobrać obraz wejściowy i sklasyfikować go wedle predefiniowanych kategorii (np. rasy psa). Jest to możliwe dzięki przypisaniu wag różnym kształtom, strukturom, obiektom.

Sieci konwolucyjne poprzez trening są w stanie nauczyć się, jakie cechy szczególne obrazu pomagają w jego klasyfikacji. Ich przewagą nad standardowymi sieciami głębokimi jest większa skuteczność w wykrywaniu zawiłych zależności w obrazach. Jest to możliwe dzięki zastosowaniu filtrów badających zależności pomiędzy sąsiednimi pikselami.

Macierze wartości obrazu RGB
Rys. 1 Ogólny schemat rozmiaru obrazu RGB

Każdy obraz jest macierzą wartości, których liczba jest proporcjonalna do jego szerokości i wysokości w pikselach. W przypadku obrazów RGB obraz cechują trzy kolory podstawowe, więc każdy piksel reprezentują trzy wartości. Zadaniem ConvNet jest redukcja rozmiaru obrazu do lżejszej formy bez utraty wartościowych cech, czyli tych, które niosą informacje kluczowe dla klasyfikacji.

CNN złożona jest z dwóch kluczowych warstw. Pierwszą z nich jest warstwa konwolucyjna.

Warstwa konwolucyjna

Animacja filtracji obrazu RGB filtrem 3x3x3
Rys. 2 Animacja filtracji obrazu RGB filtrem 3x3x3

Powyższa animacja przedstawia obraz RGB oraz poruszający się po nim filtr o rozmiarze 3x3x3 i zdefiniowanym kroku. Krok to wartość w pikselach, o którą przesuwa się filtr. Może zostać zastosowany „zero padding”, czyli wypełnienie zerami (białe kwadraty). Taki zabieg pozwala na zachowanie większej ilości informacji, kosztem wydajności.

Kolejne wartości macierzy wyjściowej obliczane są w następujący sposób:

  • mnożenie wartości w danym fragmencie obrazu przez filtr (po elementach),
  • sumowanie obliczonych wartości dla danego kanału,
  • sumowanie wartości dla każdego kanału z uwzględnieniem biasu (w tym przypadku równego 1).

Warto zwrócić uwagę, że wartości filtru dla danego kanału mogą się od siebie różnić. Zadaniem warstwy konwolucyjnej, w przypadku pierwszej warstwy, jest wyodrębnienie cech, takich jak krawędzie, kolory, gradienty. Kolejne warstwy sieci – korzystając z tego, co wyznaczyły poprzednie warstwy – mogą wykrywać coraz bardziej skomplikowane kształty. Analogicznie do warstw zwykłej sieci, po warstwie konwolucyjnej występuje warstwa aktywacyjna (najczęściej funkcja ReLU), wprowadzająca nieliniowość do sieci.

Wynik konwolucji z każdym z filtrów możemy interpretować jako obraz, a wiele takich obrazów powstałych poprzez konwolucję z wieloma filtrami to obraz o wielu kanałach. Obraz RGB to coś analogicznego – składa się z 3 kanałów, po jednym dla każdego z kolorów. Wyjście warstwy konwolucyjnej to nie są jednak kolory, lecz pewne „koloro-kształty”, które każdy z filtrów sobą reprezentuje. Odpowiada również za redukcję szumu. Najpopularniejszą metodą jest „max pooling”.

Zazwyczaj stosuje się wiele filtrów, przez co warstwa konwolucyjna, zwiększa głębokość, czyli liczbę kanałów obrazu.

Warstwa łącząca

Kolejna warstwa, nazywana łączącą ma za zadanie zmniejszenie pozostałych wymiarów obrazu (szerokości i wysokości), przy zachowaniu kluczowych informacji potrzebnych np. do klasyfikacji obrazu.

Schemat operacji łączenia
Rys. 3 Schemat operacji łączenia

Operacja łączenia przebiega w sposób zbliżony do stosowanego w warstwie konwolucyjnej. Definiowany jest filtr oraz krok. Kolejne wartości macierzy wyjściowej są maksymalną wartością objętą filtrem.

Wymienione warstwy stanowią razem jedną warstwę sieci konwolucyjnej. Po zastosowaniu wybranej ilości warstw otrzymana macierz zostaje „spłaszczona” do jednego wymiaru – wymiary szerokość i wysokość są stopniowo zastępowane przez wymiar głębokości. Wynik warstw konwolucyjnych stanowi wejście do kolejnych warstw sieci, zazwyczaj takich standardowych, w pełni połączonych (ang. Dense Layers). Pozwala to na nauczenie algorytmu nieliniowych zależności pomiędzy cechami wyznaczonymi przez warstwy konwolucyjne.

Ostatnią warstwą sieci jest warstwa Soft-Max, pozwalająca na uzyskanie wartości prawdopodobieństw przynależności do poszczególnych klas (na przykład prawdopodobieństwo, że na obrazie znajduje się kot). W trakcie treningu są one porównywane z pożądanym wynikiem klasyfikacji w zastosowanej funkcji kosztu, a następnie poprzez algorytm wstecznej propagacji sieć dostosowuje swoje wagi w celu zminimalizowania błędu.

Konwolucyjne sieci neuronowe są ważnym elementem rozwoju uczenia maszynowego. Przyczyniają się do postępu automatyzacji i pozwalają rozszerzyć ludzkie zdolności percepcji. Ich możliwości będą stale rosnąć wraz z mocą obliczeniową komputerów i ilością dostępnych danych.

Bibliografia

[1] https://medium.com/@raycad.seedotech/convolutional-neural-network-cnn-8d1908c010ab

[2] https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148

[3] https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53