Archiwa Society - BFirst.Tech

Sztuczna Inteligencja – narzędzie do bicia ludzkich rekordów

Go, wywodząca się z Chin gra z historią liczącą ponad 2500 lat oraz szachy, które wywodzą się z Indii od ok. 1500 lat, to najpopularniejsze strategiczne gry planszowe na świecie o znaczeniu nie tylko rozrywkowym, ale również kulturowym. Zasady są jasne i precyzyjne, przez co próg wejścia dla nowych graczy dla obu wspomnianych gier jest bardzo niski. Właśnie ta prostota jest źródłem wymyślania niebanalnych rozwiązań, taktyk, a przede wszystkim ogromnego ludzkiego wysiłku intelektualnego – wszystko po to, aby pokonać przeciwnika.

Sztuczna Inteligencja to nie tylko temat poważnych zastosowań takich jak Inteligent Acoustics w przemyśle, Aritificial Intelligence Adaptation w badaniach rozwojowych czy Data Engineering. Te i inne algorytmy są wykorzystywane również w różnych dziedzinach rozrywki. Używa się ich do tworzenia modeli, sztucznych zawodników, którzy mają na celu pokonać ludzkich graczy w grach planszowych, a nawet w e-sporcie.

Na przełomie XX i XXI wieku szachy i Go doczekały się swoich cyfrowych wersji. Pojawiły się także gry komputerowe, w których gracze walczą o pierwsze miejsce w tabeli i tytuły e-sportowych mistrzów. Równolegle z nimi powstało wiele modeli sztucznej inteligencji z odpowiednio zaimplementowanymi zasadami. Stało się to, aby wyszukiwać jeszcze lepsze zagrania oraz pokonywać ludzkich graczy. W niniejszym wpisie opisuję jak gry planszowe, komputerowe i sztuczna inteligencja wzajemnie się dopełniają i inspirują. Pokażę również, jak odpowiednio wytrenowany model sztucznej inteligencji pokonał nie tylko pojedynczych współczesnych arcymistrzów, ale też całe zespoły.

Sztuczna Inteligencja podbija gry planszowe

Historia, w której sztuczna inteligencja pokonała arcymistrza szachowego, ma swoje korzenie w projekcie Deep Blue prowadzonym przez firmę IBM. Głównym celem projektu było stworzenie komputerowego systemu szachowego. Deep Blue był wynikiem wieloletnich prac naukowców i inżynierów. Pierwsza wersja Deep Blue została opracowana w latach 80. XX wieku. Wykorzystywał on zaawansowane algorytmy t.j.:

Przeszukiwanie drzewa gry (Tree Search) na podstawie bazy danych z ruchami i pozycjami szachowymi,
Ocena pozycji (Position Evaluation),
Przeszukiwanie głębokie (Depth Search).

W 1996 roku doszło do pierwszego meczu między Deep Blue a Garri Kasparowem. Mecz ten miał charakter eksperymentalny i był pierwszym, tego typu, oficjalnym spotkaniem. Kasparow wtedy wygrał trzy partie, remisując i przegrywając jedną. W maju 1997 roku w Nowym Jorku doszło do ponownego starcia. Tym razem Garii Kasparow poległ w pojedynku ze sztuczną inteligencją. Deep Blue zwyciężyło dwukrotnie, trzykrotnie uznano remis, a przegrało tylko raz.

Rys. 1 Garii Kasparow rozgrywa partię z Deep Blue w maju 1997 roku.

Źródło: https://www.scientificamerican.com/article/20-years-after-deep-blue-how-ai-has-advanced-since-conquering-chess/

Mniej znaczy więcej

Równie ciekawym przypadkiem jest program stworzony przez firmę DeepMind o nazwie AlphaGo. Ta sztuczna inteligencja została zaprojektowana do gry w Go, o czym świat się przekonał, kiedy pokonała arcymistrza Go, Lee Sedola. Go jest dla znacznie trudniejsze od innych gier, w tym również szachów. Wynika to z dużo większej liczby możliwych ruchów, co utrudnia stosowanie tradycyjnych metod AI, takich jak wyszukiwanie wyczerpujące [1, 2]. DeepMind rozpoczęło prace nad programem AlphaGo w 2014 roku. Celem było stworzenie algorytmu, który mógłby konkurować z mistrzami. Wykorzystywał on zaawansowane techniki uczenia maszynowego:

Głębokie uczenie (ang. Deep Learning),
Uczenie ze wzmocnieniem (ang. Reinforcement Learning, RL),
Monte Carlo Tree Search.

Pierwszym znaczącym osiągnięciem AlphaGo było pokonanie europejskiego zawodnika Fana Huiego w październiku 2015 roku. Silnik od DeepMind całkowicie zdominował każdą z partii wygrywając tym samym pięć do zera [3]. Kolejnym krokiem było pokonanie arcymistrza Lee Sedola. W trakcie meczów sztuczna inteligencja zaskoczyła nie tylko swojego przeciwnika, ale również ekspertów swoimi nietypowymi i kreatywnymi ruchami. Program wykazywał się zdolnością do przewidywania strategii i dostosowywania się do zmieniających się warunków na planszy. W rezultacie po rozgrywkach toczących się w dniach 9-15 marca 2016 roku, AlphaGo odniosło historyczne zwycięstwo nad Lee Sedolem, wygrywając serię pięciu meczów 4-1.

Rywalizacja na cyfrowych planszach

W 2018 roku OpenAI stworzyło zespół sztucznych graczy, tzw. botów, nazwany OpenAI Five. Drużyna botów zmierzyła się z profesjonalnymi graczami w grze Dota 2, jednej z najbardziej skomplikowanych gier typu MOBA (Multiplayer Online Battle Arena). Dwie pięcioosobowe drużyny walczą tam przeciwko sobie, aby zniszczyć bazę przeciwnika. Do “wytrenowania” OpenAI Five wykorzystano kilka zaawansowanych technik i koncepcji uczenia maszynowego:

Uczenie ze wzmocnieniem – boty uczyły się podejmować decyzje poprzez interakcję ze środowiskiem i otrzymywanie nagród za określone akcje,
Proximal Policy Optimization (PPO) – jest to konkretna technika RL, która, jak podają twórcy, była kluczowa do osiągnięcia sukcesu [5]. Metoda ta optymalizuje tzw. politykę (czyli strategię podejmowania decyzji) w sposób, który jest bardziej stabilny i mniej podatny na oscylacje w porównaniu do wcześniejszych metod, takich jak Trust Region Policy Optimization (TRPO) [6],
Samoistne uczenie się – sztuczni zawodnicy rozgrywali miliony gier przeciwko sobie. Dzięki temu mogli oni rozwijać coraz bardziej zaawansowane strategie, ucząc się na podstawie swoich błędów i sukcesów.

W sierpniu 2018 roku sztuczna inteligencja pokonała półprofesjonalny zespół Pain Gaming na corocznych mistrzostwach świata Dota. W 2019 roku, podczas wydarzenia OpenAI Five Finals, boty pokonały zespół składający się z najlepszych graczy, w tym członków zespołu OG, zwycięzców The International w 2018. Z kolei DeepMind nie poprzestało na AlphaGo i skierowało swoje zainteresowanie w stronę gry StarCraft II. To jedna z najpopularniejszych gier strategicznych czasu rzeczywistego (RTS) tworząc program AlphaStar. Sztuczna inteligencja stanęła do pojedynków jeden na jeden z profesjonalnymi graczami StarCraft II w 2019 roku. W styczniu pokonała czołowych graczy tej strategii – dwukrotnie Grzegorza „MaNa” Komincza, a także zwyciężyła nad Dario „TLO” Wünschem. AlphaStar w ten sposób udowodnił swoje zdolności.

Sztuczna Inteligencja w e-sporcie

Sztuczna inteligencja odgrywa coraz większą rolę w szkoleniu profesjonalnych zespołów e-sportowych, szczególnie w takich krajach jak Korea Południowa, gdzie Liga Legend (ang. League of Legends) jest jedną z najpopularniejszych gier. Oto kilka kluczowych obszarów, w których AI jest wykorzystywana do szkoleń w profesjonalnych organizacjach takich jak T1, czy Gen.G.

Zespoły analityków wykorzystują ogromne ilości zgromadzonych danych z rozgrywek ligowych i towarzyskich. Analizują statystyki meczów, takie jak liczba asyst, zdobyte złoto, najczęściej obierane ścieżki i inne kluczowe wskaźniki. Dzięki temu trenerzy mogą zidentyfikować wzorce i słabości zarówno u swoich zawodników, jak i przeciwników.

Zaawansowane narzędzia treningowe wykorzystujące sztuczną inteligencję, takie jak „AIM Lab” czy „KovaaK’s”, pomagają graczom rozwijać konkretne umiejętności. Takie narzędzia mogą spersonalizować programy treningowe, które skupiają się na poprawie reakcji, celowania, decyzji taktycznych i innych kluczowych aspektów gry.

Wykorzystywane są również do tworzenia zaawansowanych symulacji i scenariuszy gry, naśladując przy tym różne sytuacje, które mogą wystąpić w trakcie meczu, umożliwiając graczom trening w warunkach zbliżonych do rzeczywistych. Dzięki temu zawodnicy mogą lepiej przygotować się na niespodziewane wydarzenia i szybciej podejmować lepsze decyzje podczas faktycznych spotkań.

Algorytmy SI mogą być używane do optymalizacji składu zespołu, analizując dane dotyczące indywidualnych umiejętności i preferencji graczy. Wyniki takich badań mogą sugerować, którzy zawodnicy powinni grać na jakich pozycjach. Mogą również pomóc dobrać skład osobowy, aby zmaksymalizować skuteczność zespołu.

Podsumowanie

Artykuł przedstawia, jak sztuczna inteligencja zdominowała gry planszowe i na stałe zawitała w e-sporcie. Pokonała ludzkich mistrzów w szachach, Go, Dota 2 i StarCraft II. Sukcesy projektów takich jak Deep Blue, AlphaGo, OpenAI Five i AlphaStar pokazują potencjał SI w tworzeniu zaawansowanych strategii i doskonaleniu technik gry. Przyszłe możliwości rozwoju obejmują jej wykorzystanie w tworzeniu bardziej realistycznych scenariuszy, opracowywania szczegółowych i spersonalizowanych ścieżek rozwoju graczy oraz analizy predykcyjne, które mogą rewolucjonizować treningi i strategie w różnych branżach.

Bibliografia

[1] Google achieves AI ‘breakthrough’ by beating Go champion, „BBC News”, 27 stycznia 2016

[2] AlphaGo: Mastering the ancient game of Go with Machine Learning, „Research Blog”

[3] David Larousserie et Morgane Tual, Première défaite d’un professionnel du go contre une intelligence artificielle, „Le Monde.fr”, 27 stycznia 2016, ISSN 1950-6244

[4] https://openai.com/index/openai-five-defeats-dota-2-world-champions/ dostęp 13.06.2024

[5] https://openai.com/index/openai-five/ dostęp 13.06.2024

[6] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.

Dolina niesamowitości

Dolina niesamowitości (ang. uncanny valley) to pojęcie odnoszące się do powszechnego, niepokojącego wrażenia doświadczanego przez ludzi w sytuacji, kiedy robot w bardzo dużym stopniu przypomina człowieka, ale nie jest dostatecznie przekonująco realistyczny [1]. Zjawisko to po raz pierwszy pojawiło się w latach 70. XX wieku, kiedy to japoński robotyk Masahiro Mori zaobserwował, że roboty stają się tym bardziej interesujące, im bardziej przypominają swoim wyglądem człowieka, ale tendencja ta utrzymuje się tylko do pewnego momentu. Określił on wówczas ten fenomen jako bukimi no tani (pol. dolina niesamowitości). Po „osiągnięciu” bukimi no tani poczucie zainteresowania zamienia się w poczucie obcości, niepokoju lub nawet strachu [2].

Rys. 1. Wykres obrazujący zjawisko doliny niesamowitości.

Źródło: https://www.linkedin.com/pulse/uncanny-valley-personalization-mac-reddin-/

Dlaczego doświadczamy zjawiska doliny niesamowitości?

Na dzień dzisiejszy nie jest nam znana jedna, konkretna odpowiedź na to pytanie. Istnieje natomiast kilka teorii, które pozwalają lepiej zrozumieć przyczyny występowania tego zjawiska. Przyczyny te dzielimy na:

Neurologiczne

W badaniu przeprowadzonym w 2019 roku, Fabian Grabenhorst wraz z zespołem neurologów poddali analizie neurologiczny aspekt doliny niesamowitości. Zbadali oni wzorce mózgowe u 21 osób wykorzystując funkcjonalne obrazowanie metodą rezonansu (fMRI), czyli technikę pomiaru zmian w przepływie krwi w różnych obszarach mózgu. Podczas testów uczestnicy określali swój poziom zaufania względem ludzi oraz robotów o różnym poziomie ludzkiego podobieństwa. Wyniki pokazały, że pewne konkretne części mózgu były szczególnie ważne w kontekście uncanny valley. Dwie części przyśrodkowej kory przedczołowej – odpowiedzialnej za uwagę i zmysły – wykazały pewną niestandardową aktywność. Jedna z nich przekształciła „sygnał podobieństwa do człowieka” w „sygnał wykrycia człowieka” oraz nadmiernie wyeksponowała granicę między człowiekiem a nie-człowiekiem. Z kolei druga, skorelowała ten sygnał z oceną sympatii. Połączenie to utworzyło mechanizm, który ściśle przypomina to, czym charakteryzuje się dolina niesamowitości.

Psychologiczne

Okazuje się, że już w 1919 roku Sigmund Freud zaobserwował zjawisko, które opisał jako „dziwna emocja odczuwana przez ludzi, którą budzą pewne przedmioty”. Sugerował, że uczucie, które nam wtedy towarzyszy może być związane z wątpliwościami co do tego, czy coś nieożywionego, co obserwujemy, posiada duszę. Co ciekawe, w tamtym czasie jego spostrzeżenie odnosiło się oczywiście nie do robotów, lecz do realistycznych lalek czy też figur woskowych, co sugeruje, że zjawisko to może być starsze niż nam się wydaje oraz występować na większej ilości płaszczyzn niż tylko wśród maszyn. Dzisiaj podobny mechanizm wykorzystywany jest w branży filmowej. Wiele horrorów nadaje cechy ludzkie postaciom, które ludźmi nie są.

Ewolucyjne

Uncanny valley może być również powiązana z ewolucją. Roboty, które klasyfikujemy do doliny niesamowitości, wyglądają jak ludzie, ale posiadają również cechy, które wyraźnie nie są ludzkie. Niektóre z tych cech, takie jak skóra pozbawiona życia, nienaturalne rysy twarzy czy też głos nieadekwatny do wyglądu, mogą kojarzyć się nam z czymś odstającym od normy, czy nawet niebezpiecznym. To z kolei wywołuje w nas uczucie niechęci, strachu. Kiedy mamy do czynienia z czymś, co jest ludzkie, ale nierealistyczne, nie „jak żywe”, budzi to w nas odczucie podobne do takiego, którego doświadczamy, kiedy stykamy się z czymś, co jest martwe.

Kognitywne

Zjawisko doliny niesamowitości może również wynikać z egzystencjonalnego strachu przed zastąpieniem ludzi przez roboty. Widok robota, który swoim wyglądem przypomina człowieka, ale człowiekiem nie jest, zaburza nasze oczekiwania względem tego, jak wygląda człowiek, a jak wygląda robot. Budzi to w nas wątpliwości odnośnie do tego, kim jest człowiek, jak powinien wyglądać oraz jak powinien się zachowywać. Warto zauważyć, że niepokój nie wynika z samego faktu istnienia robotów, lecz z faktu istnienia takich robotów, które łączą w sobie elementy zazwyczaj nie występujące razem. Przykładowo, roboty „brzmiące jak roboty” nie stanowią dla nas problemu, natomiast roboty posługujące się typowo ludzkim głosem, już tak [2] [3].

Dolina niesamowitości w rzeczywistości

Fenomen doliny niesamowitości obecny jest w wielu różnych dziedzinach. Poza obszarem robotyki, zaobserwować możemy go również w grach komputerowych, czy filmach wykorzystujących technologię CGI, czyli obrazy generowane komputerowo. Efekt ten wykracza poza świat technologii i powodować go mogą przedmioty takie jak realistyczne lalki, manekiny czy figury woskowe.

Sophia

Fot. 1. Zdjęcie przedstawiające robota Sophia.

Źródło: https://pl.wikipedia.org/wiki/Plik:Sophia_%28robot%29.jpg

Sophia jest najbardziej zaawansowanym robotem humanoidalnym, jaki dotychczas powstał. Stworzona przez Hanson Robotics, po raz pierwszy aktywowana została w 2016 roku. Uzyskała obywatelstwo Arabii Saudyjskiej, stając się tym samym pierwszym robotem-obywatelką na świecie. Przyznany został jej tytuł Ambasadorki Innowacji Programu Rozwoju Narodów Zjednoczonych. Rozpoznawalność zyskała również dzięki występom w programach telewizyjnych, takich jak Good Morning Britain czy The Tonight Show [4]. Sophia posiada umiejętność wyrażania różnych złożonych emocji, przybierania ludzkich wyrazów twarzy i wchodzenia w interakcje z innymi ludźmi. Wyposażona jest w umiejętność przetwarzania oraz posługiwania się językiem naturalnym, rozpoznawania twarzy oraz śledzenia wizualnego [5]. Jej „skóra” wykonana jest ze specjalnego materiału, opracowanego przez naukowców z Hanson Robotics, który nazwany został Frubber. Jest to rodzaj gumy, która swoją fakturą i elastycznością przypomina ludzką skórę [6]. Z powodu jej wyglądu i zachowań, które są bardzo bliskie tym odpowiadającym człowiekowi, wciąż są zbyt nienaturalne. Sophia jest klasyfikowana do doliny niesamowitości, mogąc budzić w nas tym samym uczucie dyskomfortu oraz niepokoju.

Ekspres polarny

Rys. 2. Komputerowo wygenerowany kadr z filmu Ekspres polarny.

Źródło: https://collider.com/worst-cases-of-uncanny-valley-movies/

Ekspres polarny to film animowany w reżyserii Roberta Zemeckisa, powstały w 2004 roku. Film zrealizowany został z wykorzystaniem technologii CGI, która zdaniem wielu wykorzystana została w sposób nietrafny. Sami producenci ekranizacji mieli sprzeczną wizję, wobec tego w jaki sposób powinien powstać film. Robert Zemeckis w wywiadzie dla Wired powiedział, że „live-action wyglądałoby okropnie i byłoby niemożliwe do zrealizowania – kosztowałoby 1 miliard dolarów zamiast 160 milionów dolarów”. Natomiast Tom Hanks, odgrywający w filmie rolę aż siedmiu postaci, twierdził, iż film nie powinien powstać w wersji animowanej [7]. Twórcy znaleźli pewnego rodzaju porozumienie, łączące ze sobą te dwa podejścia. Wykorzystali oni technologię przechwytywania ruchu (ang. motion capture), czyli metodę polegająca na rejestrowaniu ruchów aktorów, a następnie zapisywaniu ich w komputerze. Jednak krytycy twierdzą, iż twórcom nie udało się dobrze odzwierciedlić postaci, przez co wydają się one niedostatecznie realistyczne. Bohaterom brakuje ludzkich emocji oraz mimiki, poruszają się w sposób nienaturalny, a ich oczy wydają się być ciągle „nieobecne”.

Konsekwencje doliny niesamowitości

Zjawisko doliny niesamowitości ma znaczący wpływ na przyszłość wielu różnych obszarów naszego życia. Dzięki obecnej wiedzy, jakie niechciane uczucia może powodować to zjawisko, robotycy, producenci filmów oraz projektanci gier wideo mogą uwzględniać ten problem w swoich działaniach. Na ten moment wiadomo już, że warto tworzyć roboty, które nie powodują braku zaufania pomiędzy maszyną, a użytkownikiem. W przeciwnym razie narażone będą one na zły odbiór oraz mniejszą przydatność w osiągnięciu zamierzonego celu. Z kolei w filmach, zbyt realistyczne postacie wygenerowane komputerowo w najlepszym przypadku wywołać mogą brak sympatii ze strony widza, a w najgorszym uczucia takie jak niepokój, czy nawet strach. Dlatego właśnie twórcy filmów często decydują się na wręcz zbyt przesadne uwydatnienie niektórych cech fizycznych swoich bohaterów. Nadawanie postaciom charakterystyk takich jak przesadnie duże oczy, nienaturalny kolor skóry czy nadmiernie dynamiczne ruchy stanowi jeden ze sposobów na radzenie sobie z uniknięciem efektu wywołanego przez dolinę niesamowitości. Podobne mechanizmy zachodzą również w grach komputerowych – projektanci mogą chcieć starać się tworzyć swoje postacie z myślą o niezbyt przesadnym realizmie, gdyż w przeciwnym razie mogą spotkać się z negatywnym odbiorem ze strony graczy. Choć istnieją również wyjątki – w niektórych przypadkach filmowcy lub projektanci gier mogą chcieć uzyskać postacie, które celowo „wpadają” do uncanny valley. Dzięki temu mogą mieć kontrolę chociażby nad tym, w jaki sposób odbierane będą czarne charaktery. Bohater, który przejawiał będzie pewne nienaturalne, lecz jednocześnie zbyt realistyczne cechy, wywoływał będzie poczucie niechęci wśród odbiorców [8] [9].

Dolina niesamowitości a UX

Bardzo ciekawe zagadnienie w kontekście uncanny valley stanowi również jej wpływ na projektowanie interfejsów użytkownika. Dodanie pewnych elementów realistycznych do wyglądu interfejsu może mieć pozytywne skutki. Przykładowo, światło i cień nadają poczucia możliwości naciśnięcia danego elementu, a dźwięk może stanowić odpowiednik danego odgłosu, który usłyszymy również w prawdziwym życiu. Jednak dodanie zbyt dużej ilości realizmu może prowadzić do powstania zbyt cienkiej granicy pomiędzy tym co wirtualne, a tym co rzeczywiste. Przykładowo, bardzo detaliczna aplikacja kalendarza, którego faktura przypomina prawdziwy papier. Fakt, że nie jesteśmy w stanie go dotknąć, a jedynie „przewijać” na ekranie komputera czy też smartfona, może sprawiać dla nas wrażenie czegoś dziwnego, „niepasującego”. Dlatego tak istotne jest, aby nie dążyć do osiągnięcia elementów, które wręcz w całkowity sposób odzwierciedlają realne obiekty. Dzięki zachowaniu odpowiedniego balansu pomiędzy realizmem a fikcją, doświadczenie użytkownika staje się przyjemne oraz pozbawione dylematów [10].

Rys. 3. Grafika przedstawiająca bardzo realistyczne logo Google Chrome z 2008 roku oraz jego unowocześnioną, znacznie mniej realistyczną wersję z 2011.

Źródło: https://bpando.org/2011/03/17/the-new-chrome-logo/

Podsumowanie

Ludzie doświadczają niepokoju, gdy napotykają wyglądające niemal jak prawdziwe, ale wciąż niedostatecznie realistyczne jednostki przypominające ludzi – zjawisko to określane jest jako dolina niesamowitości. Ma ono kluczowe znaczenie w różnych dziedzinach. Jego przykłady obejmują zaawansowane roboty, postacie generowane komputerowo czy nawet formy wykraczające poza sferę technologii, takie jak lalki czy figury woskowe. Konsekwencje uncanny valley mogą w znaczącym stopniu wpływać na akceptację oraz użyteczność danej technologii. W kontekście UX, świadomość istnienia doliny niesamowitości jest kluczowa dla projektantów, którzy starają się zminimalizować niepożądane efekty poprzez odpowiednie zaprojektowanie interfejsów tak, aby użytkownicy czuli się komfortowo oraz byli zaangażowani w interakcje z produktami.

Bibliografia

[1] https://www.techtarget.com/whatis/definition/uncanny-valley

[2] https://spectrum.ieee.org/what-is-the-uncanny-valley

[3] https://www.sciencefocus.com/news/uncanny-valley-what-is-it-and-why-do-we-experience-it

[4] https://aidriven.pl/ai/etyka-i-prawo/robot-sophia-jak-humanoidy-zmieniaja-nasze-postrzeganie-ai/

[5] https://robotsguide.com/robots/sophia

[6] https://www.hansonrobotics.com/the-making-of-sophia-frubber/

[7] https://faroutmagazine.co.uk/the-disturbing-valley-robert-zemeckis-polar-express/

[8] https://www.techtarget.com/whatis/definition/uncanny-valley

[9] https://www.verywellmind.com/what-is-the-uncanny-valley-4846247

[10] https://cassidyjames.com/blog/uncanny-valley-curve/

Społeczeństwo 5.0

Idea Society 5.0 polega na stworzeniu superinteligentnego społeczeństwa, w którym różne społeczne wyzwania rozwiązywane są poprzez wdrożenie innowacji czwartej rewolucji przemysłowej – takich jak: IoT, Big Data, Sztuczna Inteligencja (AI), robotyka czy ekonomia współdzielenia – do każdej branży oraz w życie społeczne. W tak wyglądającym świecie, ludzie, maszyny oraz ich otoczenie, są ze sobą połączone i potrafią komunikować się między sobą [1]. W praktyce, Społeczeństwo 5.0 będzie m.in. dążyło do zapewnienia lepszej opieki seniorom. Na przykład w Japonii społeczeństwo starzeje się bardzo szybko. Jeśli kiedykolwiek w przyszłości miałoby zabraknąć rąk do zajmowania się osobami starszymi, to właśnie nowa jakość przetwarzania danych będzie w stanie podnieść standard opieki zdrowotnej dla emerytów [2]. Społeczeństwo 5.0 to termin odnoszący się do nowej idei społeczeństwa. W takiej koncepcji rozwój technologiczny koncentruje się na człowieku i poszukuje wartościowych rozwiązań dla życia ludzi na całym świecie.

Rys. 1. Ilustracja przedstawiająca plan transformacji społecznej Japonii – Society 5.0.
Źródło: https://www.japan.go.jp/abenomics/_userdata/abenomics/pdf/society_5.0.pdf

[Dostęp: 07.03.2024]

Historia rozwoju społeczeństwa

Społeczeństwo 5.0 jest wynikiem niczego innego, jak ewolucji obejmującej pięć etapów rozwoju społecznego:

Society 1.0: Społeczeństwo zbieracko-łowieckie (sposób życia pierwszych ludzi, trwał do około 12 000 lat temu) – społeczeństwo, które swój styl życia opiera na polowaniu i łowieniu zwierząt oraz poszukiwaniu dzikiej roślinności i innych rodzajów składników odżywczych [3].
Society 2.0: Społeczeństwo rolnicze (pierwszy raz pojawia się około 10 000 – 8 000 lat temu) – społeczeństwo, które koncentruje swoją gospodarkę przede wszystkim na rolnictwie i uprawie dużych pól [4].
Society 3.0: Społeczeństwo przemysłowe (od końca XVIII wieku) – społeczeństwo, w którym dominującym sposobem organizacji życia są technologie produkcji masowej, wykorzystywane do wytwarzania ogromnych ilości towarów w fabrykach [5].
Society 4.0: Społeczeństwo informacyjne (od drugiej połowy XX wieku) – społeczeństwo, w którym tworzenie, rozpowszechnianie, wykorzystywanie, integrowanie i zarządzanie informacją jest istotnym aspektem działalności gospodarczej, politycznej czy kulturalnej [6].

Integracja technologiczna dla lepszej jakości życia

Koncepcja zbierania danych z otaczającego nas świata, przetwarzania ich przez komputery oraz wykorzystywania ich w praktyce nie jest w dzisiejszym świecie nowością. Na dokładnie takiej zasadzie oparte jest działanie, przykładowo, klimatyzatorów. Regularnie wykonują one pomiar temperatury w pomieszczeniu, a następnie porównują odczyt z wcześniej zaprogramowaną temperaturą. W zależności od tego, czy zmierzona temperatura jest większa, czy mniejsza od pierwotnie ustawionej, urządzenie wstrzymuje lub uruchamia przepływ powietrza. Mechanizm ten wykorzystuje zautomatyzowane systemy komputerowe. Termin „społeczeństwo informacyjne” (Society 4.0) odnosi się zatem do społeczeństwa, w którym każdy z takich systemów pozyskuje dane, przetwarza je, a następnie wykorzystuje w swoim własnym, sprecyzowanym środowisku.

Wiedząc już dokładnie, na czym polega idea Społeczeństwa 4.0, możemy zrozumieć, co w istocie odróżnia je od Społeczeństwa 5.0. Zasadnicza różnica polega na tym, że Society 5.0 zamiast wykorzystywać systemy działające w zdefiniowanym, ograniczonym zakresie, wykorzystywać będzie takie, które funkcjonują w zintegrowany sposób, wpływając przy tym na życie całego społeczeństwa. Dane przetwarzane będą przez zaawansowane systemy informatyczne, takie jak Sztuczna Inteligencja. Systemy te przystosowane są do przetwarzania tak dużej ilości danych. Głównym celem wykorzystania gromadzonych danych będzie zapewnienie wszystkim szczęścia oraz komfortu [7]. W BFirst.Tech również widzimy te potrzeby i odpowiadamy na nie stosując konkretne narzędzia. Nasze obszary – Data Engineering oraz Data Architecture & Management wykorzystują innowacyjne rozwiązania technologiczne do zbierania, analizowania i zarządzania danymi, aby wspierać efektywne i zrównoważone gospodarowanie procesami. Taki sposób gospodarowania ma istotny wpływ na bezpieczeństwo, wiarygodność danych oraz strategiczne podejmowanie decyzji. Przyczynia się to do wzrostu dobrobytu w społeczeństwie.

Nowa era dobrobytu a stojące przed nią wyzwania

Społeczeństwo 5.0 ma za cel wykorzystanie najnowocześniejszych technologii w taki sposób, aby zapewnić dobrobyt wszystkim ludziom. Idea ta zakłada, że rozwój technologiczny może być narzędziem do przeciwdziałania nierównościom społecznym, poprawy jakości życia oraz stworzenia bardziej zrównoważonej społeczności. Główne cele, jakich realizację przewiduje, to:

zmniejszenie nierówności społecznych,
przyspieszenie usług medycznych oraz zwiększenie precyzji zabiegów i operacji,
zwiększenie produkcji żywności przy jednoczesnej redukcji marnotrawstwa
poprawa bezpieczeństwa publicznego,
rozwiązywanie problemów spowodowanych katastrofami naturalnymi,
promowanie uczestnictwa społeczeństwa w opracowywaniu pomysłów i projektów,
zapewnienie transparentnego dostępu do danych oraz utrzymanie bezpieczeństwa informacji.

Społeczeństwo 5.0 stawia sobie za cel stworzenie harmonijnej równowagi między rozwojem technologicznym a potrzebami społecznymi. Niesie to jednak ze sobą swoje wyzwania. Jednym z najbardziej istotnych warunków do skutecznego wdrożenia tej wizji jest zaangażowanie oraz przywództwo rządów. Jest tak, ponieważ to rządy odpowiedzialne są za aspekty takie jak finansowanie, wdrażanie technologii w życie publiczne czy tworzenie nowych przepisów związanych z bezpieczeństwem. Kolejne istotne wyzwanie stanowią ryzyka związane z cyberbezpieczeństwem. Należy mieć na uwadze, że działania hackerów, czy też kwestie związane z kradzieżą danych, mogą skutecznie zahamować rozwój innowacji, dlatego kluczowe jest zadbanie o należyty poziom ochrony danych [8].

Cele Zrównoważonego Rozwoju Organizacji Narodów Zjednoczonych

Społeczeństwo 5.0 oraz Cele Zrównoważonego Rozwoju Organizacji Narodów Zjednoczonych to dwie, oddzielne inicjatywy, które zmierzają w bardzo podobnym kierunku. Te dwa innowacyjne podejścia dzielą bowiem jeden wspólny cel – eliminowanie problemów społecznych w zrównoważony sposób. Można powiedzieć, że Society 5.0 w pewien sposób realizować będzie Cele Zrównoważonego Rozwoju, poprzez określone działania. Te działania, zestawione z konkretnymi celami, to:

dążenie do dokładniejszego oraz skuteczniejszego diagnozowania chorób poprzez wykorzystanie zaawansowanych technologii (takich jak Big Data czy Sztuczna Inteligencja),

Ilustracja Celu 3. Zrównoważonego Rozwoju UN.

Rys. 2. Ilustracja przedstawiająca 3. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

upowszechnianie e-learningu oraz zapewnianie większej dostępności edukacji,

Ilustracja Celu 4. Zrównoważonego Rozwoju UN.

Rys. 3. Ilustracja przedstawiająca 4. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

tworzenie nowych miejsc pracy związanych z dziedzinami takimi jak robotyka, Sztuczna Inteligencja czy analiza danych,

Ilustracja Celu 8. Zrównoważonego Rozwoju UN.

Rys. 4. Ilustracja przedstawiająca 8. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

promowanie innowacji oraz inwestowanie w nową infrastrukturę (taką jak inteligentne sieci czy szybki Internet),

Ilustracja Celu 9. Zrównoważonego Rozwoju UN.

Rys. 5. Ilustracja przedstawiająca 9. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

tworzenie inteligentnych miast, które wykorzystują czujniki i analizę danych w celu optymalizacji przepływu ruchu, zmniejszenia zużycia energii oraz poprawy bezpieczeństwa,

Ilustracja Celu 11. Zrównoważonego Rozwoju UN.

Rys. 6. Ilustracja przedstawiająca 11. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

redukowanie emisji gazów cieplarnianych oraz promowanie zrównoważonego transportu.

Ilustracja Celu 13. Zrównoważonego Rozwoju UN.

Rys. 7. Ilustracja przedstawiająca 13. cel zrównoważonego rozwoju ONZ.

Źródło: https://www.un.org.pl/download

Wspólny kierunek

Niezwykle istotne jest, aby korzyści wynikające z idei Society 5.0 były równo dostępne dla każdego, tak, aby wszyscy mieli taką samą szansę skorzystania z jej potencjału. Tylko dzięki takiemu podejściu udział Społeczeństwa 5.0 w realizowaniu Celów Zrównoważonego Rozwoju ma szansę na efektywny rezultat [9]. BFirst.Tech jako partner merytoryczny United Nations Global Compact Network Poland (UN GCNP) również dba o realizację Celów Zrównoważonego Rozwoju. W obszarach, które skupiają się na przetwarzaniu, projektowaniu i zarządzaniu danymi, czyli Data Engineering oraz Data Architecture & Management, nasza firma wciela w życie cele, pokrywające się z celami uskutecznianymi przez Society 5.0, takie jak: Cel 9 – w zakresie zabezpieczania, agregowania i analizy dużych zbiorów danych, optymalizacji oraz zarządzania i kontroli jakości procesów z wykorzystaniem AI; Cel 11 – w zakresie zabezpieczania kluczowych informacji mających wpływ na poprawę warunków życia mieszkańców miast; oraz Cel 13 – w zakresie zmniejszania zużycia zasobów i emisji odpadów poprzez zwiększanie efektywności produkcji.

Zmiany wpływające na wiele obszarów

Dzięki wdrożeniu koncepcji Society 5.0 możliwa jest modernizacja wielu różnych płaszczyzn życia społecznego. Jedną z nich jest wspominana wcześniej opieka zdrowotna. W obliczu starzejącego się społeczeństwa Japonii, kraj ten zmaga się obecnie ze wzrastającymi wydatkami oraz potrzebą opieki nad seniorami. Społeczeństwo 5.0 rozwiązuje ten problem, poprzez wprowadzenie Sztucznej Inteligencji. Gromadzi ona, a następnie analizuje dane dotyczące pacjenta, co zapewnia najwyższy poziom diagnostyki oraz leczenia. Z kolei zdalne konsultacje medyczne wpływają pozytywnie na wygodę osób starszych. Zapewnia im to możliwość kontaktu z lekarzem nawet z własnego miejsca zamieszkania.

Kolejną płaszczyznę stanowi mobilność. Większość obszarów wiejskich Japonii nie ma dostępu do transportu publicznego. Wpływ na to ma między innymi spadek liczby ludności przyczyniający się do coraz słabszego zaludnienia tych obszarów. Problem stanowi również narastający brak kierowców, związany z ciągle rozwijającym się sektorem e-commerce. Rozwiązaniem, jakie proponuje na te kwestie Society 5.0, jest wdrożenie autonomicznych pojazdów, takich jak taksówki czy autobusy. Warto wspomnieć również o obszarze infrastruktury. W Społeczeństwie 5.0 to czujniki, Sztuczna Inteligencja oraz roboty będą autonomicznie kontrolować i konserwować drogi, tunele, mosty oraz tamy. Ostatni już obszar warty uwagi stanowią technologie finansowe (FinTech). W Japonii w dalszym ciągu większość transakcji pieniężnych odbywa się za pomocą gotówki bądź procedur bankowych. Potrafi to trwać znacząco zbyt długo. Społeczeństwo 5.0 proponuje zaimplementowanie technologii Blockchain do transakcji pieniężnych oraz wprowadzenie powszechnych, dostępnych wszędzie płatności za pośrednictwem smartfona [10].

Podsumowanie

Society 5.0 to koncepcja społeczeństwa, które wykorzystuje zaawansowane technologie, aby stworzyć społeczeństwo oparte na zrównoważonym rozwoju, innowacjach społecznych oraz cyfrowej transformacji. Celem Society 5.0 jest nie tylko osiągnięcie wzrostu gospodarczego, ale także poprawa jakości życia obywateli. Za rozwojem tej idei stoją również pewne wyzwania. Są one związane przede wszystkim z bezpieczeństwem danych, czy też wprowadzaniem odpowiednich regulacji zapewniających płynną oraz komfortową dla wszystkich transformację. Society 5.0 w dużym stopniu dzieli wizję przyszłości z Celami Zrównoważonego Rozwoju (SDG), ogłoszonymi przez Organizację Narodów Zjednoczonych. Wiele z nich można osiągnąć poprzez wdrażanie tej koncepcji. Społeczeństwo 5.0 obejmuje szeroki zakres obszarów życia społecznego, w tym opiekę zdrowotną, mobilność, infrastrukturę oraz technologie finansowe. Dzięki wykorzystaniu zaawansowanych technologii w tych dziedzinach, dąży się do stworzenia zrównoważonego i innowacyjnego społeczeństwa, które będzie miało pozytywny wpływ na jakość życia obywateli.

Bibliografia

[1] https://www.japan.go.jp/abenomics/_userdata/abenomics/pdf/society_5.0.pdf [Dostęp: 07.03.2024]

[2] https://sektor3-0.pl/blog/japonski-czlowiek-nowej-ery-czyli-spoleczenstwo-5-0/

[3] https://education.nationalgeographic.org/resource/hunter-gatherer-culture/

[4] https://www.thoughtco.com/agrarian-society-definition-3026047

[5] https://www.thoughtco.com/industrial-society-3026359

[6] https://www.techtarget.com/whatis/definition/Information-Society

[7] Atsushi Deguchi, Chiaki Hirai, Hideyuki Matsuoka, Taku Nakano, Kohei Oshima, Mitsuharu Tai, Shigeyuki Tani „What is Society 5.0?”

[8] https://www.sydle.com/blog/society-5-0-5fc163e1725a642683ed9230

[9] https://media.inti.asia/read/society-50-and-the-sustainable-development-goals-a-roadmap-for-a-better-future

[10] https://medium.com/@jacobprakoso/japan-super-smart-society-5-0-9b9e8ba49a7

SEO

Co sprawia, że niektóre strony internetowe wyświetlają się od razu po wpisaniu szukanej frazy, a inne giną w gąszczu pozostałych witryn? Jak sprawić, aby użytkownik mógł łatwiej znaleźć naszą stronę? Pozycjonowanie nie ma nic wspólnego z losowością. Za te i inne aspekty odpowiada SEO. Nieważne, czy dopiero rozpoczynamy naszą przygodę z prowadzeniem portalu internetowego, czy robimy to od dawna, zajmujemy się wszystkim sami, czy zlecamy to komuś innemu. Podstawowe zasady, jakimi rządzi się pozycjonowanie, warto znać. Po zapoznaniu się z tym artykułem dowiesz się czym jest SEO, z czego się składa oraz jak je wykorzystywać w odpowiedni sposób.

Czym jest SEO?

Zacznijmy od tego, czym tak naprawdę jest SEO i z czego się składa. SEO (Search Engine Optimization) to ogół działań podejmowanych w celu poprawy pozycjonowania strony internetowej w wynikach wyszukiwania [1]. Składa się na nie szereg praktyk i strategii, takich jak odpowiednie redagowanie tekstu czy budowanie profilu linkowego. SEO również odpowiada za dostosowanie witryny do algorytmów, stosowanych przez wyszukiwarki. To one decydują o tym, które strony będą wyświetlane na pierwszej stronie wyników wyszukiwania i w jakiej kolejności. Poprzez optymalizację, dana strona internetowa może zyskać lepszą pozycję w wynikach wyszukiwania, co zwiększa jej widoczność. Należy oczywiście pamiętać, że narzędzia SEO to jedynie jeden ze sposobów na poprawę popularności witryny. Nie daje on tak szybkich efektów jak, na przykład, płatne reklamy, ale jest relatywnie tani. Poza tym wypracowany efekt utrzyma się na dłużej i nie zniknie po wygaśnięciu danej subskrypcji, jak ma to miejsce w przypadku wielu innych technik marketingowych. 

Pozycjonowanie on-site

SEO możemy podzielić na dwa rodzaje: on-site oraz off-site. On-site SEO to wszystkie działania, które mają miejsce na danej stronie internetowej. To wszystkie kwestie redakcyjne, techniczne czy takie, które wpływają na szybkość ładowania treści. Dzięki dbaniu o te aspekty, strona jest czytelniejsza zarówno dla użytkownika, jak i robotów Google. Aby mówić o dobrym on-site SEO należy zadbać o:

Metadane i opis ALT – nawet jeśli strona będzie czytelna dla użytkownika, co z algorytmami wyszukiwarek? Aby i dla nich była czytelna, warto zadbać o tytuły i opisy meta, które pomogą wyszukiwarkom znaleźć naszą witrynę. Poza tym, warto również zadbać o opisy ALT, zwane również tekstem alternatywnym. Algorytmy nie rozumieją, co znajduje się na obrazkach. Dzięki temu krótkiemu opisowi, będą w stanie przyporządkować jego treść do wyszukiwanej frazy i poprawić pozycjonowanie.
Nagłówki – to kolejna rzecz, która wpływa nie tylko na ludzką percepcję. Odpowiednie rozłożenie nagłówków i optymalizacja treści w nich mogą znacząco przyczynić się do poprawy pozycjonowania.
Hiperłącza – czyli ogół odnośników, zwany również profilem linkowym. Możemy tutaj wyróżnić linkowanie zewnętrzne i wewnętrzne. Linkowanie zewnętrzne to linki pochodzące z innych stron internetowych niż nasza i zaliczane jest ono do off-site SEO. Natomiast wewnętrzne to odnośniki, które w obrębie jednej witryny przekierowują użytkownika do innych zakładek czy artykułów [2].

Pozycjonowanie off-site

Off-site SEO natomiast odnosi się do wszystkich działań podejmowanych poza stroną, w celu zwiększenia jej widoczności i rozpoznawalności w sieci. Dzięki temu zyskujemy ruch na stronie z zewnętrznych źródeł. Takie działania to na przykład:

Hiperłącza – ponownie, profil linkowy budujący popularność i rozpoznawalność strony w sieci. Do off-site SEO zaliczane jest linkowanie zewnętrzne, czyli pochodzące z innych źródeł. Warto zadbać, aby były one dobrej jakości, czyli pochodzące z rzetelnych źródeł. Minęły czasy, kiedy liczyła się tylko ilość. Teraz algorytmy wyszukiwarek zwracają dużo większą uwagę właśnie na wartość.
Marketing internetowy – chodzi o takie działania, jak prowadzenie profili na Social Mediach, prowadzenie dyskusji z użytkownikami na forach czy współpracowanie z influencerami. To aspekty, które bezpośrednio nie wpływają na wyniki wyszukiwania, lecz pośrednio mogą bardzo przyczynić się do podbicia ilości zapytań o naszą stronę.
Opinie – po jakimś czasie w naturalny sposób pojawiają się w sieci opinie na temat naszej strony czy prowadzonego biznesu. Warto o nie zadbać i odpowiedzieć użytkownikom, którzy je zostawili. Dbanie o dobrą opinię klienta to jeden z aspektów budowania wizerunku marki godnej zaufania [3].

Link building a pozycjonowanie

Link building to proces zdobywania odnośników, które będą prowadziły do naszej witryny. Mogą to być linki z zewnętrznych źródeł (tzw. backlinki) lub linkowanie wewnętrzne. Wtedy mówimy o odnośnikach, które będą przekierowywały nas w obrębie danej strony internetowej. Dobrze zbudowany profil linkowy znacząco wpływa na pozycjonowanie, o czym więcej można przeczytać wyżej [4]. Jak natomiast zmieniało się znaczenie takich praktyk?

Przez wiele lat Google pozwalało pozycjonerom na wiele pod tym względem. Na porządku dziennym można było spotkać strony, do których prowadziły nawet setki tysięcy linków, gdyż ich liczba miała ogromne znaczenie dla pozycjonowania, a ich jakość już nie do końca. Zdecydowana większość z nich była linkami niskiej jakości, które były umieszczane w sieci na forach, w księgach gości, katalogach, komentarzach itp. Często nie zajmował się tym człowiek, wykorzystywano specjalne aplikacje, które robiły to automatycznie. Takie rozwiązanie przynosiło znaczące efekty, a mogło być przeprowadzone stosunkowo niewielkim kosztem. Wszystko zmieniło się w kwietniu 2012. Doszło wtedy do pewnej rewolucji – Google wprowadził nowy algorytm o nazwie Pingwin.[5]

Jak Pingwin zmienił SEO?

Czym jest Pingwin? To algorytm stworzony przez Google i wprowadzony 24 kwietnia 2012 roku, w celu zwalczania nieetycznego pozycjonowania stron internetowych. Specjaliści SEO próbowali oszukać skrypt Google poprzez kupowanie linków i umieszczanie ich w miejscach do tego nieprzeznaczonych, jednakże Pingwin skutecznie to wyłapywał.

Spróbujmy odpowiedzieć na pytanie jak działa Pingwin. Ten skrypt analizuje linki, jakie prowadzą na daną stronę internetową i decyduje o ich wartości. Jeśli uzna je za linki o niskiej jakości, obniży rankingi witryn, do których prowadzą. Takie linki to na przykład te kupione (również pochodzące z wymiany linków) czy stworzone przez boty. Tak samo postąpi w przypadku linków będących spamem, na przykład umieszczanych w komentarzach na forach czy stronach zupełnie niezwiązanych tematycznie. Jego działanie jednak nie jest permanentne – kiedy niskowartościowe linki zostaną usunięte, dana witryna może odzyskać swoją pozycję. Warto wspomnieć, że Pingwin nie został stworzony tylko w celu wykrywania oszustw i obniżania widoczności stron internetowych. Jego rolą jest także nagradzanie uczciwie prowadzonych witryn – jeśli uzna profil linkowy za wartościowy, zwiększy widoczność takich stron [6].

SEO etyczne i nieetyczne

W zależności od tego, na czym opieramy nasze techniki pozycjonowania, można wyróżnić White Hat SEO oraz Black Hat SEO. Te określenia nawiązują do dobrych i złych postaci z westernowych bajek. Według przyjętej kulturowo konwencji, nosiły one zazwyczaj odpowiednio białe i czarne kapelusze, stąd takie skojarzenie. Co jednak oznaczają i czym różnią się te techniki? White Hat SEO to etyczne pozycjonowanie, stosowane według wytycznych zalecanych przez wyszukiwarki. Chodzi o takie zabiegi jak tworzenie treści dobrej jakości (niezawierającej duplikatów), stosowanie nagłówków, wypunktowań, czy dbanie o odpowiednią długość akapitów. Black Hat SEO natomiast charakteryzuje się nieetycznymi zachowaniami, mającymi sztucznie podbijać popularność. Są to takie praktyki jak nadużywanie fraz kluczowych poza kontekstem, ukrywanie tekstu czy kupowanie linków. Takie działania mogą skutkować zmniejszeniem poziomu zaufania do strony, nałożeniem filtrów obniżających pozycję, czy nawet wykluczeniem z wyników wyszukiwania [7].

Podsumowanie

Kluczem do zapewnienia sobie większego ruchu na stronie internetowej i lepszego jej pozycjonowania w wynikach wyszukiwania jest umiejętne wykorzystanie narzędzi SEO. To zabiegi bezpośrednio na stronie oraz poza nią, dzięki którym możemy liczyć na znacznie większe zasięgi. Podczas wykorzystywania SEO należy pamiętać, aby robić to odpowiednio. Stosując się do zaleceń wyszukiwarek i dopasowując treść zarówno do użytkownika jak i algorytmów, możemy liczyć na pozytywne efekty i poprawę statystyk. Nieetyczne praktyki mogą natomiast prowadzić do odwrotnych skutków.

Bibliografia

[1] https://searchengineland.com/guide/what-is-seo

[2]https://www.semstorm.com/pl/blog/seo-and-ppc/czym-sie-rozni-on-site-seo-od-off-site-seo

[3]https://www.semrush.com/blog/off-page-seo/?kw=&cmp=EE_SRCH_DSA_Blog_EN&label=dsa_pagefeed&Network=g&Device=c&utm_content=676606914923&kwid=dsa-2185834089536&cmpid=18361923498&agpid=157305243831&BU=Core&extid=105138960331&adpos=&gad_source=1&gclid=CjwKCAjw7-SvBhB6EiwAwYdCAQvsJcp7q2JoIQMf2RzGg_HVRjTFb7AB2sTcZ2khQdIN3qvCREr9GhoCzOIQAvD_BwE

[4]https://greenparrot.pl/blog/co-to-jest-off-site-seo/

[5] https://1stplace.pl/blog/algorytm-google-pingwin/

[6] https://www.business2community.com/infographics/history-google-penguin-infographic-01468714

[7]https://www.semrush.com/blog/black-hat-seo/?kw=&cmp=EE_SRCH_DSA_Blog_EN&label=dsa_pagefeed&Network=g&Device=c&utm_content=683809340380&kwid=dsa-2264710307245&cmpid=18361923498&agpid=156456448517&BU=Core&extid=105138960709&adpos=&gad_source=1&gclid=CjwKCAjw7-SvBhB6EiwAwYdCAZln5MkdcE3R2XZq-FUhanEKkDWUbpUoZxIowWHslE3ETaNFW88vPBoCJ5sQAvD_BwE

Dylematy moralne związane ze sztuczną inteligencją

Sztuczna inteligencja jest jednym z najbardziej ekscytujących zagadnień technologicznych ostatnich lat. Ma potencjał na fundamentalne zmienienie naszego sposobu pracy oraz korzystania z nowoczesnych technologii w wielu dziedzinach, takich jak generatory tekstów i obrazów, różnego rodzaju algorytmy czy autonomiczne samochody. Wraz z coraz większym rozpowszechnianiem wykorzystywania sztucznej inteligencji, warto jednak również mieć świadomość potencjalnych problemów, jakie ze sobą niesie. Biorąc pod uwagę wzrastające uzależnienie naszych systemów od sztucznej inteligencji, podejście do tych dylematów może mieć kluczowy wpływ na przyszły obraz społeczeństwa. W niniejszym artykule przedstawimy te dylematy moralne. Omówimy również problemy związane z wprowadzaniem do ruchu drogowego pojazdów autonomicznych, zagrożenia wynikające z użycia sztucznej inteligencji do siania dezinformacji oraz obawy dotyczące styku sztucznej inteligencji i sztuki.

Problem pozyskiwania danych i ich skrzywienia

Co do zasady, ludzkie osądy są obciążone subiektywnym spojrzeniem, od maszyn i algorytmów oczekuje się większej obiektywności. Jednak to, w jaki sposób działają algorytmy uczenia maszynowego zależy w dużej mierze od danych, na których algorytm jest uczony. W związku z tym, wybrane do trenowania algorytmu dane z jakimkolwiek, nawet nieświadomym uprzedzeniem mogą spowodować niepożądane działania algorytmu. Zapraszamy do zapoznania się z naszym wcześniejszym artykułem, gdzie znajdziesz więcej informacji na ten temat.

Poziomy automatyzacji w samochodach autonomicznych

W ostatnich latach obserwowaliśmy duże postępy w rozwoju samochodów autonomicznych. W sieci pojawiało się wiele materiałów przedstawiających prototypy pojazdów będących w ruchu bez pomocy kierowcy lub nawet jego obecności. Rozmawiając o samochodach autonomicznych warto zaznaczyć, że istnieje wiele poziomów autonomiczności, dlatego warto przed dyskusją określić o którym poziomie mowa. [1]

Poziom 0 oznacza pojazdy, które wymagają pełnej kontroli kierowcy, wykonującego wszystkie działania związane z kierowaniem pojazdu (sterowanie, hamowanie przyspieszanie itd.). Pojazd może natomiast informować kierowcę o zagrożeniach znajdujących się na drodze. Użyje do tego systemów takich jak system ostrzegania przed kolizją czy ostrzegania o opuszczaniu pasa ruchu.
Poziom 1 zawiera pojazdy, będące już dziś powszechne na drogach. Kierowca nadal kontroluje pojazd, który jest wyposażony w systemy wspierające jazdę, jak np. tempomat czy układ utrzymujący samochód w granicach pasa ruchu.
Poziom 2, oprócz posiadania możliwości poprzednich poziomów, jest -pod pewnymi warunkami – w stanie przejąć częściową kontrolę nad pojazdem. Może on wpływać na prędkość czy kierunek jazdy, pod ciągłym nadzorem kierowcy. Wśród funkcji wspomagających można wymienić sterowanie autem w korku lub na autostradzie.
Poziom 3 autonomiczności to pojazdy, które nie są jeszcze dostępne komercyjnie. Samochody tego typu są w stanie prowadzić się w pełni autonomicznie, pod okiem kierowcy. Prowadzący pojazd nadal musi być gotowy w razie potrzeby przejąć sterowanie nad pojazdem.
Poziom 4 oznacza wykonywanie przez komputer pokładowy wszystkich czynności związanych z prowadzeniem pojazdu, jednak tylko na określonych, uprzednio zatwierdzonych trasach. W takiej sytuacji wszystkie osoby w pojeździe sprawują funkcję pasażerów, choć przejęcie kontroli nad pojazdem przez człowieka jest nadal możliwe.
Poziom 5 to najwyższy poziom autonomiczności – komputer pokładowy jest w pełni odpowiedzialny za prowadzenie pojazdu we wszystkich warunkach, bez jakiejkolwiek potrzeby ingerencji ludzkiej. [2]

Dylematy moralne w obliczu pojazdów autonomicznych

Pojazdy o poziomach autonomiczności 0-2 nie wzbudzają zbyt wielkich kontrowersji. Technologie takie jak sterowanie autem na autostradzie są już dostępne i ułatwiają podróżowanie. Potencjalne wprowadzenie do powszechnego ruchu drogowego pojazdów o wyższych stopniach autonomiczności wzbudza jednak pewne dylematy moralne. Jednym z problemów jest to, co dzieje się w sytuacji, kiedy autonomiczne auto, będące pod opieką prowadzącego, uczestniczy w wypadku. Kto ponosi wtedy odpowiedzialność za jego spowodowanie? Kierowca? Producent pojazdu? A może samo auto? Nie jest to pytanie, na które istnieje jednoznaczna odpowiedź.

Wprowadzenie na ulicę pojazdów autonomicznych wprowadza również inny problem – pojazdy te mogą posiadać luki w zabezpieczeniach. Coś takiego może potencjalnie prowadzić do wycieku danych lub nawet przejęcia kontroli nad pojazdem przez hakera. Przejęty w ten sposób samochód może zostać użyty do celowego spowodowania wypadku, a nawet przeprowadzenia ataku terrorystycznego. Tu również pojawia się problem podzielenia odpowiedzialności pomiędzy producentem, hakerem i użytkownikiem. [3]

Jednym z najważniejszych problemów związanych z autonomicznymi pojazdami jest etyczne wyszkolenie pojazdów do podejmowania decyzji w wypadku zagrożenia życia i mienia. Kto powinien podejmować decyzje na ten temat – programiści tworzący oprogramowanie, etycy i filozofowie, czy może rządzący krajami? Decyzje te będą miały wpływ na to, kto przeżyje w razie nieuniknionego wypadku. Wiele sytuacji, z jakimi mogą się spotkać autonomiczne pojazdy, będzie wymagać podjęcia decyzji, którym brak jednej oczywistej odpowiedzi (rysunek 1). Czy pojazd powinien nadawać priorytet w ratowaniu pieszych czy pasażerów, młodych czy starych? Jak ważny jest brak ingerencji pojazdu w tok wydarzeń? Czy przestrzeganie prawa przez drugą stronę wypadku powinno mieć wpływ na decyzję? [4]

Rys. 1. Ilustracja jednego z przypadków jakie mogą spotkać autonomiczne pojazdy. Źródło: https://www.moralmachine.net/

Deepfake – czym jest i dlaczego prowadzi do dezinformacji?

Współczesny człowiek korzystający z nowoczesnych technologii jest bombardowany zewsząd informacjami. Ogromna ilość i prędkość dostarczania informacji powoduje, że nie wszystkie z nich mogą być zweryfikowane. Fakt ten umożliwia osobom fabrykującym fałszywe wiadomości dotarcie do stosunkowo dużej grupy osób. Dzięki temu mogą zmanipulować swoje ofiary tak, aby zmieniły nastawienie odnośnie jakiegoś tematu lub nawet padły ofiarą oszustwa. Choć praktyka ta występowała już od jakiegoś czasu, pojawienie się sztucznej inteligencji drastycznie ułatwia proces kreowania fałszywych informacji, a co za tym idzie pozwala na szybsze ich tworzenie i rozpowszechnianie.

Spośród technik dezinformacji, sztuczna inteligencja może być używana szczególnie efektywnie do produkcji tzw. deepfake’ów. Deepfake to technika obróbki obrazu przedstawiającego ludzi, oparta na sztucznej inteligencji. Przy pomocy algorytmów uczenia maszynowego na istniejące materiały źródłowe nakładane są modyfikowane obrazy, tworząc tym samym realistyczne filmy i obrazy, przedstawiające nie mające miejsca zdarzenia. Dotychczas, technologia pozwalała głównie na obróbkę obrazów statycznych, a edycja wideo była zdecydowanie trudniejsza do wykonania. Popularyzacja sztucznej inteligencji rozwiązała te bariery techniczne, co przełożyło się na drastyczny wzrost częstotliwości występowania tego zjawiska. [5]

Film1. Deepfake w formie materiału wideo wykorzystujący wizerunek prezydenta Obamy.

Dylematy moralne związane z deepfake

Deepfake mógłby być wykorzystany do osiągnięcia różnych celów. Technologia ta może zostać użyta w nieszkodliwych projektach, wśród których można wymienić materiały edukacyjne takie jak filmik przedstawiający prezydenta Obamę ostrzegającego o zagrożeniach związanych z deepfake’ami (patrz rysunek 2). Oprócz tego, znajduje zastosowanie w branży rozrywkowej, jak używanie cyfrowych kopii aktorów (choć to zastosowanie może wzbudzać dylematy moralne), czego przykładem jest użycie cyfrowego podobieństwa zmarłego aktora Petera Cushinga do odegrania roli Wielkiego Moffa Tarkina w filmie Łotr 1. Gwiezdne wojny – historie (patrz rysunek 2).

Rys. 2. Cyfrowa kopia aktora Petera Cushinga w roli Wielkiego Moffa Tarkina. Źródło: https://screenrant.com/star-wars-rogue-one-tarkin-ilm-peter-cushing-video/

Istnieje jednak również wiele innych zastosowań deepfake’ów, które mogą potencjalnie stanowić poważnie zagrożenie dla społeczeństwa. Takie spreparowane filmy mogą być używane do skompromitowania danej osoby, chociażby poprzez wykorzystanie jej podobieństwa w filmach pornograficznych. Fałszywe materiały mogą być również używane we wszelkiego rodzaju oszustwach, takich jak próby wyłudzenia pieniędzy. Przykładem takiego zastosowania jest chociażby przytoczona przez nas w poprzednim artykule sprawa lekarza, którego wizerunek został użyty w reklamie pseudoleków kardiologicznych [6]. Dużo emocji wzbudza również wykorzystywanie deepfake’ów w celach siania dezinformacji, w szczególności w obszarze polityki. Odpowiednio użyte fałszywe materiały mogą prowadzić do incydentów dyplomatycznych, zmieniać reakcję społeczeństwa na pewne tematy polityczne, dyskredytować polityków, a nawet wpływać na wyniki wyborów. [7]

Ze względu na swoją naturę, rozpowszechnienie deepfake’ów nie jest czymś, czemu można łatwo zapobiec. Rozwiązania prawne nie są w pełni skuteczne ze względu na globalną skalę problemu i naturę działania sieci społecznościowych. Wśród innych proponowanych rozwiązań problemu można wymienić opracowywanie algorytmów wykrywających sfałszowane materiały oraz edukację społeczeństwa na ten temat.

Sztuka generowana przez AI

Obecnie na rynku istnieje wiele generatorów tekstu, obrazów czy filmów wykorzystujących AI. Midjourney, DALL-E, Stable Diffuion oraz wiele innych, pomimo różnych implementacji i algorytmów za nimi stojących, łączy jedno – potrzebują ogromnych ilości danych, które, ze względu na swoje rozmiary, mogą być zdobyte wyłącznie z Internetu – często bez zgody autorów tych dzieł. W związku z tym, wielu artystów i firm postanowiło wytoczyć pozwy wobec firm tworzących modele sztucznej inteligencji. Według pozywających, nielegalnie używają milionów zdjęć pozyskanych z Internetu, które są objęte prawami autorskimi. Najgłośniejszym przypadkiem pozwu jest ten, który wytoczyła Getty Images – agencja oferująca zdjęcia do celów biznesowych – przeciwko Stability AI, twórcy open-source’owego generatora obrazów Stable Diffusion. Agencja oskarża Stability AI o skopiowanie ponad 12 milionów obrazów z ich bazy danych bez uprzedniej zgody lub rekompensaty (patrz rysunek 3). Wyniki tej i innych spraw sądowych związanych z generowaniem obrazów przy pomocy AI ukształtują przyszłe zastosowania i możliwości tej technologii. [8]

Rys. 3. Ilustracja użyta w pozwie Getty Images przedstawiająca oryginalne zdjęcie oraz podobny obraz z widocznym znakiem wodnym Getty Images stworzony przez Stable Diffusion. Źródło: https://www.theverge.com/2023/2/6/23587393/ai-art-copyright-lawsuit-getty-images-stable-diffusion

Oprócz prawnych problemów związanych z trenowaniem generatywnych modelów na podstawie danych objętych prawami autorskimi, istnieją również dylematy moralne na temat dzieł sztuki wykonywanych za pomocą sztucznej inteligencji. [9]

Czy AI zastąpi artystów?

Wielu artystów uważa, że sztuczna inteligencja nie jest w stanie odwzorować emocjonalnych aspektów sztuki, jakie oferują ludzkie dzieła. Oglądając filmy, słuchając muzyki oraz grając w gry odczuwamy pewne emocje, czego algorytmy nie są w stanie nam zapewnić. Nie są kreatywne w taki sam sposób jak ludzie. Istnieją również obawy co do sytuacji materialnej wielu artystów. Następują one zarówno z powodu nieotrzymywania rekompensaty za stworzone dzieła będące w zbiorach treningowych algorytmów, jak i zmniejszoną liczbę zleceń w związku z popularnością i łatwością użycia generatorów. [10]

Z drugiej strony, niektórzy artyści uważają, że inny sposób ‘myślenia’ sztucznej inteligencji jest jej atutem. Może ona tworzyć dzieła, których człowiek nie jest w stanie wytworzyć. Między innymi w ten sposób generatywne modele mogą stać się kolejnym narzędziem w rękach artystów. Dzięki nim będą mogli doprowadzić do tworzenia nieistniejących do tej pory form i gatunków sztuki, rozszerzając ludzką kreatywność.

Jak widać, popularność i możliwości generatywnej sztucznej inteligencji stale rosną. Co za tym idzie, pojawiają się liczne debaty na tematy prawne i etyczne, związane z tą technologią. Przewidujemy, że będą się one stawać coraz głośniejsze. Technologia ta ma potencjał drastycznie zmienić sposób, w jaki obcujemy ze sztuką.

Podsumowanie

Odpowiednie wykorzystywanie sztucznej inteligencji ma potencjał zostać ważnym i powszechnie wykorzystywanym narzędziem w rękach ludzkości. Może zwiększyć produktywność, ułatwić wykonywanie wielu czynności oraz rozwinąć nasze możliwości kreatywne. Technologia ta niesie ze sobą jednak pewne zagrożenia, których nie należy lekceważyć. Nierozważne wykorzystywanie pojazdów autonomicznych, sztuki AI lub deepfake’ów może doprowadzić do wielu problemów. Mogą to być straty finansowe czy wizerunkowe, ale nawet zagrożenia dla zdrowia i życia. Aby zredukować występowanie tych problemów, ważne będą dalsze postępy technologii wykrywających deepfaki. Ponad to nowe rozwiązania prawne, a także edukacja społeczeństwa na temat zagrożeń związanych ze sztuką AI oraz nowymi metodami dezinformacji i fałszywymi materiałami wideo.

Bibliografia

[1] https://www.nhtsa.gov/vehicle-safety/automated-vehicles-safety

[2] https://blog.galonoleje.pl/pojazdy-autonomiczne-samochody-bez-kierowcow-juz-sa-na-ulicach

[3] https://www.forbes.com/sites/naveenjoshi/2022/08/05/5-moral-dilemmas-that-self-driving-cars-face-today/

[4] https://www.bbc.com/news/technology-45991093

[5] https://studiadesecuritate.uken.krakow.pl/wp-content/uploads/sites/43/2019/10/2-1.pdf

[6] https://www.medonet.pl/zdrowie/wiadomosci,kolejny-lekarz-ofiara-oszustow–zostal-twarza-pseudolekow–dr-sutkowski–to-jest-kradziez,artykul,26668977.html

[7] https://businessinsider.com.pl/technologie/nowe-technologie/deepfakes-historia-falszywych-filmow-i-pomysly-na-walke-z-nimi/s17z2p0

[8] https://apnews.com/article/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196

[9] https://www.benchmark.pl/aktualnosci/dzielo-sztucznej-inteligencji-docenione.html

[10] https://businessinsider.com.pl/technologie/digital-poland/sztuczna-inteligencja-w-sztuce-szansa-czy-zagrozenie/7lq70sx

Sztuczna inteligencja a twórczość głosowa

Ostatnimi czasy sztuczna inteligencja (AI) przestała być frazesem używanym wyłącznie w twórczości science-fiction – stała się częścią naszej rzeczywistości. Od wszelkiego rodzaju asystentów, po generatory tekstów, obrazów czy dźwięków, maszyna i produkowane przez nią odpowiedzi wdarły się przebojem do naszej codzienności. Czy istnieją wady tego stanu rzeczy? Jeśli tak, to czy są przeciwważone zaletami? Nad tymi pytaniami oraz innymi dylematami związanymi z wykorzystaniem AI przy zagadnieniach związanych z głosem ludzkim pochylimy się w tym wpisie.

Jak sztuczna inteligencja dostaje swój głos? Rozwój głosów AI obejmuje wiele nowatorskich dziedzin, ale do głównie stosowanych metod należą:

algorytmy uczenia maszynowego – umożliwiają systemom uczenie się na podstawie danych i z biegiem czasu poprawianie ich wydajności. Uczenie nadzorowane jest często wykorzystywane do szkolenia modeli głosu AI przy użyciu dużych zbiorów danych dotyczących ludzkiej mowy. Dzięki nadzorowanemu uczeniu się model sztucznej inteligencji uczy się rozpoznawać wzorce i korelacje między danymi wejściowymi tekstowymi a odpowiadającymi im komunikatami głosowymi. Sztuczna inteligencja uczy się na wielu przykładach ludzkiej mowy i dostosowuje swoje ustawienia tak, aby to co wygeneruje było jak najbardziej zbliżone do mowy prawdziwego człowieka. W miarę jak model przetwarza więcej danych, udoskonala zrozumienie fonetyki, intonacji i innych cech mowy, co prowadzi do coraz bardziej naturalnych i wyrazistych głosów;

przetwarzanie języka naturalnego (NLP) – umożliwia maszynom rozumienie i interpretowanie ludzkiego języka. Korzystanie z technik NLP pozwala sztucznej inteligencji rozkładać zapisane słowa i zdania w celu znalezienia ważnych szczegółów, takich jak gramatyka, znaczenie oraz emocje. NLP pozwala głosom AI interpretować i wypowiadać złożone zdania, nawet jeśli słowa mają wiele znaczeń lub brzmią tak samo. Dzięki temu głos AI brzmi naturalnie i ma sens, niezależnie od rodzaju używanego języka. NLP to magia, która wypełnia lukę między słowami pisanymi a mową mówioną, dzięki czemu głosy AI brzmią jak prawdziwi ludzie, nawet w przypadku skomplikowanych wzorców językowych.

techniki syntezy mowy – umożliwiają maszynom przekształcanie przetworzonego tekstu w zrozumiałą i wyrazistą mowę. Można to zrobić na różne sposoby, na przykład poprzez składanie nagranej mowy w celu utworzenia zdań (synteza konkatenatywna) lub używanie modeli matematycznych do tworzenia mowy (synteza parametryczna), co pozwala na większe dostosowanie. W ostatnim czasie pojawiła się przełomowa metoda zwana neuronowym TTS (Text-to-Speech). Wykorzystuje modele głębokiego uczenia się, takie jak sieci neuronowe, do generowania mowy z tekstu. Dzięki tej technice głosy AI brzmią jeszcze bardziej naturalnie i wyraziście, rejestrując najdrobniejsze szczegóły, które sprawiają, że ludzka mowa jest wyjątkowa, takie jak rytm i ton.

W praktyce dostępne narzędzia można podzielić na dwie główne kategorie: Text-to-Speech oraz Voice-to-Voice. Każde z nich umożliwia stworzenie klonu głosu danej osoby, jednak TTS jest dużo bardziej ograniczony w zakresie odtwarzania nietypowych słów, odgłosów, reakcji oraz możliwości wyrażania emocji. Voice-to-Voice w dużym uproszczeniu „zastępuje” brzmienie jednego głosu drugim, umożliwiając na przykład stworzenie sztucznego wykonania utworu jednego wokalisty przez zupełnie innego wokalistę, zaś Text-to-Speech wykorzystuje stworzony model głosu do odczytania wprowadzonego tekstu (tworząc z tekstu mel spektrogram, a następnie przekazując go do vocodera, który generuje plik audio) [1]. Podobnie jak w przypadku każdego zagadnienia związanego z uczeniem maszynowym, tak i tutaj jakość ostatecznie wygenerowanej mowy zależy w dużej mierze od modelu i danych, na których model ten był trenowany.

Początki badań nad ludzką mową miały miejsce już pod koniec XVIII wieku, jednak prace nad syntezą mowy nabrały rozpędu dużo później, gdyż w latach 20-30. XX wieku, kiedy to w Bell Labs opracowano pierwszy vocoder [2]. Zagadnienia związane z imitacją i klonowaniem głosu (co określane jest też mianem głosowych deepfake’ów) pierwszy raz na szerszą skalę poruszono w artykule naukowym opublikowanym w 1997 roku, zaś najszybszy rozwój technologii znanych nam dzisiaj nastąpił po 2010 roku. Szczególnym wydarzeniem, które napędziło popularność i dostępność narzędzi do klonowania głosu, było opublikowanie przez Google w 2017 roku algorytmu do syntezy mowy Tacotron [3].

Już teraz sztuczna inteligencja „rozmawia” z nami w wielu sytuacjach z codziennego życia: wirtualni asystenci jak Siri czy Alexa w urządzeniach czy automaty do telefonicznej obsługi klienta w różnych firmach i instytucjach to już powszechne zjawisko. Jednakże technologia ta daje możliwości, które mogą być źródłem problemów, co wzbudza kontrowersje dotyczące etyczności rozwijania jej w przyszłości.

Na pierwszy plan wysuwają się tutaj problemy zgłaszane przez osoby pracujące głosem, które obawiają się niebezpieczeństwa utraty pracy na rzecz maszyn. W przypadku tych osób głos, poza byciem częścią tożsamości, jest też źródłem wyrazu artystycznego i narzędziem pracy. W przypadku stworzenia odpowiednio dobrego modelu głosu danego człowieka, dalsza jego praca nagle, teoretycznie, przestaje być potrzebna. Dokładnie ten temat był przedmiotem dyskusji, która rozpaliła Internet w sierpniu 2023, kiedy to jeden z twórców wstawił na serwis YouTube wykonaną samodzielnie w Blenderze animację inspirowaną kultowym serialem Scooby-Doo [4]. Powodem kontrowersji było użycie przez początkującego autora AI do wygenerowania dialogów dla 4 występujących postaci, które używały modeli głosowych oryginalnej (i wciąż czynnej zawodowo) obsady. Na twórcę spadła fala krytyki za używanie czyjegoś głosu bez pozwolenia, na własny użytek. Sprawa dyskutowana była w środowisku osób zawodowo związanych z animacją, skomentowała ją także jedna z aktorek głosowych z oryginalnej obsady serialu. Wyraziła ona swoje oburzenie i dodała, że nigdy nie podejmie współpracy z tym twórcą oraz że będzie ostrzegała przed nim swoich kolegów z branży. Po opublikowaniu przeprosin przez twórcę (który przyznał się do błędu i tłumaczył swoje działania brakiem funduszy na zatrudnienie osób podkładających głos oraz całkowicie hobbystycznym i niezarobkowym charakterem stworzonej animacji) „wilczy bilet” został cofnięty, a strony pogodziły się. Z dyskusji wyłaniał się jednak wniosek o konieczności uregulowania prawnego wykorzystywania sztucznej inteligencji do takich celów. Lista zawodów, których ten temat dotyczy jest długa, a już w tym momencie istnieje mnóstwo utworów korzystających z czyjegoś głosu w podobny sposób. I mimo, że są to w większości treści tworzone przez fanów i dla fanów, w swego rodzaju hołdzie dla materiału źródłowego, to nadal jest to technicznie wykorzystanie części czyjejś tożsamości bez jego zgody.

Kolejnym dylematem są wątpliwości etyczne, gdy rozważamy wykorzystanie głosu osoby zmarłej do tworzenia nowych treści. Internet pełen jest już „coverów”, w których nowo wydane utwory są „śpiewane” przez nieżyjących już artystów. Jest to temat niezwykle delikatny, biorąc pod uwagę uczucia rodziny, bliskich i fanów zmarłego, jak i to, jak zmarła osoba postrzegałaby takie wykorzystanie części jej wizerunku.

Następnym zagrożeniem jest oszukiwanie i wprowadzanie w błąd za pomocą tej technologii. O ile przeróbki z politykami grającymi w gry multiplayer pozostają raczej w strefie niewinnych żartów, tak wkładanie w usta polityków słów, których nigdy nie wypowiedzieli, na przykład w trakcie kampanii wyborczej jest już sytuacją niebezpieczną, która może mieć poważne konsekwencje dla całego społeczeństwa. Na takie fałszywki i manipulacje są narażone obecnie zwłaszcza osoby starsze, jednak wraz z udoskonalaniem modeli i równoległym rozwojem metod generowania obrazu i ruchu ust, nawet osoby zaznajomione ze zjawiskiem mogą mieć coraz większe problemy z rozdzieleniem fałszu od rzeczywistości [5].

Podobne oszustwa w najgorszym przypadku mogą poskutkować kradzieżą tożsamości. Co jakiś czas nagłaśniane są sprawy, gdy postać celebryty występuje w reklamie, o której on sam nigdy nie słyszał [6]. Ofiarami takich kradzieży tożsamości mogą być również eksperci bądź autorytety w danej dziedzinie, na przykład lekarze, których sztucznie wytworzony wizerunek jest wykorzystywany do reklamowania rozmaitych, często nie mających żadnego związku z medycyną preparatów. Tego typu sytuacje, już teraz mające miejsce w naszym kraju [7], są szczególnie szkodliwe, gdyż potencjalni odbiorcy takich reklam są narażeni nie tylko na niepotrzebny wydatek, lecz również ryzykują swoim zdrowiem a może i życiem. Nie jest także rzadkością weryfikacja biometryczna za pomocą głosu – w przypadku wiernego modelu głosu klienta i wycieku jego danych osobistych sytuacja taka może skutkować potencjalną katastrofą. Ryzyko takiego scenariusza potwierdzono już w przypadku jednej ze stworzonych przez australijski rząd aplikacji [8].

Niezwykle trudno przewidzieć w jakim kierunku będzie zmierzał rozwój sztucznej inteligencji w zastosowaniu do generowania głosu ludzkiego. Konieczne wydają się regulacje w kwestii możliwości stosowania modeli głosu celebrytów w celach zarobkowych oraz zapewnienie, iż człowiek nie zostanie w tej sferze całkowicie zastąpiony przez maszynę. Brak znaczących zmian w tej materii może poskutkować dalszą utratą zaufania do narzędzi wykorzystujących sztuczną inteligencję. Ten temat dzieli ludzi, ma wielu zwolenników jak i przeciwników. Jak każde narzędzie, nie jest ono dobre ani złe – wszystko zależy od sposobu wykorzystania i intencji korzystającego. Już teraz istnieją narzędzia, które pozwalają wykryć, czy dane nagranie zostało sztucznie wygenerowane. Nie można też zapominać, iż do stworzenia przekonującego klonu ludzkiego głosu potrzebna jest wiedza, umiejętności i wysiłek. W przeciwnym wypadku rezultat jest niezgrabny i natychmiast można rozpoznać, że coś jest nie tak, doświadczamy wtedy „doliny niesamowitości” (eng. uncanny valley). Obecne w ludzkim głosie subtelności, emocje, różnice, akcenty, niedoskonałości są niezwykle trudne do odwzorowania. To daje nadzieję, iż maszyna nie wyprze całkiem człowieka i to tylko dzięki naszej doskonałej niedoskonałości.

[1] https://www.youtube.com/watch?v=vhArHsfsLAQ

[2] https://dl.acm.org/doi/fullHtml/10.1145/3537674.3554742#bib9

[3] https://www.forbes.com/sites/forbestechcouncil/2021/05/10/analyzing-the-rise-of-deepfake-voice-technology/

[4] https://medium.com/@n1fteyart/the-intersection-of-art-ai-and-ethics-examining-the-scooby-doo-fan-art-controversy-6f3308f45689

[5] https://www.youtube.com/watch?v=j7UT5xXklns

[6] https://holistic.news/ai-bezprawnie-wzoruje-sie-na-wizerunku-artystow-celebryci-sa-zaniepokojeni/

[7]https://www.medonet.pl/zdrowie/wiadomosci,kolejny-lekarz-ofiara-oszustow–zostal-twarza-pseudolekow–dr-sutkowski–to-jest-kradziez,artykul,26668977.html

[8] https://www.theguardian.com/technology/2023/mar/16/voice-system-used-to-verify-identity-by-centrelink-can-be-fooled-by-ai

Problemy w danych historycznych i zakodowane uprzedzenia

Prater & Borden

W 2014 roku osiemnastoletnia Brisha Borden została oskarżona o popełnienie kradzieży mienia wartości osiemdziesięciu dolarów po tym, jak postanowiła przejechać się pozostawionym i niezabezpieczonym rowerkiem dziecięcym. Brisha w przeszłości, w wieku nieletnim, popełniła mniejsze wykroczenia.

Rok wcześniej czterdziestojednoletni Vernon Prater został przyłapany na kradzieży narzędzi ze sklepu o łącznej wartości 86,35 dolarów. Vernon był już oskarżony o kradzież z bronią w ręku, za co dostał wyrok pięciu lat pozbawienia wolności. Był też oskarżony o próbę dokonania napadu z bronią w ręku.

W USA w tamtym czasie używany był system służący predykcji ryzyka, który miał na celu ocenę, czy dana osoba w przyszłości będzie popełniać inne przestępstwa. System ten dawał ocenę od 1 do 10, gdzie im wyższa wartość liczbowa, tym większe ryzyko popełniania przestępstw w przyszłości. Borden – czarna nastolatka – dostała ocenę wysokiego ryzyka: 8. Prater zaś – biały, dorosły mężczyzna – ocenę niskiego ryzyka: 3. Po dwóch latach Brisha Borden nie popełniła żadnego przestępstwa, natomiast Vernon Prater odsiadywał wyrok ośmiu lat pozbawienia wolności po tym, jak włamał się do magazynu i ukradł elektronikę wartości kilku tysięcy dolarów. [1]

Ukryte dane

Zautomatyzowane systemy uczenia maszynowego i big data są coraz liczniejsze w naszym codziennym życiu. Poczynając od algorytmów proponujących użytkownikowi serial do obejrzenia, kończąc na takim, który zadecyduje o racie twojego kredytu hipotecznego. I właśnie, w momencie, kiedy algorytm decyduje o tak ważnej dla człowieka sprawie wchodzimy na dość niebezpieczny grunt. Czy możemy w ogóle ufać takim systemom, aby podejmowały istotne decyzje? Algorytmy komputerowe dają poczucie bezstronności i obiektywności. Czy jednak istotnie tak jest?

W dużym skrócie – algorytmy uczenia maszynowego „uczą się” podejmować decyzje na podstawie dostarczonych danych. Niezależnie od sposobu tej nauki, czy to proste drzewa decyzyjne, czy bardziej zaawansowane sztuczne sieci neuronowe, z założenia algorytm powinien wyciągnąć ukryte w danych wzorce. Tak więc algorytm będzie tak obiektywny, jak obiektywne są dane uczące. O ile możemy się zgodzić, że na przykład dane medyczne czy pogodowe są obiektywne, ponieważ oczekiwane rezultaty nie wynikają z decyzji ludzkich, o tyle decyzje o np. przyznaniu kredytu czy zatrudnieniu były historycznie podejmowane przez ludzi. A ludzie, jak wiadomo, nie są stuprocentowo obiektywni i kierują się określonym światopoglądem i niestety też uprzedzeniami. A te uprzedzenia trafiają do danych w mniej lub bardziej bezpośredni sposób.

Kwestia przygotowania danych nadających się do trenowania algorytmów uczenia maszynowego to bardzo obszerne zagadnienie. Omówienie możliwych rozwiązań to temat na osobny artykuł.

W takim razie, skoro nie chcemy aby algorytm podejmował decyzje na podstawie płci, wieku czy koloru skóry, to czy nie można po prostu nie podawać tych danych? Takie naiwne podejście, choć wydaje się logiczne, ma jedną dużą lukę. Informacja o tych danych wrażliwych może być (i prawdopodobnie jest) zakodowana w innych, pozornie niepowiązanych informacjach.

Dane historyczne są tworzone przez ludzi, a ludzie niestety kierują się pewnymi uprzedzeniami. Decyzje te przesiąkają przez dane, i nawet jeśli tworząc model uwzględni się, aby na wejściu nie uwzględniał danych o rasie, wieku, płci itp. to może się okazać, że informacje te przedostają się pośrednio poprzez np. informacje o kodzie pocztowym. Można przykładowo użyć sieci Bayesowskich (Bayesian networks) do zwizualizowania wzajemnych połączeń między różnymi cechami. To narzędzie ma na celu wskazanie gdzie mogą ukryte być dane, na podstawie których nie chcielibyśmy podejmować decyzji. [2]

Sądowy system oceny ryzyka w USA

Powróćmy do algorytmu wykorzystywanego w systemie karnym USA (system COMPAS). Julia Dressel i Hany Farid [3] spróbowali zbadać działanie tego systemu. Na początku przeprowadzili sondę, w której ankietowani bez żadnego doświadczenia w kryminologii dostali krótki opis dokonanego przestępstwa osoby oskarżonej (w tym jej wiek i płeć, ale nie rasę) i historię jej wcześniejszych oskarżeń, ich celem było przewidzenie, czy dana osoba będzie ponownie karana w ciągu najbliższych dwóch lat. Wyniki przeprowadzonego badania wykazały skuteczność (67%) podobną do systemu wykorzystywanego przez system karny USA (65,2%). Co ciekawe, udział odpowiedzi fałszywie pozytywnych, czyli takich, w których osoby oskarżone zostały przydzielone błędnie do grupy wysokiego ryzyka, był stały bez względu na rasę. Osoby czarnoskóre, zarówno w anonimowej sondzie, jak i według systemu COMPAS, miały większe prawdopodobieństwo bycia zakwalifikowanymi do grupy wyższego ryzyka niż osoby białe. Dla przypomnienia – ankietowani nie posiadali informacji o rasie osób oskarżonych.

Następnie przetestowane zostały inne metody uczenia maszynowego, w tym algorytm regresji logistycznej z dwoma cechami na wejściu – wiek i liczba wcześniejszych oskarżeń. Algorytm ten działa w taki sposób, że na (w tym przypadku) dwuwymiarowej płaszczyźnie (każda oś jest wartością danej cechy) umieszczane są poszczególne pomiary ze zbioru treningowego. Następnie wyznaczana jest prosta oddzielająca przypadki z dwóch różnych kategorii. Zwykle nie jest możliwe idealne wyznaczenie prostej, która by bezbłędnie oddzielała dwie kategorie. Dlatego też wyznacza się prostą, której błąd jest minimalny. W ten sposób uzyskano takie działanie prostej, która dzieli płaszczyznę na dwie kategorie – osoby które w przeciągu dwóch lat zostały oskarżone, i te które nie zostały oskarżone (Rys.1).

Algorytm ten ma skuteczność (66,8%) zbliżoną do systemu COMPAS (65,4%). W tym przypadku również zaobserwowano dużo wyższy odsetek osób czarnych niepoprawnie sklasyfikowanych jako osoby wyższego ryzyka od osób białych.

Jak się okazuje, informacja o rasie może przeniknąć też w danych o ilości zatrzymań [2][3]. Na przykład w USA osoby czarnoskóre są aresztowane za posiadanie narkotyków cztery razy częściej od osób białych [8][9].

Niedziałające modele

Czasami modele po prostu nie działają.

W 2012 roku opublikowano dane systemu oceniającego nowojorskich nauczycieli z lat 2007-2010. System ten dawał nauczycielom ocenę od 1 do 100 rzekomo na podstawie osiągnięć uczniów danego nauczyciela. Gary Rubinstein [4] postanowił przyjrzeć się opublikowanym danym. Zauważył, że w statystykach nauczyciele, którzy zostali objęci programem oceny przez kilka lat, mają osobną ocenę z każdego roku. Wychodząc z założenia, że ocena nauczyciela nie powinna się dramatycznie zmienić z roku na rok, postanowił sprawdzić jak zmieniła się w rzeczywistości. Wykreślił oceny nauczycieli, gdzie na osi X oznaczył ocenę z nauczania pierwszego roku, a na osi Y ocenę z drugiego roku nauczania tej samej klasy. Każda kropka na wykresie reprezentuje jednego nauczyciela (Rys.2).

Logicznym wynikiem byłaby zależność zbliżona do liniowej, bądź inna korelacja, ze względu na to że wyniki tej samej klasy u jednego nauczyciela z roku na rok nie powinien się drastycznie zmienić. Tutaj wykres przypomina bardziej generator liczb losowych, a niektóre klasy oceniane na ocenę bliską 100, następnego roku miały wynik bliski 0 i vice versa. Nie jest to wynik, który powinien zwracać system, na podstawie którego ustalane są płace nauczycieli, czy nawet decyzja czy zwolnić taką osobę. Ponieważ ten system po prostu nie działa.

Podobny problem mają algorytmy rozpoznawania twarzy. Zwykle takie technologie są tworzone w taki sposób, że algorytm uczenia maszynowego analizuje wiele obrazów, które są twarzą, i wiele obrazów które przedstawiają coś innego. System wykrywa wzorce, które są charakterystyczne dla twarzy, które nie występują na innych obrazach. Problem zaczyna się, gdy ktoś ma twarz odbiegającą od tych występujących w zbiorze treningowym. Osoby tworzące taki algorytm powinny postarać się o jak najbardziej różnorodny zbiór treningowy. Niestety okazuje się, że często w zbiorach treningowych jest niedostateczna reprezentacja osób o ciemniejszym kolorze skóry. Zbiory treningowe najczęściej mają dystrybucję koloru skóry podobną do społeczeństwa, z którego są zbierane dane. To znaczy, jeżeli zbiór treningowy składa się na przykład ze zdjęć obywateli USA i Europy, wtedy procentowy udział każdego koloru skóry w zbiorze danych będzie zbliżony do tego w demografii USA i Europy, gdzie przeważają osoby o jasnej karnacji (Rys.3).

Na uniwersytecie MIT [5] zbadano dokładność algorytmów rozpoznawania twarzy z uwzględnieniem podziału na płeć i kolor skóry. Okazało się, że technologie najpopularniejszych firm, takich jak Amazon czy IBM, nie radzą sobie z rozpoznawaniem kobiet o ciemnym kolorze skóry (rys.4). W sytuacji, gdy technologie te używane są w produktach wykorzystujących technologię rozpoznawania twarzy, pojawia się problem dostępności i bezpieczeństwa. Jeśli dokładność działania jest niska nawet dla jednej określonej grupy odbiorców, istnieje duże ryzyko uzyskania dostępu do np. telefonu przez osobę do tego nieupoważnioną. W czasach kiedy technologie rozpoznawania twarzy wykorzystywane są przez policję w kamerach monitoringu, istnieje duże ryzyko, że niewinne osoby zostaną błędnie rozpoznane jako osoby poszukiwane. Takie sytuacje już miały wielokrotnie miejsce. A wszystko przez niepoprawnie działający algorytm, który dość łatwo można by naprawić poprzez odpowiednie dobranie danych uczących.

Po opublikowaniu badania MIT większość firm poprawiła działanie swoich algorytmów, dzięki czemu dysproporcje w rozpoznawaniu twarzy są znikome.

Inkluzywny kod

Nie możemy być w stu procentach ufni algorytmom uczenia maszynowego i big data. Zwłaszcza jeśli w grę wchodzi decydowanie o ludzkim losie.

Jeśli chcemy tworzyć narzędzia, które są skuteczne, i nie uczą się uprzedzeń ludzkich, należy zejść do poziomu danych. Trzeba analizować wzajemne zależności atrybutów, które mogą wskazywać na rasę, płeć, czy wiek. Selekcjonować te, które są naprawdę niezbędne do poprawnego działania algorytmu. Następnie konieczna jest analiza samego działania algorytmu i jego wyników, aby zapewnić, że algorytm jest w istocie obiektywny.

Modele uczenia maszynowego uczą się poszukując wzorców i odtwarzając je. Jeśli podajemy nieprzefiltrowane dane historyczne, nie tworzymy tak naprawdę nowych, skuteczniejszych narzędzi, tylko automatyzujemy status quo. A gdy w grę wchodzi ludzki los, my, jako developerzy, nie możemy pozwolić sobie na powtarzanie starych błędów.

Bibliografia

[1] https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
[2] https://arxiv.org/pdf/2110.00530.pdf
[3] J. Dressel, H. Farid, “The accuracy, fairness, and limit of predicting recidivism”
[4] https://garyrubinstein.wordpress.com/2012/02/26/analyzing-released-nyc-value-added-data-part-1/
[5] https://sitn.hms.harvard.edu/flash/2020/racial-discrimination-in-face-recognition-technology/
[6] https://www.census.gov/content/dam/Census/library/publications/2020/demo/p25-1144.pdf

[7] Kimmo K ̈arkk ̈ainen, Jungseock Joo, “FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age for Bias Measurement and Mitigation”
[8] https://www.aclu.org/report/tale-two-countries-racially-targeted-arrests-era-marijuana-reform?eType=EmailBlastContent&eId=f3aa6ff4-fdc5-4596-b96a-2c0fe443df39

[9] https://www.washingtonpost.com/graphics/2020/opinions/systemic-racism-police-evidence-criminal-justice-system/

Grać jak z nut – cz.3

W drugiej części artykułu stworzyliśmy harmonię utworu. Potrzebujemy teraz jakiejś dobrej melodii, która będzie do tej harmonii pasować. Melodie składają się z motywów, czyli małych fragmentów ok. 2-5 nutowych oraz ich wariacji (czyli przekształceń). Zaczniemy od wygenerowania pierwszego motywu – jego rytmu i dźwięków. Podobnie jak w przypadku generowaniu harmonii, skorzystamy ze statystyk, N-gramów, wyznaczonych na utworach muzycznych. Do przygotowania takich statystyk wykorzystamy bazę Essen Folksong Collection. Równie dobrze można skorzystać z dowolnej innej bazy melodii, taki wybór bazy będzie rzutować na to, jakiego rodzaju melodie będą generowane. Z każdego utworu trzeba wyodrębnić melodię, zamienić ją na ciąg wartości rytmicznych oraz ciąg dźwięków, a z tych ciągów wyciągnąć statystyki. Przy tworzeniu statystyk dźwięków warto melodie najpierw w pewien sposób przygotować – przetransponować je wszystkie do dwóch tonacji, np. C-dur i c-moll. Zmniejszy to liczbę możliwych (prawdopodobnych) N-gramów 12-krotnie, a dzięki temu statystyki będą lepiej oszacowane.

Dobry motyw

Stworzenie pierwszego motywu zaczniemy od wygenerowania jego rytmu. Przypomnę tutaj, że przyjęliśmy wcześniej pewne uproszczenie – każdy z motywów i ich wariacji będzie trwać dokładnie jeden takt. Kolejne kroki generowania rytmu motywu: – losujemy pierwszą wartość rytmiczną z użyciem unigramów, – losujemy kolejną wartość rytmiczną z użyciem bigramów i unigramów – kontynuujemy losowanie kolejnych wartości rytmicznych, z użyciem N-gramów co raz wyższych rzędów (aż do 5-gramów), – przerywamy aż osiągniemy sumaryczną wartość rytmiczną równą długości jednego taktu – jeśli przekroczyliśmy długość 1 taktu, zaczynamy cały proces od początku (takie generowanie jest to na tyle szybkie, że możemy sobie pozwolić na taką niezbyt optymalną metodę prób i błędów).

Następny etap to wygenerowanie dźwięków motywu. Kolejnym uproszczeniem jakie wcześniej przyjęliśmy jest to, że generujemy utwory tylko w tonacji C-dur, dlatego skorzystamy ze statystyk N-gramów stworzonych na utworach przetransponowanych do tej tonacji, z wyłączeniem utworów w tonacjach molowych. Schemat działania jest podobny do tego przy generowaniu rytmu: – losujemy pierwszy dźwięk z użyciem unigramów, – losujemy kolejny dźwięk z użyciem bigramów i unigramów, – kontynuujemy aż wylosujemy tyle dźwięków, ile wylosowaliśmy wcześniej wartości rytmicznych – sprawdzamy, czy motyw pasuje do harmonii, jeśli nie to wracamy zaczynamy od początku – jeśli po ok. 100 próbach nie udało się wygenerować motywu pasującego do harmonii, to może oznaczać, że przy zadanej harmonii i zadanym rytmie jest bardzo małe prawdopodobieństwo wylosowania dźwięków, które będą pasować do harmonii. W takim przypadku cofamy się i generujemy nowy rytm motywu.

Generuj do skutku

Zarówno przy generowaniu rytmu motywu jak i generowaniu jego dźwięków stosujemy metodę prób i błędów. Będziemy ją też stosować w opisanym niżej generowaniu wariacji motywów. Choć taki sposób może się to wydawać “głupi”, to jest prosty i działa. Pomimo iż bardzo często takie losowo wygenerowane motywy nie pasują do harmonii, to możemy sobie pozwolić na wiele takich pomyłek. Nawet 1000 prób zajmuje krótki czas obliczeń na dzisiejszych komputerach, a wystarczy by znaleźć odpowiedni motyw.

Wariacje z powtórzeniami

Mamy pierwszy motyw, a następnie potrzebujemy dalszego ciągu melodii. Nie będziemy jednak cały czas generować nowych motywów, ponieważ utwór stałby się chaotyczny. Nie możemy także ciągle powtarzać tego samego motywu, ponieważ utwór stałby się zbyt nudny. Rozsądną drogą będzie oprócz powtórzeń motywów stworzyć także modyfikację tego motywu co zapewni zróżnicowanie, ale nie uczyni utworu chaotycznym.

Istnieje wiele metod tworzenia wariacji motywu. Jedną z nich jest transpozycja chromatyczna. Polega ona na tym, że wszystkie nuty transponowane są w górę lub dół o ten sam interwał. W takim przypadku zdarza się, że wariacja motywu posiada dźwięki spoza tonacji utworu. To z kolei powoduje, że szansa na to, że wariacja będzie pasować do harmonii jest bardzo mała. Kolejnym sposobem jest transpozycja diatoniczna, gdzie wszystkie nuty są transponowane o tę samą liczbę stopni skali. W przeciwieństwie do poprzedniej metody, wariacje diatoniczne nie posiadają dźwięków spoza tonacji.

Następnym sposobem jest zmiana jednego interwału – zmieniamy wtedy jeden z interwałów motywu pozostawiając wszystkie pozostałe interwały niezmienione. W ten sposób jedna część motywu (początek lub koniec) transponujemy (transpozycją chromatyczną lub diatoniczną). Inne metody to zamiana dwóch nut o tej samej wartości rytmicznej na jedną oraz zamiana jednej nuty na dwie nuty o tej samej wartości rytmicznej. W przypadku pierwszej metody, jeśli motyw posiada dwie nuty o tej samej wartości rytmicznej to możemy zmienić jego rytm i połączyć dwie takie nuty. W przypadku drugiej metody w sposób losowy wybieramy nutę, która zamieniamy na dwie „krótsze”.

Dzięki każdemu z opisanych sposobów tworzenia wariacji można wygenerować różne motywy. Wymienione metody nie są jedynymi obowiązującymi. Można ich wymyślić znacznie więcej. Jedyną zasadą ograniczającą w tym procesie jest to by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja, a gdzie zaczyna już inny motyw jest umowna.

Itp. itd.

Metod do tworzenia wariacji motywów jest o wiele więcej, wymyślić można ich mnóstwo. Jedyne co nas ogranicza, to zasada, by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja, tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja a gdzie zaczyna już inny motyw jest raczej umowna i każdy trochę inaczej ją “czuje”, definiuje.

Czy to już koniec?

No to tyle jeśli chodzi o generowanie utworów. Podsumujmy więc kroki jakie przedsięwzięliśmy:

Generacja harmonii utworu:
- generacja rytmu harmonicznego,
- generacja progresji akordów.
Generacja melodii:
- generowanie rytmu motywu,
- generowanie dźwięków motywu,
- tworzenie wariacji motywów,
- tworzenie motywów i wariacji “aż do skutku”, czyli aż będą dopasowane do wygenerowanej harmonii

Pozostało nam jeszcze sprawienie by wygenerowane utwory miały zadaną, tj. dopasowaną do umiejętności grającego, trudność.

Sterowanie trudnością

Jednym z naszych założeń była możliwość sterowania trudnością utworu. Możemy to uzyskać dzięki dwóm podejściom:

generowaniu utworów „jak leci” i sprawdzanie ich poziomów trudności (wg sposobów opisanych wcześniej); przygotowaniu w ten sposób dużej bazy utworów, z której następnie zostaną wybrane losowe utwory o zadanej trudności,
sterowaniu parametrami tworzenia harmonii, motywów i wariacji tak by częściej generowały elementy muzyczne o zadanej trudności

Oba sposoby nie wykluczają się wzajemnie, dlatego możemy z powodzeniem stosować je razem. W pierwszej kolejności należy wygenerować losowo np. 1000 utworów, a następnie sterować parametrami tak by wytworzyć kolejne (ale tylko takie jakich nam brakuje). Odnośnie sterowania parametrami warto zaznaczyć, że można zmieniać prawdopodobieństwo powtórzenia się motywu. Dla utworów o zadanym niskim poziomie trudności nadane prawdopodobieństwo będzie większe (powtórzenia gra się łatwiej). Trudne utwory z kolei będą miały nadane większe prawdopodobieństwo oraz rzadziej spotykane harmonie (które wymuszą także rzadziej spotykane motywy i wariacje).

Grać jak z nut – cz. 2

W pierwszej części artykułu poznaliśmy bardzo dużo pojęć muzycznych i technicznych. Teraz czas je wykorzystać do zbudowania automatycznego kompozytora. Zanim jednak do tego przystąpimy, musimy przyjąć pewne założenia (a raczej uproszczenia):

utwory będą się składały z 8 taktów w budowie okresowej (poprzednik 4 takty, następnik 4 takty)
metrum będzie 4/4 (czyli 4 ćwierćnuty na takt, akcent na pierwszą i trzecią miarę taktu)
długość każdego motywu wynosi 1 takt (mimo że to wymaganie wydaje się restrykcyjne, jednak wiele popularnych utworów jest zbudowanych właśnie z motywów, które trwają 1 takt).
stosowana będzie tylko tonacja C-dur (w razie potrzeby zawsze można po wygenerowaniu utworu przetransponować go do dowolnej tonacji)
ograniczymy się do ok. 25 najczęściej stosowanych odmian stopni harmonicznych (stopni jest 7, ale część z nich ma kilka wersji, z dodatkowymi dźwiękami, które zmieniają barwę akordu).

Co jest potrzebne do stworzenia utworu?

Do stworzenia w automatyczny sposób prostego utworu muzycznego potrzebne nam jest:

wygenerowanie harmonii utworu – akordów i ich rytmu
stworzenie motywów – ich dźwięków (wysokości) i rytmu
stworzenie wariacji tych motywów – j.w.
połączenia motywów i wariacji w melodię, dopasowując je do harmonii

Po opanowaniu podstaw możemy przejść do pierwszej części automatycznego komponowania – generowania harmonii. Zacznijmy od stworzenia rytmu harmonii.

Wolny rytm

Choć można by się pokusić o stworzenie statystycznego modelu rytmu harmonicznego, to, niestety, (przynajmniej w chwili pisania tego artykułu) nie ma dostępnej bazy, która by to umożliwiła. Wobec powyższego, musimy poradzić sobie w inny sposób – sami wymyślmy taki model. W tym celu wybierzmy kilka “sensownych” rytmów harmonicznych i zadamy im jakieś “sensowne” prawdopodobieństwa.

rytm	prawdopodobieństwo	rytm	prawdopodobieństwo
[8]	0.2	[2,2]	0.1
[6, 2]	0.1	[2,1,1]	0.02
[2, 6]	0.1	[3,1]	0.02
[7, 1]	0.02	[1,1,1,1]	0.02
[4]	0.4	[1,1,2]	0.02

Tab1. Rytmy harmoniczne, wartości wyrażane w ćwierćnutach – [6, 2] oznacza rytm, w którym są dwa akordy, pierwszy trwa 6 ćwierćnut, a drugi 2 ćwierćnuty.

Rytmy w tabeli przedstawione są w postaci tego, jak długo akordy będą trwały, a długość trwania przedstawiona jest w liczbie ćwierćnut. Niektóre rytmy trwają dwa takty (np. [8], [6, 2]), a pozostałe jeden takt ([4], [1, 1, 2] itd.).

Generowanie rytmu harmonii przebiega w następujący sposób. Losujemy kolejne rytmy aż do momentu, gdy otrzymamy tyle taktów, ile potrzebowaliśmy (w naszym przypadku 8). Ze względu na to, że rytmy mają różną długość, czasami mogą wyniknąć z tego pewne komplikacje. Przykładowo, może zaistnieć taka sytuacja, że do zakończenia generacji będzie potrzebny ostatni rytm o długości 4 ćwierćnut, a my natomiast wylosujemy rytm o długości 8. W takim przypadku, aby uniknąć niepotrzebnych problemów, można wymusić losowanie z podzbioru rytmów o długości 4 ćwierćnut.

W takim razie, zgodnie z powyższymi ustaleniami, załóżmy, że wylosowaliśmy następujące rytmy:

poprzednik: [4, 4], [2, 2], [3, 1],
następnik: [3, 1], [8], [2, 2]

Likelihood

W kolejnym kroku będziemy wykorzystywali pojęcie likelihood. Jest to nieznormalizowane do jedynki prawdopodobieństwo (tzw. pseudo-prawdopodobieństwo), które pomaga ocenić względny poziom prawdopodobieństwa różnych zdarzeń. Dla przykładu, jeżeli likelihoody zdarzeń A i B wynoszą odpowiednio 10 oraz 20, to oznacza, że zdarzenie B jest dwa razy bardziej prawdopodobne od zdarzenia A. Równie dobrze mogłyby te likelihoody wynosić 1 oraz 2, albo 0.005 oraz 0.01. Z likelihoodów można policzyć prawdopodobieństwo. Jeśli założymy, że jedynie zdarzenia A i B mogą wystąpić, to ich prawdopodobieństwa będą wynosić odpowiednio:

Progresje akordów

Aby wygenerować prawdopodobne przebiegi harmoniczne najpierw przygotujemy sobie modele N-gramowe stopni harmonicznych. W tym celu skorzystamy z modeli n-gramów udostępnionych na githubie (https://github.com/DataStrategist/Musical-chord-progressions).

Nasz przykładzie będzie wykorzystywać 1-, 2-, 3-, 4- i 5-gramy.

W rytmie harmonii poprzednika jest 6 wartości rytmicznych, więc musimy przygotować przebieg 6 stopni harmonicznych. Pierwszy akord generujemy z użyciem unigramów (1-gramów). Przygotowujemy sobie zatem najpierw likelihoody dla każdego możliwego stopnia, a następnie losujemy z uwzględnieniem tych likelihoodów. Wzór na likelihood jest w tym przypadku dość prosty:

likelihood_X=p(X)

gdzie
– X oznacza dowolny stopień harmoniczny
– p(X) to prawdopodobieństwo 1-gramu X

My w tym przypadku wylosowaliśmy IV stopień (w tej tonacji F-dur).

Drugi akord generujemy z użyciem bigramów oraz unigramów, z wagą większą dla bigramów:

likelihood_X=waga_2gramp(X v IV)+waga_1gram*p(X)

gdzie:

p(X v IV) to prawdopodobieństwo przebiegu (IV, X)

waga_Ngram to przyjęta waga N-gramu (im większa tym większy wpływ tego modelu n-gramowego, a mniejszy wpływ innych modeli)

Wagi n-gramów możemy przyjąć takie, jakie chcemy. Na potrzeby przykładu wybraliśmy takie:

n-gram	1	2	3	4	5
waga	0.001	0.01	0.1	1	5

Kolejny akord jaki wylosowaliśmy to: vi stopień (a-moll).

Generowanie trzeciego akordu przebiega podobnie, z tym że możemy już wykorzystać 3-gramy:

likelihood_X=waga_3gramp(X v IV, vi)+waga_2gramp(X v IV)+waga_1gram*p(X)

I tak kontynuujemy, aż wygenerujemy wszystkie potrzebne akordy. W naszym przypadku wylosowaliśmy:

IV, vi, I, iii, IV, vi (w przyjętej tonacji C-dur to są kolejno akordy F-dur, a-moll, C-dur, e-moll, F-dur, a-moll)

Nie jest to jakiś bardzo często spotykany przebieg akordów, ale jak się okazuje występuje w 5 popularnych piosenkach (https://www.hooktheory.com/trends#node=4.6.1.3.4.6&key=rel)

Podsumowanie

Udało nam się wygenerować rytmy i akordy, które są składowymi harmonii utworu. Należy tutaj jednak zwrócić jeszcze uwagę, że dla uproszczenia, nie wzięliśmy pod uwagę dwóch ważnych czynników:

Przebiegi harmoniczne poprzednika i następnika są bardzo często w jakiś sposób powiązane. Harmonia następnika może być identyczna do tej poprzednika lub ewentualnie lekko zmieniona, aby sprawiać wrażenie, że te dwa zdania są ze sobą w jakiś sposób powiązane.
Poprzednik i następnik kończą się prawie zawsze na konkretnych stopniach harmonicznych. Nie jest to ścisła reguła, ale niektóre stopnie harmoniczne są o wiele bardziej prawdopodobne od innych na końcach zdań muzycznych.

Na potrzeby przykładu można jednak uznać zadanie za zakończone. Harmonię utworu mamy już gotową, teraz należy jedynie stworzyć melodię do tej harmonii. W trzeciej części naszego artykułu można dowiedzieć się, jak właśnie taką melodię skomponować.

Grać jak z nut – cz. 1

Muzycy w czasie swojej edukacji muszą posiąść umiejętność gry a vista – grania nowego dla nich utworu muzycznego, bez wcześniejszego dokładnego zapoznania się z nim. Dzięki temu wirtuozi nie tylko mogą grać bez przygotowania większość utworów, ale też potrzebują dużo mniej czasu na zapoznanie się z bardziej wymagającymi kompozycjami. Do ćwiczeń gry a vista potrzebne jest jednak sporo utworów. Powinny być to raczej mało znane utwory i dopasowane do umiejętności danego muzyka poziomie trudności. Przyszły wirtuoz musi więc poświęcić sporo swojego (i nauczyciela) czasu na przygotowanie takiej playlisty, co dodatkowo demotywuje do nauki. Co gorsza, raz wykorzystana playlista nie jest już do niczego potrzebna.

Tranzystorowy kompozytor

A co gdyby było coś, co samo przygotowuje te utwory, w pełni zautomatyzowany sposób? Nie tylko samo je tworzy, ale też dopasowuje poziom trudności do umiejętności muzyka. Tak powstał pomysł na stworzenie automatycznego kompozytora – programu komputerowego komponującego utwory muzyczne za pomocą sztucznej inteligencji, która w ostatnim czasie nabiera dużego rozgłosu.

Słowo „komponowanie” może jest tu użyte trochę na wyrost, bardziej pasuje „generowanie”. Choć w sumie, kompozytorzy też tworzą kompozycje w oparciu o swoje własne algorytmy. Semantyka na bok, ważne, że stworzenie takiego (prostego póki co) programu się udało i początkujący muzycy mogliby z niego skorzystać.

Zanim jednak przejdziemy do tego, jak generować utwory muzyczne musimy najpierw poznać podstawy, dowiedzieć się jak zbudowane są utwory, a także od czego zależy ich trudność.

Muzyczne ABC

Interwał, półton, akord, takt, metrum, skala muzyczna, tonacje utworu to podstawowe pojęcia w muzycznym ABC. Interwał to wielkość opisująca odległość pomiędzy dwoma kolejnymi dźwiękami melodii. Chociaż jej jednostką jest półton, to zazwyczaj używa się nazw konkretnych interwałów. Z kolei półton to najmniejsza przyjęta różnica pomiędzy wysokościami dźwięków (ok. 5%). Oczywiście różnice te mogą być nieskończenie małe, po prostu taki podział interwałów przyjął się jako standard. Akord to trzy lub więcej dźwięków granych jednocześnie. Następnym pojęciem jest takt, czyli to co znajduje się pomiędzy pionowymi kreskami na pięciolinii. Czasami utwór zaczyna się niepełnym taktem (przedtaktem).

Rys. 1 Wizualizacja przedtaktu

Metrum – określenie to odnosi się do tego, ile wartości rytmicznych znajduje się w jednym takcie. W metrum 4/4 w jednym takcie powinny się znaleźć cztery ćwierćnuty. W metrum 3/4 – trzy ćwierćnuty, w metrum 6/8 sześć ósemek. Chociaż 3/4 oraz 6/8 oznaczają taką samą liczbę wartości rytmicznych, to metra te są inne, akcenty w nich przypadają na inne miejsca w takcie. W metrum 3/4 akcent przypada na pierwszą ćwierćnutę (poprawnie mówi się „na pierwszą miarę taktu”). Natomiast w metrum 6/8 akcent przypada na pierwszą i czwartą miarę taktu.

Skala muzyczna to zbiór dźwięków, które określają materiał dźwiękowy, z jakiego utwory muzyczne korzystają. Skale są uporządkowane, zazwyczaj przedstawia się je zgodnie z rosnącą wysokością dźwięków. Najbardziej popularnymi skalami są durowa i molowa. Skal muzycznych jest o wiele więcej, jednak w zachodnim kręgu kulturowym te dwie skale są dominujące. Wykorzystywane były w większości starszych oraz obecnie popularnych utworach. Kolejne pojęcie to tonacja utworu, czyli określenie z jakich dźwięków utwory korzystają. Skala vs. tonacja – skala jest bardziej szerokim określeniem, jest wiele tonacji o danej skali, ale dana tonacja posiada swoją skalę. Tonacja określa od jakiego dźwięku zaczyna się skala.

Budowa utworu muzycznego

W muzyce klasycznej najbardziej popularną zasadą kształtowania utworu muzycznego jest budowa okresowa. Kompozycje budowane są z pewnych elementów – okresów, stanowiących odrębną całość. By jednak zrozumieć, czym one są należy wprowadzić kilka innych pojęć.

Motyw jest to ciąg kilku nut, powtarzających się w tej samej lub nieco odmienionej postaci (wariacja) w innych miejscach utworu. Zazwyczaj czas trwania motywu jest równy długości jednego taktu.

Wariacją motywu nazywamy zmienioną w jakiś sposób formę motywu, zachowującą jednak większość jego właściwości, jak np. rytm bądź charakterystyczny interwał. W utworach muzycznych nie ma bardzo dużej liczby motywów. Większość utworu stanowią wariacje motywów. Dzięki temu utwór ma tak jakby swój charakter i nie zaskakuje słuchacza co raz to nowym materiałem muzycznym.

Muzyczny temat jest to zazwyczaj ciąg 2-3 motywów, które powtarzają się (ewentualnie w nieco zmienionych wersjach) przez cały utwór. Nie każdy utwór musi posiadać swój temat.

Zdanie muzyczne jest to dwie lub więcej fraz.

Okresem muzycznym określamy połączenie dwóch zdań muzycznych. Poniżej przedstawiono prosty okres mały z zaznaczonymi podstawowymi elementami.

Rys. 2 Schemat budowy okresowej utworu muzycznego

Tak w uproszczeniu wygląda budowa okresowa. Kilka nut tworzy motywy, kilka motywów frazę, kilka fraz zdanie, kilka zdań okres i w końcu – jeden lub kilka okresów cały utwór muzyczny. Istnieją również alternatywne metody tworzenia utworów muzycznych. Jednakże budowa okresowa jest najbardziej rozpowszechniona, a co ważne w tym przypadku – łatwiejsza do zaprogramowania.

Komponowanie w harmonii

Zazwyczaj kompozycje oparte są na przebiegach harmonicznych – akordach, które mają swoją własną „melodię” i swój własny rytm. Kolejne akordy w przebiegach harmonicznych nie są zupełnie przypadkowe. Na przykład, po akordach F-dur i G-dur bardzo prawdopodobne jest, że następnym akordem będzie C-dur. Mniej prawdopodobne będzie natomiast to, że będzie to e-moll, a zupełnie nieprawdopodobne, by był to Dis-dur. Istnieją pewne reguły rządzące tymi zależnościami między akordami. Nie musimy się jednak w nie bardziej zagłębiać, gdyż będziemy stosować modele statystyczne do generowania harmonii utworów.

Musimy za to zrozumieć, co to są stopnie harmoniczne. Tonacje posiadają kilka ważnych akordów, trójdźwięków. Ich podstawowy dźwięk, prymą są kolejne dźwięki danej tonacji. Pozostałe dźwięki należą do tej tonacji, np. pierwszym stopniem tonacji C-dur jest akord C-dur, drugim stopniem akord d-moll, trzecim e-moll, itd. Stopnie harmoniczne oznaczane są rzymskimi literami, akordy durowe oznaczane są zazwyczaj dużymi literami, a molowe małymi (podstawowe stopnie skali durowej: I, ii, iii, IV, V, vi,VII).

Stopnie harmoniczne są takimi „uniwersalnymi” akordami, niezależnie od jakiego dźwięku zaczyna się tonacja, prawdopodobieństwa kolejnych stopni harmonicznych są takie same. W tonacji C-dur ciąg akordów: C – F – G – C jest tak samo prawdopodobny jak w tonacji G-dur przebieg: G – C – D – G. W tym przykładzie został przedstawiony jeden z najczęściej stosowanych w muzyce przebiegów harmonicznych, wyrażony w stopniach: I – IV – V – I.

Dźwięki melodii nie są zupełnie dowolne, jest wiele reguł i wyjątków, które nimi rządzą. Przykład reguły i wyjątku w tworzeniu harmonii:

reguła: na każdą miarę taktu powinien wystąpić dźwięk należący do danego akordu,
wyjątek: czasami na daną miarę taktu używa się innych dźwięków, nienależących do tego akordu, lecz po których stosunkowo szybko występuje nuta tego akordu.

Te reguły i wyjątki w harmonii nie muszą być ściśle przestrzegane. Jeśli jednak będziemy się do nich stosować, to istnieje dużo większa szansa, że komponowana przez nas muzyka będzie dobrze, naturalnie brzmieć.

Od czego zależy trudność utworu muzycznego

Jest kilka czynników, które wpływają na trudność utworu:

szybkość- generalnie, niezależnie od instrumentu im szybciej, tym trudniej (szczególnie w kontekście gry a vista)
dynamika melodii – melodia składająca się z dwóch dźwięków będzie prostsza do zagrania niż taka, która wykorzystuje wiele różnych dźwięków
trudność rytmiczna – im bardziej złożony rytm, tym trudniej. Im więcej synkop, trioli, legowanych nut itp. „urozmaiceń” rytmicznych, tym trudniej
powtarzalność – nieważne jak trudna melodia, jeśli jej fragmenty się powtarzają, to gra się ją dużo łatwiej, niż taką, która cały czas się zmienia. Jeszcze gorzej jeśli się powtarza, ale w nieco zmieniony, można by rzec „podchwytliwy” sposób (gdy zmiana melodii jest łatwa do przeoczenia)
trudności związane z zapisem nutowym – im więcej dodatkowych znaków chromatycznych (bemoli, krzyżyków, kasowników) tym trudniej
trudności związane z danym instrumentem – niektóre przebiegi melodyczne mogą mieć diametralnie różne poziomy trudności na różnych instrumentach np. dwudźwięki na pianinie lub gitarze są znacznie prostsze do zagrania niż dwudźwięki na skrzypcach

Niektóre tonacje są trudniejsze od innych, bo posiadają więcej znaków przykluczowych, o których trzeba pamiętać.

Techniczne strony zagadnienia

Muzyczną stronę staraliśmy się nakreślić w poprzednich akapitach natomiast teraz skupimy się na stronie technicznej. Aby dobrze w nią wejść potrzebne jest zagłębienie się w zagadnienie „prawdopodobieństwa warunkowego”. Na początek przykład.

Załóżmy, że nie wiemy gdzie jesteśmy ani nie znamy dzisiejszej daty. Jakie jest prawdopodobieństwo, że jutro zacznie padać śnieg? Zapewne dosyć małe (w większości miejsc na ziemi śnieg nigdy lub prawie nigdy nie pada) więc oszacujemy je na jakieś 2%. Dowiedzieliśmy się jednak, że znajdujemy się w Laponii. Jest to kraina tuż za północnym kołem podbiegunowym. Jak teraz określimy prawdopodobieństwo tego, że jutro spadnie śnieg? Otóż będzie ono dużo wyższe niż przed chwilą. Niestety, dalej taka informacja nie rozwiązuje naszej zagadki, ponieważ nie znamy pory roku jaka obecnie panuje. W związku z tym określimy nasze prawdopodobieństwo na 10%. Kolejną informacją jaką otrzymaliśmy jest to, że jest środek lipca, lato w pełni. Biorąc pod uwagę najnowsze informacje możemy określić prawdopodobieństwo tego, że jutro spadnie śnieg określimy na 0,1%.

Prawdopodobieństwo warunkowe

Z historii powyżej bardzo prosto wysnuć jeden wniosek. Prawdopodobieństwo zależało od stanu naszej wiedzy i zmieniało się na jej podstawie w różne strony. W ten sposób działają prawdopodobieństwa warunkowe, oznaczane w następujący sposób:

P(A|B)

Informują nas o tym, jakie jest prawdopodobieństwo wystąpienia zdarzenia (tutaj A), jeśli wystąpiły jakieś inne zdarzenia (tutaj B). „Zdarzenie” nie musi oznaczać jakiegoś wydarzenia, incydentu – może to być jak w naszym przykładzie dowolny warunek, informacja.

Aby obliczyć prawdopodobieństwo warunkowe musimy wiedzieć, jak często występuje zdarzenie B i jak często występują oba zdarzenia – A i B jednocześnie. Lepiej to zrozumiemy wracając do naszego przykładu. Zakładając, że A to padający śnieg, a B to znajdowanie się w Laponii, to prawdopodobieństwo, że śnieg padać będzie w Laponii jest równe:

To samo równanie, wyrażone bardziej formalnie i zgodnie z przyjętymi symbolami A i B, będzie wyglądało następująco:

To nie jest to samo, co prawdopodobieństwo tego, że będzie padało w Laponii. Może częściej jeździmy do Laponii zimą i jak już jesteśmy w Laponii, to bardzo prawdopodobne, że będzie padał śnieg?

Aby teraz policzyć dokładnie, ile wynosi to prawdopodobieństwo, potrzebne nam są dwie statystyki:

N_A∩B ile razy, gdy byliśmy w Laponii, padało,
N_B ile razy byliśmy w Laponii,

oraz to ile dni do tej pory przeżyliśmy (albo ile dni upłynęło od kiedy zaczęliśmy prowadzić powyższe statystyki):

N_TOTAL.

Te dane posłużą nam do policzenia odpowiednio P(A∩B) i P(B):

W końcu mamy to, czego oczekiwaliśmy:

Czyli prawdopodobieństwo, że będzie padało, jeżeli znajdujemy się w Laponii jest równe stosunkowi tego ile razy, gdy byliśmy w Laponii padało, do tego jak wiele razy byliśmy w Laponii. Warto też dodać, że im częściej bywaliśmy w Laponii, tym to prawdopodobieństwo będzie dokładniejsze (jeżeli byliśmy 1000 dni w Laponii to będziemy mieli lepsze rozeznanie, niż jeżeli byliśmy tam 3 razy).

N-gramy

Kolejną rzeczą, jaką musimy poznać przed przystąpieniem do algorytmicznego komponowania są N-gramy, jak je stworzyć i jak z nich korzystać do generowania prawdopodobnych sekwencji danych. N-gramy są to modele statystyczne. Jeden N-gram to ciąg elementów o długości równej N. Występują 1-gramy, 2-gramy, 3-gramy, itd. Modele te są często wykorzystywane przy modelowaniu języka. Pozwalają określić, jakie jest prawdopodobieństwo wystąpienia ciągu słów. Bierze się korpus języka (mnóstwo książek, gazet, stron internetowych, forum, itp.) i na podstawie niego zlicza, ile razy wystąpił dany ciąg słów. Na przykład jeśli w zbiorze wystąpił 1000 razy ciąg „zamek królewski”, a tylko 10 razy ciąg „zamek błyskawiczny”, to oznacza, że pierwszy ciąg jest 100 razy bardziej prawdopodobny od drugiego. Takie informacje mogą nam się przydać. Dzięki nim możemy określić, jak prawdopodobne jest każde zdanie.