Grać jak z nut – cz. 2

W pierwszej części artykułu poznaliśmy bardzo dużo pojęć muzycznych i technicznych. Teraz czas je wykorzystać do zbudowania automatycznego kompozytora. Zanim jednak do tego przystąpimy, musimy przyjąć pewne założenia (a raczej uproszczenia):

  • utwory będą się składały z 8 taktów w budowie okresowej (poprzednik 4 takty, następnik 4 takty)
  • metrum będzie 4/4 (czyli 4 ćwierćnuty na takt, akcent na pierwszą i trzecią miarę taktu)
  • długość każdego motywu wynosi 1 takt (mimo że to wymaganie wydaje się restrykcyjne, jednak wiele popularnych utworów jest zbudowanych właśnie z motywów, które trwają 1 takt).
  • stosowana będzie tylko tonacja C-dur (w razie potrzeby zawsze można po wygenerowaniu utworu przetransponować go do dowolnej tonacji)
  • ograniczymy się do ok. 25 najczęściej stosowanych odmian stopni harmonicznych (stopni jest 7, ale część z nich ma kilka wersji, z dodatkowymi dźwiękami, które zmieniają barwę akordu).

Co jest potrzebne do stworzenia utworu?

Do stworzenia w automatyczny sposób prostego utworu muzycznego potrzebne nam jest:

  • wygenerowanie harmonii utworu – akordów i ich rytmu
  • stworzenie motywów – ich dźwięków (wysokości) i rytmu
  • stworzenie wariacji tych motywów – j.w.
  • połączenia motywów i wariacji w melodię, dopasowując je do harmonii

Po opanowaniu podstaw możemy przejść do pierwszej części automatycznego komponowania – generowania harmonii. Zacznijmy od stworzenia rytmu harmonii.

Wolny rytm

Choć można by się pokusić o stworzenie statystycznego modelu rytmu harmonicznego, to, niestety, (przynajmniej w chwili pisania tego artykułu) nie ma dostępnej bazy, która by to umożliwiła. Wobec powyższego, musimy poradzić sobie w inny sposób – sami wymyślmy taki model. W tym celu wybierzmy kilka “sensownych” rytmów harmonicznych i zadamy im jakieś “sensowne” prawdopodobieństwa.

rytmprawdopodobieństworytmprawdopodobieństwo
[8]0.2[2,2]0.1
[6, 2]0.1[2,1,1]0.02
[2, 6]0.1[3,1]0.02
[7, 1]0.02[1,1,1,1]0.02
[4]0.4[1,1,2]0.02
Tab1. Rytmy harmoniczne, wartości wyrażane w ćwierćnutach – [6, 2] oznacza rytm, w którym są dwa akordy, pierwszy trwa 6 ćwierćnut, a drugi 2 ćwierćnuty.


Rytmy w tabeli przedstawione są w postaci tego, jak długo akordy będą trwały, a długość trwania przedstawiona jest w liczbie ćwierćnut. Niektóre rytmy trwają dwa takty (np. [8], [6, 2]), a pozostałe jeden takt ([4], [1, 1, 2] itd.).

Generowanie rytmu harmonii przebiega w następujący sposób. Losujemy kolejne rytmy aż do momentu, gdy otrzymamy tyle taktów, ile potrzebowaliśmy (w naszym przypadku 8). Ze względu na to, że rytmy mają różną długość, czasami mogą wyniknąć z tego pewne komplikacje. Przykładowo, może zaistnieć taka sytuacja, że do zakończenia generacji będzie potrzebny ostatni rytm o długości 4 ćwierćnut, a my natomiast wylosujemy rytm o długości 8. W takim przypadku, aby uniknąć niepotrzebnych problemów, można wymusić losowanie z podzbioru rytmów o długości 4 ćwierćnut.

W takim razie, zgodnie z powyższymi ustaleniami, załóżmy, że wylosowaliśmy następujące rytmy:

  • poprzednik: [4, 4], [2, 2], [3, 1], 
  • następnik: [3, 1], [8], [2, 2]

Likelihood

W kolejnym kroku będziemy wykorzystywali pojęcie likelihood. Jest to nieznormalizowane do jedynki prawdopodobieństwo (tzw. pseudo-prawdopodobieństwo), które pomaga ocenić względny poziom prawdopodobieństwa różnych zdarzeń. Dla przykładu, jeżeli likelihoody zdarzeń A i B wynoszą odpowiednio 10 oraz 20, to oznacza, że zdarzenie B jest dwa razy bardziej prawdopodobne od zdarzenia A. Równie dobrze mogłyby te likelihoody wynosić 1 oraz 2, albo 0.005 oraz 0.01. Z likelihoodów można policzyć prawdopodobieństwo. Jeśli założymy, że jedynie zdarzenia A i B mogą wystąpić, to ich prawdopodobieństwa będą wynosić odpowiednio:

Obrazek posiada pusty atrybut alt; plik o nazwie Zasob-1.svg

Progresje akordów

Aby wygenerować prawdopodobne przebiegi harmoniczne najpierw przygotujemy sobie modele N-gramowe stopni harmonicznych. W tym celu skorzystamy z modeli n-gramów udostępnionych na githubie (https://github.com/DataStrategist/Musical-chord-progressions).

Nasz przykładzie będzie wykorzystywać 1-, 2-, 3-, 4- i 5-gramy.

W rytmie harmonii poprzednika jest 6 wartości rytmicznych, więc musimy przygotować przebieg 6 stopni harmonicznych. Pierwszy akord generujemy z użyciem unigramów (1-gramów). Przygotowujemy sobie zatem najpierw likelihoody dla każdego możliwego stopnia, a następnie losujemy z uwzględnieniem tych likelihoodów. Wzór na likelihood jest w tym przypadku dość prosty:

likelihoodX=p(X)

gdzie
X oznacza dowolny stopień harmoniczny
p(X) to prawdopodobieństwo 1-gramu X

My w tym przypadku wylosowaliśmy IV stopień (w tej tonacji F-dur).

Drugi akord generujemy z użyciem bigramów oraz unigramów, z wagą większą dla bigramów:

likelihoodX=waga2gramp(X v IV)+waga1gram*p(X)

gdzie:

  • p(X v IV) to prawdopodobieństwo przebiegu (IV, X)
  • wagaNgram to przyjęta waga N-gramu (im większa tym większy wpływ tego modelu n-gramowego, a mniejszy wpływ innych modeli)

Wagi n-gramów możemy przyjąć takie, jakie chcemy. Na potrzeby przykładu wybraliśmy takie:

n-gram12345
waga0.0010.010.115

Kolejny akord jaki wylosowaliśmy to: vi stopień (a-moll).

Generowanie trzeciego akordu przebiega podobnie, z tym że możemy już wykorzystać 3-gramy:

likelihoodX=waga3gramp(X v IV, vi)+waga2gramp(X v IV)+waga1gram*p(X)

I tak kontynuujemy, aż wygenerujemy wszystkie potrzebne akordy. W naszym przypadku wylosowaliśmy:

IV,  vi, I, iii, IV, vi (w przyjętej tonacji C-dur to są kolejno akordy F-dur, a-moll, C-dur, e-moll, F-dur, a-moll)

Nie jest to jakiś bardzo często spotykany przebieg akordów, ale jak się okazuje występuje w 5 popularnych piosenkach (https://www.hooktheory.com/trends#node=4.6.1.3.4.6&key=rel)

Podsumowanie

Udało nam się wygenerować rytmy i akordy, które są składowymi harmonii utworu. Należy tutaj jednak zwrócić jeszcze uwagę, że dla uproszczenia, nie wzięliśmy pod uwagę dwóch ważnych czynników:

  • Przebiegi harmoniczne poprzednika i następnika są bardzo często w jakiś sposób powiązane. Harmonia następnika może być identyczna do tej poprzednika lub ewentualnie lekko zmieniona, aby sprawiać wrażenie, że te dwa zdania są ze sobą w jakiś sposób powiązane.
  • Poprzednik i następnik kończą się prawie zawsze na konkretnych stopniach harmonicznych. Nie jest to ścisła reguła, ale niektóre stopnie harmoniczne są o wiele bardziej prawdopodobne od innych na końcach zdań muzycznych.

Na potrzeby przykładu można jednak uznać zadanie za zakończone. Harmonię utworu mamy już gotową, teraz należy jedynie stworzyć melodię do tej harmonii. W trzeciej części naszego artykułu można dowiedzieć się, jak właśnie taką melodię skomponować.

Chmura obliczeniowa a środowisko

Termin chmury obliczeniowej trudno jest jednoznacznie zdefiniować. Inne podejście do chmury będą miały przedsiębiorstwa czy osoby prywatne. Zwykle mówimy o chmurze obliczeniowej jako o sieci dostępnych na żądanie zasobów serwerowych – mocy obliczeniowej oraz przestrzeni dyskowej, ale również i oprogramowania – dostarczanych przez zewnętrzne podmioty, czyli tzw. dostawców chmury (ang. cloud provider). Dostarczane zasoby są dostępne przez Internet oraz zarządzane przez dostawcę, eliminując tym samym wymóg kupowania sprzętu oraz bezpośredniego zarządzania fizycznymi serwerami przez firmy. Dodatkowo, chmura jest rozproszona na wiele centrów danych w wielu rejonach świata, dzięki czemu możemy liczyć na mniejszą awaryjność oraz większą dostępność naszych usług [1].

Podstawowe działanie chmury

Zasoby dostępne w chmurze są współdzielone przez wielu klientów, dzięki czemu można lepiej wykorzystać dostępną moc obliczeniową oraz przy odpowiednim użyciu, może okazać się ona korzystniejsza cenowo. Takie podejście do współdzielenia zasobów może budzić pewne obawy, jednak dzięki wykorzystaniu technologii wirtualizacji, chmura zapewnia wyższe bezpieczeństwo niż w klasycznym modelu obliczeniowym. Wirtualizacja pozwala na tworzenie symulowanych komputerów, tzw. maszyn wirtualnych, które zachowują się tak jak ich fizyczne odpowiedniki, jednak znajdują się na jednym serwerze i są od siebie w pełni odizolowane. Współdzielenie zasobów i wirtualizacja pozwalają na efektywne wykorzystanie sprzętu oraz ostatecznie ograniczenie poboru prądu przez serwerownie. Oszczędności finansowe możemy natomiast odczuć ze względu na powszechnie stosowany przez dostawców model biznesowy “pay-as-you-go” polegający na rozliczaniu użytkowników za faktycznie wykorzystane zasoby (np. za minuty czy nawet sekundy wykorzystanego czasu obliczeniowego) w przeciwieństwie do stałego abonamentu. 

Samo określenie “chmury” zapoczątkowało się jako termin slangowy. Często na schematach technicznych infrastrukturę sieciową i serwerową reprezentujemy jako ikonę chmury [2]. Aktualnie “chmura obliczeniowa” jest powszechnie przyjętym określeniem w środowisku IT oraz popularnym modelem obliczeniowym. Przystępność cenowa chmury oraz brak konieczności samodzielnego zarządzania nią, sprawia, że ten model obliczeniowy jest coraz częściej wybierany przez firmy informatyczne, co pozytywnie przekłada się na aspekty środowiskowe [3].

Mniejsze zużycie energii elektrycznej 

Wzrastające zapotrzebowanie na rozwiązania z obszaru IT niesie za sobą równocześnie większe zapotrzebowanie na energię elektryczną – zasób strategiczny z punktu widzenia utrzymania chmury. Utrzymywanie swojej własnej serwerowni w przedsiębiorstwie wiąże się jednak z ogromnymi nakładami energetycznymi, które generuje nie tylko sam sprzęt komputerowy, ale także system do chłodzenia serwerowni. 

Wbrew pozorom większe serwerownie, które przeliczają na raz ogromne ilości danych są bardziej przyjazne środowisku niż lokalne serwerownie w przedsiębiorstwach [4]. Według badań Accenture, przeniesienie własności przedsiębiorstwa do chmury może zredukować zużycie energii nawet o prawie 65%. Jest to wynikiem tego, że największe rozwiązania chmurowe budowane są zazwyczaj w przeznaczonym do tego miejscu, co pozwala na lepszą organizację infrastruktury i zarządzanie zasobami [5]. Dostawcy dużych usług chmurowych mogą z wyprzedzeniem zaplanować system chłodzenia, który będzie dawać najlepsze efekty. Dodatkowo dysponują nowoczesnym, często dużo wydajniejszym prądowo sprzętem niż przeciętna serwerownia. W badaniach przeprowadzonych w 2019 roku, stwierdzono, że chmura AWS była 3,6 razy bardziej efektywna pod względem wykorzystywanej energii niż mediana badanych centrów danych przedsiębiorstw w USA [6].

Co więcej, ze względu na to, że chmura jest środowiskiem współdzielonym, można efektywnie sterować mocą. Skala użytkowników jednej chmury obliczeniowej pozwala na bardziej rozważne rozdysponowanie zużywanej energii pomiędzy poszczególnymi przypadkami. Zrównoważone zarządzanie zasobami umożliwia również nasz produkt Data Engineering, który zbiera i analizuje dane w celu maksymalizacji wydajności i efektywności pracy.

Zmniejszenie emisji szkodliwych substancji

Poprzez budowę centrów przetwarzania danych, które korzystają z ekologicznych źródeł energii oraz opierają się na niskoemisyjnych rozwiązaniach, można chociażby kontrolować emisję dwutlenku węgla i innych gazów mających wpływ na efekt cieplarniany. Zgodnie z danymi z raportu “The Green Behind Cloud” [7] migracje do chmury publicznej mogą zredukować globalną emisję dwutlenku węgla o 59 mln ton rocznie, co jest porównywalne do usunięcia 22 milionów samochodów z drogi.

Warto również zainteresować się migracją do dostawców mających na uwadze swój ślad węglowy. Dla przykładu chmura firmy Google jest w pełni neutralna pod względem emisji dwutlenku węgla wykorzystując energię odnawialną, a od roku 2030 zobowiązuje się do wykorzystywania wyłącznie energii bezemisyjnej przez całą dobę we wszystkich centrach danych [8]. Chmura Azure firmy Microsoft jest neutralna emisyjnie od 2012 roku, a klienci mogą śledzić emisję swoich usług w specjalnie przygotowanym kalkulatorze [9].

Redukcja hałasu związanego z użytkowaniem sprzętu IT 

Hałas klasyfikowany jest jako zanieczyszczenie środowiska. Mimo że na pierwszy rzut oka wydaje się on całkiem niepozorny i nieszkodliwy, ma on negatywny wpływ na zdrowie człowieka i jakość środowiska. W odniesieniu do człowieka, zwiększa on ryzyko chorób takich jak nowotwór, zawał serca czy nadciśnienie. Z kolei z perspektywy środowiskowej ma on wpływ na zmianę zachowania zwierząt, migracji ptaków czy też ich reprodukcję.

Głównym źródłem hałasu w rozwiązaniach przechowywania danych w serwerach w firmie jest specjalny system chłodzenia, który pozwala utrzymać odpowiednią temperaturę w serwerowni. Wykorzystanie rozwiązań chmurowych pozwala zredukować emitowany hałas przez urządzenia chłodzące w miejscach pracy, co w konsekwencji przyczynia się do zmniejszenia zanieczyszczenia środowiska hałasem.

Jeśli chcesz dowiedzieć się więcej o dostępnych rozwiązaniach pozwalających na redukcję hałasu przemysłowego, sprawdź nasz produkt Intelligent Acoustics.

Redukcja poziomu odpadów 

Zastosowanie chmury obliczeniowej w swojej działalności, w przeciwieństwie do posiadania tradycyjnych serwerów w zasobach firmowych, wpływa również na zmniejszenie ilości produkowanych odpadów komputerowych. Wynika to głównie z faktu, iż chmura obliczeniowa nie wymaga zakupu dodatkowego wyposażenia czy też przygotowania infrastruktury do serwerowni w firmie, co w późniejszej perspektywie ogranicza ilość sprzętu do utylizacji.  

Ponadto, stosowane mechanizmy wirtualizacji, polegające na zastępowaniu większej liczby serwerów z małą mocą obliczeniową na mniejsze ilości serwerów, które później skuteczniej wykorzystują ową moc, optymalizują i zwiększają wydajność serwera, a to w rezultacie zmniejsza zapotrzebowanie na zasoby sprzętowe.  

Podsumowanie 

Aktualnie działanie zrównoważone jest ważnym czynnikiem przy wyborze technologii. Ochrona środowiska staje się dla firm, a także producentów urządzeń sieciowych czy telekomunikacyjnych, sprawą priorytetową, co przekłada się na szukanie bardziej ekologicznych rozwiązań. Chmura obliczeniowa zdecydowanie wpisuje się w ten trend. Nie tylko przyczynia się do ograniczenia zużycia zasobów sprzętowych, energetycznych, a także redukuje emisję szkodliwych substancji do ekosystemu czy emitowany hałas do środowiska.  

Bibliografia

[1] https://www.wit.edu.pl/dokumenty/wydawnictwa_naukowe/zeszyty_naukowe_WITZ_06/0006_Joszczuk-Januszewska.pdf 

[2] https://rocznikikae.sgh.waw.pl/p/roczniki_kae_z36_21.pdf 

[3] http://yadda.icm.edu.pl/yadda/element/bwmeta1.element.ekon-element-000171363539  

[4] Paula Bajdor, Damian Dziembek “Środowiskowe i społeczne efekty zastosowania chmury obliczeniowej w przedsiębiorstwach”, 2018 

[5] https://www.accenture.com/_acnmedia/PDF-135/Accenture-Strategy-Green-Behind-Cloud-POV.pdf  

[6] “Reducing carbon by moving to AWS” https://www.aboutamazon.com/news/sustainability/reducing-carbon-by-moving-to-aws

[7] https://www.accenture.com/us-en/insights/strategy/green-behind-cloud

[8] “Operating on 24/7 Carbon-Free Energy by 2030.” https://sustainability.google/progress/energy/

[9] https://www.microsoft.com/en-us/sustainability/emissions-impact-dashboard

Generative Adversarial Networks GAN

GANy, czyli Generative Adversarial Networks pierwszy raz zostały zaproponowane przez studentów University of Montreal Iana Goodfelllow oraz innych (m. in. Yoshua Bengio) w 2014 roku. W 2016 roku dyrektor ds. badań nad AI w Facebook oraz profesor na New York University Yann LeCun nazwał je najbardziej interesującym pomysłem ostatnich 10 lat uczenia maszynowego.

Aby zrozumieć czym są GANy, należy je porównać z algorytmami dyskryminującymi, którymi mogą być chociażby zwykłe głębokie sieci neuronowe DNN. Wprowadzenie do sieci neuronowych przeczytasz w tym artykule, a więcej informacji o konwolucyjnych sieci neuronowych znajdziesz tutaj).

Dla przykładu skorzystajmy z problemu przewidzenia tego czy dany e-mail to spam czy nie. Słowa składające się na treść e-maila są zmiennymi, które wskazują na jedną z etykiet: spam, nie spam. Algorytm dyskryminujący na podstawie wektora danych wejściowych (słowa występujące w danej wiadomości są przekształcane na reprezentacje matematyczną) uczy się przewidywać jak bardzo dany e-mail jest spamem, tzn. wyjściem dyskryminatora jest prawdopodobieństwo jak bardzo dane wejściowe są spamem, zatem uczy się relacji pomiędzy wejściem a wyjściem.

GANy działają dokładnie na odwrót. Zamiast przewidywać co reprezentują dane wejściowe próbują przewidywać dane mając etykietę. Dokładniej próbują one odpowiedzieć na pytanie: Zakładając, że ten e-mail to spam, jak prawdopodobne są te dane?

Wyrażając się bardziej precyzyjnie, zadaniem Generative Adversarial Networks jest rozwiązanie problemu modelowania generatywnego (z ang. generative modeling), który można zrobić na 2 sposoby (zawsze potrzebujemy danych o dużej rozdzielczości, np. obrazy lub dźwięk). Pierwszą możliwością jest estymacja gęstości – mając dużą ilość przykładów chcemy znaleźć funkcję prawdopodobieństwa gęstości, która je opisuje. Drugie podejście to stworzenie algorytmu, który nauczy się generować dane z tego samego zbioru danych treningowych (nie chodzi bynajmniej o tworzenie tych samych informacji a nowych, które mogłyby być nimi).

Jakie jest podejście GANów do modelowania generatywnego?

To podejście można porównać do gry, w którą gra dwóch agentów. Jeden z nich to generator, który próbuje tworzyć dane. Natomiast drugi to dyskryminator, który przewiduje czy te dane są prawdziwe czy nie. Celem generatora jest oszukanie drugiego gracza. Zatem z czasem, gdy obie stają się coraz lepsze w swoim zadaniu jest on zmuszony generować dane, które są jak najbardziej podobne do danych treningowych.

Jak wygląda proces uczenia?

Pierwszy agent – czyli dyskryminator (jest on jakąś różniczkowalną funkcją D, zazwyczaj siecią neuronową) dostaje na wejście jedną z danych treningowych (np. zdjęcie twarzy). Dalej nazywamy to zdjęcie (jest to po prostu nazwa wejścia do modelu) i jego celem jest, aby D(x) było jak najbliższe 1 – co znaczy, że x jest prawdziwym przykładem.

Drugi agent – czyli generator (który też musi być różniczkowalną funkcją G, również jest zazwyczaj siecią neuronową) otrzymuje na wejście biały szum (losowe wartości, które pozwalają mu na generowanie różnych, prawdopodobnych zdjęć). Następnie stosując funkcję do szumu z otrzymujemy x (innymi słowy G(z) = x). Liczymy na to, że próbka x będzie dość podobna do oryginalnych danych treningowych, jednak ma pewnego rodzaju problemy jak np. zauważalne zaszumienie, co może pozwolić na rozpoznanie tej próbki jako fałszywy przykład przez dyskryminator. Kolejnym krokiem jest zastosowanie funkcji dyskryminującej D do fałszywej próbki x z generatora. Teraz celem D jest sprawienie, żeby D(G(z)) było jak najbliżej zera, natomiast celem G jest aby D(G(z)) było blisko jedynki.

Można to porównać do przykładu fałszerzy pieniędzy oraz policji. Policjanci chcą, aby społeczeństwo mogło posługiwać się prawdziwymi banknotami bez możliwości bycia oszukanymi oraz wykryć te fałszywe, a następnie usunąć je z obiegu i ukarać przestępców. W tym samym czasie fałszerze chcą oszukać policję i używać stworzone przez siebie pieniądze. Co za tym idzie – obydwa środowiska, policjantów oraz złodziei, uczą się wykonywać swoje zadanie coraz lepiej.

Zakładając, że przykładowe możliwości policjantów i fałszerzy, czyli dyskryminatora i generatora są nieograniczone to punkt równowagi tej gry jest następujący: generator nauczył się tworzyć idealne dane, których nie da się rozróżnić, co za tym idzie wynik dyskryminatora to zawsze 0.5 – to znaczy nie potrafi on powiedzieć czy dana próbka jest prawdziwa czy nie.

Jakie są zastosowania GANów?

Sieci te przede wszystkim są szeroko wykorzystywane do operacji nad obrazami. Nie jest to ich jedyne zastosowanie, ponieważ równie dobrze można ich używać do jakiegokolwiek rodzaju danych.

Style Transfer w wykonaniu CycleGAN
Rys. 1 Style Transfer w wykonaniu CycleGAN

Na przykład sieć DiscoGAN potrafi przetransferować styl lub wzór z jednej dziedziny (np. torebki) do innej (np. buta). Również umie ze szkicu przedmiotu wygenerować prawdopodobny obraz (jest wiele sieci, które to też potrafią, jedną z nich jest Pix2Pix). Jest to jedno z częstszych zastosowań GANów, tzw. Style Transfer. Innymi przykładami tego zastosowania jest np. sieć CycleGAN, która zwykłe zdjęcie potrafi przemienić w obraz Van Gogha, Moneta, itd. Pozwalają one także na generowanie zdjęć z opisu (sieć StackGAN) oraz potrafią zwiększać rozdzielczość obrazów (sieć SRGAN).

Przydatne materiały

[1] Goodfellow I., Improved Techniques for Training GANs, https://arxiv.org/abs/1606.03498
2016, https://arxiv.org/pdf/1609.04468.pdf

[2] Chintala S., How to train a GAN, https://github.com/soumith/ganhacks

[3] White T., Sampling Generative Networks, School of Design, Victoria University of Wellington, Wellington

[4] LeCun Y., Mathieu M., Zhao J., Energy-based Generative Adversarial Networks, Department of Computer Science, New York University, Facebook Artificial Intelligence Research, 2016, https://arxiv.org/pdf/1609.03126v2.pdf

Bibliografia

[1] Goodfellow I., Tutorial: Generative Adversarial Networks [online], „NIPS”, 2016, https://arxiv.org/pdf/1701.00160.pdf
[2] Skymind, A Beginner’s Guide to Generative Adversarial Networks (GANs) [online], San Francisco, Skymind, dostęp: 31.05.2019
[3] Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville,Aaron, and Bengio, Yoshua. Generative adversarial nets. InAdvances in Neural Information Processing Systems, pp. 2672–2680, 2014
[4] LeCun, Y., What are some recent and potentially upcoming breakthroughs in deep learning?, „Quora”, 2016, dostęp: 31.05.2019, https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning
[5] Kim T., DiscoGAN in PyTorch, dostęp: 31.05.2019, https://github.com/carpedm20/DiscoGAN-pytorch

Konwolucyjne sieci neuronowe

Sztuczna inteligencja w coraz większym tempie przybliża możliwości maszyn do ludzkich. Duże zainteresowanie zagadnieniem sprawia, że w ostatnich latach wiele dziedzin nauki zaliczyło duży skok rozwojowy.

Jednym z celów sztucznej inteligencji jest umożliwienie maszynom obserwowania otaczającego je świata w sposób podobny do ludzkiego. Jest to możliwe poprzez zastosowanie sieci neuronowych. Sieci neuronowe to matematyczne struktury, które w swojej podstawie inspirują się naturalnymi neuronami znajdującymi się w nerwach i mózgu człowieka.

Z pewnością wielokrotnie doświadczyłeś obecności sieci neuronowych w życiu codziennym, przykładowo w:

  • wykrywaniu i rozpoznawaniu twarzy na zdjęciach w smartfonie,
  • rozpoznawaniu komend głosowych przez wirtualnego asystenta,
  • autonomicznych samochodach.

Potencjał sieci neuronowych jest ogromny. Wymienione wyżej przykłady stanowią zaledwie ułamek obecnych zastosowań. Są one jednak związane ze szczególną klasą sieci neuronowych, zwanych konwolucyjnymi, CNN, bądź ConvNet (Convolutional Neural Networks).

Przetwarzanie obrazu a sieci neuronowe

Aby przybliżyć zagadnienie konwolucyjnych sieci neuronowych, skoncentrujemy się na ich najczęstszym zastosowaniu, czyli przetwarzaniu obrazu. CNN to algorytm, który może pobrać obraz wejściowy i sklasyfikować go wedle predefiniowanych kategorii (np. rasy psa). Jest to możliwe dzięki przypisaniu wag różnym kształtom, strukturom, obiektom.

Sieci konwolucyjne poprzez trening są w stanie nauczyć się, jakie cechy szczególne obrazu pomagają w jego klasyfikacji. Ich przewagą nad standardowymi sieciami głębokimi jest większa skuteczność w wykrywaniu zawiłych zależności w obrazach. Jest to możliwe dzięki zastosowaniu filtrów badających zależności pomiędzy sąsiednimi pikselami.

Macierze wartości obrazu RGB
Rys. 1 Ogólny schemat rozmiaru obrazu RGB

Każdy obraz jest macierzą wartości, których liczba jest proporcjonalna do jego szerokości i wysokości w pikselach. W przypadku obrazów RGB obraz cechują trzy kolory podstawowe, więc każdy piksel reprezentują trzy wartości. Zadaniem ConvNet jest redukcja rozmiaru obrazu do lżejszej formy bez utraty wartościowych cech, czyli tych, które niosą informacje kluczowe dla klasyfikacji.

CNN złożona jest z dwóch kluczowych warstw. Pierwszą z nich jest warstwa konwolucyjna.

Warstwa konwolucyjna

Animacja filtracji obrazu RGB filtrem 3x3x3
Rys. 2 Animacja filtracji obrazu RGB filtrem 3x3x3

Powyższa animacja przedstawia obraz RGB oraz poruszający się po nim filtr o rozmiarze 3x3x3 i zdefiniowanym kroku. Krok to wartość w pikselach, o którą przesuwa się filtr. Może zostać zastosowany „zero padding”, czyli wypełnienie zerami (białe kwadraty). Taki zabieg pozwala na zachowanie większej ilości informacji, kosztem wydajności.

Kolejne wartości macierzy wyjściowej obliczane są w następujący sposób:

  • mnożenie wartości w danym fragmencie obrazu przez filtr (po elementach),
  • sumowanie obliczonych wartości dla danego kanału,
  • sumowanie wartości dla każdego kanału z uwzględnieniem biasu (w tym przypadku równego 1).

Warto zwrócić uwagę, że wartości filtru dla danego kanału mogą się od siebie różnić. Zadaniem warstwy konwolucyjnej, w przypadku pierwszej warstwy, jest wyodrębnienie cech, takich jak krawędzie, kolory, gradienty. Kolejne warstwy sieci – korzystając z tego, co wyznaczyły poprzednie warstwy – mogą wykrywać coraz bardziej skomplikowane kształty. Analogicznie do warstw zwykłej sieci, po warstwie konwolucyjnej występuje warstwa aktywacyjna (najczęściej funkcja ReLU), wprowadzająca nieliniowość do sieci.

Wynik konwolucji z każdym z filtrów możemy interpretować jako obraz, a wiele takich obrazów powstałych poprzez konwolucję z wieloma filtrami to obraz o wielu kanałach. Obraz RGB to coś analogicznego – składa się z 3 kanałów, po jednym dla każdego z kolorów. Wyjście warstwy konwolucyjnej to nie są jednak kolory, lecz pewne „koloro-kształty”, które każdy z filtrów sobą reprezentuje. Odpowiada również za redukcję szumu. Najpopularniejszą metodą jest „max pooling”.

Zazwyczaj stosuje się wiele filtrów, przez co warstwa konwolucyjna, zwiększa głębokość, czyli liczbę kanałów obrazu.

Warstwa łącząca

Kolejna warstwa, nazywana łączącą ma za zadanie zmniejszenie pozostałych wymiarów obrazu (szerokości i wysokości), przy zachowaniu kluczowych informacji potrzebnych np. do klasyfikacji obrazu.

Schemat operacji łączenia
Rys. 3 Schemat operacji łączenia

Operacja łączenia przebiega w sposób zbliżony do stosowanego w warstwie konwolucyjnej. Definiowany jest filtr oraz krok. Kolejne wartości macierzy wyjściowej są maksymalną wartością objętą filtrem.

Wymienione warstwy stanowią razem jedną warstwę sieci konwolucyjnej. Po zastosowaniu wybranej ilości warstw otrzymana macierz zostaje „spłaszczona” do jednego wymiaru – wymiary szerokość i wysokość są stopniowo zastępowane przez wymiar głębokości. Wynik warstw konwolucyjnych stanowi wejście do kolejnych warstw sieci, zazwyczaj takich standardowych, w pełni połączonych (ang. Dense Layers). Pozwala to na nauczenie algorytmu nieliniowych zależności pomiędzy cechami wyznaczonymi przez warstwy konwolucyjne.

Ostatnią warstwą sieci jest warstwa Soft-Max, pozwalająca na uzyskanie wartości prawdopodobieństw przynależności do poszczególnych klas (na przykład prawdopodobieństwo, że na obrazie znajduje się kot). W trakcie treningu są one porównywane z pożądanym wynikiem klasyfikacji w zastosowanej funkcji kosztu, a następnie poprzez algorytm wstecznej propagacji sieć dostosowuje swoje wagi w celu zminimalizowania błędu.

Konwolucyjne sieci neuronowe są ważnym elementem rozwoju uczenia maszynowego. Przyczyniają się do postępu automatyzacji i pozwalają rozszerzyć ludzkie zdolności percepcji. Ich możliwości będą stale rosnąć wraz z mocą obliczeniową komputerów i ilością dostępnych danych.

Bibliografia

[1] https://medium.com/@raycad.seedotech/convolutional-neural-network-cnn-8d1908c010ab

[2] https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148

[3] https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53