Grać jak z nut – cz.3

W drugiej części artykułu stworzyliśmy harmonię utworu. Potrzebujemy teraz jakiejś dobrej melodii, która będzie do tej harmonii pasować. Melodie składają się z motywów, czyli małych fragmentów ok. 2-5 nutowych oraz ich wariacji (czyli przekształceń). Zaczniemy od wygenerowania pierwszego motywu – jego rytmu i dźwięków. Podobnie jak w przypadku generowaniu harmonii, skorzystamy ze statystyk, N-gramów, wyznaczonych na utworach muzycznych. Do przygotowania takich statystyk wykorzystamy bazę Essen Folksong Collection. Równie dobrze można skorzystać z dowolnej innej bazy melodii, taki wybór bazy będzie rzutować na to, jakiego rodzaju melodie będą generowane. Z każdego utworu trzeba wyodrębnić melodię, zamienić ją na ciąg wartości rytmicznych oraz ciąg dźwięków, a z tych  ciągów wyciągnąć statystyki. Przy tworzeniu statystyk dźwięków warto melodie najpierw  w pewien sposób przygotować –  przetransponować je wszystkie do dwóch tonacji, np. C-dur i c-moll. Zmniejszy to liczbę możliwych (prawdopodobnych) N-gramów 12-krotnie, a dzięki temu statystyki będą lepiej oszacowane.

Dobry motyw

Stworzenie pierwszego motywu zaczniemy od wygenerowania jego rytmu. Przypomnę tutaj, że przyjęliśmy wcześniej pewne uproszczenie – każdy z motywów i ich wariacji będzie trwać dokładnie jeden takt. Kolejne kroki generowania rytmu motywu: – losujemy pierwszą wartość rytmiczną z użyciem unigramów, – losujemy kolejną wartość rytmiczną z użyciem bigramów i unigramów – kontynuujemy losowanie kolejnych wartości rytmicznych, z użyciem N-gramów co raz wyższych rzędów (aż do 5-gramów), – przerywamy aż osiągniemy sumaryczną wartość rytmiczną równą długości jednego taktu – jeśli przekroczyliśmy długość 1 taktu, zaczynamy cały proces od początku (takie generowanie jest to na tyle szybkie, że możemy sobie pozwolić na taką niezbyt optymalną metodę prób i błędów).

Następny etap to wygenerowanie dźwięków motywu. Kolejnym uproszczeniem jakie wcześniej przyjęliśmy jest to, że generujemy utwory tylko w tonacji C-dur, dlatego skorzystamy ze statystyk N-gramów stworzonych na utworach przetransponowanych do tej tonacji, z wyłączeniem utworów w tonacjach molowych. Schemat działania jest podobny do tego przy generowaniu rytmu: – losujemy pierwszy dźwięk z użyciem unigramów, – losujemy kolejny dźwięk z użyciem bigramów i unigramów, – kontynuujemy aż wylosujemy tyle dźwięków, ile wylosowaliśmy wcześniej wartości rytmicznych – sprawdzamy, czy motyw pasuje do harmonii, jeśli nie to wracamy zaczynamy od początku – jeśli po ok. 100 próbach nie udało się wygenerować motywu pasującego do harmonii, to może oznaczać, że przy zadanej harmonii i zadanym rytmie jest bardzo małe prawdopodobieństwo wylosowania dźwięków, które będą pasować do harmonii. W takim przypadku cofamy się i generujemy nowy rytm motywu.

Generuj do skutku

Zarówno przy generowaniu rytmu motywu jak i generowaniu jego dźwięków stosujemy metodę prób i błędów. Będziemy ją też stosować w opisanym niżej generowaniu wariacji motywów. Choć taki sposób może się to wydawać “głupi”, to jest prosty i działa. Pomimo iż bardzo często takie losowo wygenerowane motywy nie pasują do harmonii, to możemy sobie pozwolić na wiele takich pomyłek. Nawet 1000 prób zajmuje krótki czas obliczeń na dzisiejszych komputerach, a wystarczy by znaleźć odpowiedni motyw.

Wariacje z powtórzeniami

Mamy pierwszy motyw, a następnie potrzebujemy dalszego ciągu melodii. Nie będziemy jednak cały czas generować nowych motywów, ponieważ utwór stałby się chaotyczny. Nie możemy także ciągle powtarzać tego samego motywu, ponieważ utwór stałby się zbyt nudny. Rozsądną drogą będzie oprócz powtórzeń motywów stworzyć także modyfikację tego motywu co zapewni zróżnicowanie, ale nie uczyni utworu chaotycznym.

Istnieje wiele metod tworzenia wariacji motywu. Jedną z nich jest transpozycja chromatyczna. Polega ona na tym, że wszystkie nuty transponowane są w górę lub dół o ten sam interwał. W takim przypadku zdarza się, że wariacja motywu posiada dźwięki spoza tonacji utworu. To z kolei powoduje, że szansa na to, że wariacja będzie pasować do harmonii jest bardzo mała. Kolejnym sposobem jest transpozycja diatoniczna, gdzie wszystkie nuty są transponowane o tę samą liczbę stopni skali. W przeciwieństwie do poprzedniej metody, wariacje diatoniczne nie posiadają dźwięków spoza tonacji.

Następnym sposobem jest zmiana jednego interwału – zmieniamy wtedy jeden z interwałów motywu pozostawiając wszystkie pozostałe interwały niezmienione. W ten sposób jedna część motywu (początek lub koniec) transponujemy (transpozycją chromatyczną lub diatoniczną). Inne metody to zamiana dwóch nut o tej samej wartości rytmicznej na jedną oraz zamiana jednej nuty na dwie nuty o tej samej wartości rytmicznej. W przypadku pierwszej metody, jeśli motyw posiada dwie nuty o tej samej wartości rytmicznej to możemy zmienić jego rytm i połączyć dwie takie nuty. W przypadku drugiej metody w sposób losowy wybieramy nutę, która zamieniamy na dwie „krótsze”.

Dzięki każdemu z opisanych sposobów tworzenia wariacji można wygenerować różne motywy. Wymienione metody nie są jedynymi obowiązującymi. Można ich wymyślić znacznie więcej. Jedyną zasadą ograniczającą w tym procesie jest to by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja, a gdzie zaczyna już inny motyw jest umowna.

Itp. itd.

Metod do tworzenia wariacji motywów jest o wiele więcej, wymyślić można ich mnóstwo. Jedyne co nas ogranicza, to zasada, by wygenerowane wariacje nie różniły się za bardzo od oryginalnego motywu. W przeciwnym wypadku to już nie będzie wariacja, tylko nowy motyw. Granica pomiędzy tym gdzie kończy się wariacja a gdzie zaczyna już inny motyw jest raczej umowna i każdy trochę inaczej ją “czuje”, definiuje.

Czy to już koniec?

No to tyle jeśli chodzi o generowanie utworów. Podsumujmy więc kroki jakie przedsięwzięliśmy:

  1. Generacja harmonii utworu:
    • generacja rytmu harmonicznego,
    • generacja progresji akordów.
  2. Generacja melodii:
    • generowanie rytmu motywu,
    • generowanie dźwięków motywu,
    • tworzenie wariacji motywów,
    • tworzenie motywów i wariacji “aż do skutku”, czyli aż będą dopasowane do wygenerowanej harmonii

Pozostało nam jeszcze sprawienie by wygenerowane utwory miały zadaną, tj. dopasowaną do umiejętności grającego, trudność.

Sterowanie trudnością

Jednym z naszych założeń była możliwość sterowania trudnością utworu. Możemy to uzyskać dzięki dwóm podejściom:

  1. generowaniu utworów „jak leci” i sprawdzanie ich poziomów trudności (wg sposobów opisanych wcześniej); przygotowaniu w ten sposób dużej bazy utworów, z której następnie zostaną wybrane losowe utwory o zadanej trudności,
  2. sterowaniu parametrami tworzenia harmonii, motywów i wariacji tak by częściej generowały elementy muzyczne o zadanej trudności

Oba sposoby nie wykluczają się wzajemnie, dlatego możemy z powodzeniem stosować je razem. W pierwszej kolejności należy wygenerować losowo np. 1000 utworów, a następnie sterować parametrami tak by wytworzyć kolejne (ale tylko takie jakich nam brakuje). Odnośnie sterowania parametrami warto zaznaczyć, że można zmieniać prawdopodobieństwo powtórzenia się motywu. Dla utworów o zadanym niskim poziomie trudności nadane prawdopodobieństwo będzie większe (powtórzenia gra się łatwiej). Trudne utwory z kolei będą miały nadane większe prawdopodobieństwo oraz rzadziej spotykane harmonie (które wymuszą także rzadziej spotykane motywy i wariacje).

Grać jak z nut – cz. 2

W pierwszej części artykułu poznaliśmy bardzo dużo pojęć muzycznych i technicznych. Teraz czas je wykorzystać do zbudowania automatycznego kompozytora. Zanim jednak do tego przystąpimy, musimy przyjąć pewne założenia (a raczej uproszczenia):

  • utwory będą się składały z 8 taktów w budowie okresowej (poprzednik 4 takty, następnik 4 takty)
  • metrum będzie 4/4 (czyli 4 ćwierćnuty na takt, akcent na pierwszą i trzecią miarę taktu)
  • długość każdego motywu wynosi 1 takt (mimo że to wymaganie wydaje się restrykcyjne, jednak wiele popularnych utworów jest zbudowanych właśnie z motywów, które trwają 1 takt).
  • stosowana będzie tylko tonacja C-dur (w razie potrzeby zawsze można po wygenerowaniu utworu przetransponować go do dowolnej tonacji)
  • ograniczymy się do ok. 25 najczęściej stosowanych odmian stopni harmonicznych (stopni jest 7, ale część z nich ma kilka wersji, z dodatkowymi dźwiękami, które zmieniają barwę akordu).

Co jest potrzebne do stworzenia utworu?

Do stworzenia w automatyczny sposób prostego utworu muzycznego potrzebne nam jest:

  • wygenerowanie harmonii utworu – akordów i ich rytmu
  • stworzenie motywów – ich dźwięków (wysokości) i rytmu
  • stworzenie wariacji tych motywów – j.w.
  • połączenia motywów i wariacji w melodię, dopasowując je do harmonii

Po opanowaniu podstaw możemy przejść do pierwszej części automatycznego komponowania – generowania harmonii. Zacznijmy od stworzenia rytmu harmonii.

Wolny rytm

Choć można by się pokusić o stworzenie statystycznego modelu rytmu harmonicznego, to, niestety, (przynajmniej w chwili pisania tego artykułu) nie ma dostępnej bazy, która by to umożliwiła. Wobec powyższego, musimy poradzić sobie w inny sposób – sami wymyślmy taki model. W tym celu wybierzmy kilka “sensownych” rytmów harmonicznych i zadamy im jakieś “sensowne” prawdopodobieństwa.

rytmprawdopodobieństworytmprawdopodobieństwo
[8]0.2[2,2]0.1
[6, 2]0.1[2,1,1]0.02
[2, 6]0.1[3,1]0.02
[7, 1]0.02[1,1,1,1]0.02
[4]0.4[1,1,2]0.02
Tab1. Rytmy harmoniczne, wartości wyrażane w ćwierćnutach – [6, 2] oznacza rytm, w którym są dwa akordy, pierwszy trwa 6 ćwierćnut, a drugi 2 ćwierćnuty.


Rytmy w tabeli przedstawione są w postaci tego, jak długo akordy będą trwały, a długość trwania przedstawiona jest w liczbie ćwierćnut. Niektóre rytmy trwają dwa takty (np. [8], [6, 2]), a pozostałe jeden takt ([4], [1, 1, 2] itd.).

Generowanie rytmu harmonii przebiega w następujący sposób. Losujemy kolejne rytmy aż do momentu, gdy otrzymamy tyle taktów, ile potrzebowaliśmy (w naszym przypadku 8). Ze względu na to, że rytmy mają różną długość, czasami mogą wyniknąć z tego pewne komplikacje. Przykładowo, może zaistnieć taka sytuacja, że do zakończenia generacji będzie potrzebny ostatni rytm o długości 4 ćwierćnut, a my natomiast wylosujemy rytm o długości 8. W takim przypadku, aby uniknąć niepotrzebnych problemów, można wymusić losowanie z podzbioru rytmów o długości 4 ćwierćnut.

W takim razie, zgodnie z powyższymi ustaleniami, załóżmy, że wylosowaliśmy następujące rytmy:

  • poprzednik: [4, 4], [2, 2], [3, 1], 
  • następnik: [3, 1], [8], [2, 2]

Likelihood

W kolejnym kroku będziemy wykorzystywali pojęcie likelihood. Jest to nieznormalizowane do jedynki prawdopodobieństwo (tzw. pseudo-prawdopodobieństwo), które pomaga ocenić względny poziom prawdopodobieństwa różnych zdarzeń. Dla przykładu, jeżeli likelihoody zdarzeń A i B wynoszą odpowiednio 10 oraz 20, to oznacza, że zdarzenie B jest dwa razy bardziej prawdopodobne od zdarzenia A. Równie dobrze mogłyby te likelihoody wynosić 1 oraz 2, albo 0.005 oraz 0.01. Z likelihoodów można policzyć prawdopodobieństwo. Jeśli założymy, że jedynie zdarzenia A i B mogą wystąpić, to ich prawdopodobieństwa będą wynosić odpowiednio:

Obrazek posiada pusty atrybut alt; plik o nazwie Zasob-1.svg

Progresje akordów

Aby wygenerować prawdopodobne przebiegi harmoniczne najpierw przygotujemy sobie modele N-gramowe stopni harmonicznych. W tym celu skorzystamy z modeli n-gramów udostępnionych na githubie (https://github.com/DataStrategist/Musical-chord-progressions).

Nasz przykładzie będzie wykorzystywać 1-, 2-, 3-, 4- i 5-gramy.

W rytmie harmonii poprzednika jest 6 wartości rytmicznych, więc musimy przygotować przebieg 6 stopni harmonicznych. Pierwszy akord generujemy z użyciem unigramów (1-gramów). Przygotowujemy sobie zatem najpierw likelihoody dla każdego możliwego stopnia, a następnie losujemy z uwzględnieniem tych likelihoodów. Wzór na likelihood jest w tym przypadku dość prosty:

likelihoodX=p(X)

gdzie
X oznacza dowolny stopień harmoniczny
p(X) to prawdopodobieństwo 1-gramu X

My w tym przypadku wylosowaliśmy IV stopień (w tej tonacji F-dur).

Drugi akord generujemy z użyciem bigramów oraz unigramów, z wagą większą dla bigramów:

likelihoodX=waga2gramp(X v IV)+waga1gram*p(X)

gdzie:

  • p(X v IV) to prawdopodobieństwo przebiegu (IV, X)
  • wagaNgram to przyjęta waga N-gramu (im większa tym większy wpływ tego modelu n-gramowego, a mniejszy wpływ innych modeli)

Wagi n-gramów możemy przyjąć takie, jakie chcemy. Na potrzeby przykładu wybraliśmy takie:

n-gram12345
waga0.0010.010.115

Kolejny akord jaki wylosowaliśmy to: vi stopień (a-moll).

Generowanie trzeciego akordu przebiega podobnie, z tym że możemy już wykorzystać 3-gramy:

likelihoodX=waga3gramp(X v IV, vi)+waga2gramp(X v IV)+waga1gram*p(X)

I tak kontynuujemy, aż wygenerujemy wszystkie potrzebne akordy. W naszym przypadku wylosowaliśmy:

IV,  vi, I, iii, IV, vi (w przyjętej tonacji C-dur to są kolejno akordy F-dur, a-moll, C-dur, e-moll, F-dur, a-moll)

Nie jest to jakiś bardzo często spotykany przebieg akordów, ale jak się okazuje występuje w 5 popularnych piosenkach (https://www.hooktheory.com/trends#node=4.6.1.3.4.6&key=rel)

Podsumowanie

Udało nam się wygenerować rytmy i akordy, które są składowymi harmonii utworu. Należy tutaj jednak zwrócić jeszcze uwagę, że dla uproszczenia, nie wzięliśmy pod uwagę dwóch ważnych czynników:

  • Przebiegi harmoniczne poprzednika i następnika są bardzo często w jakiś sposób powiązane. Harmonia następnika może być identyczna do tej poprzednika lub ewentualnie lekko zmieniona, aby sprawiać wrażenie, że te dwa zdania są ze sobą w jakiś sposób powiązane.
  • Poprzednik i następnik kończą się prawie zawsze na konkretnych stopniach harmonicznych. Nie jest to ścisła reguła, ale niektóre stopnie harmoniczne są o wiele bardziej prawdopodobne od innych na końcach zdań muzycznych.

Na potrzeby przykładu można jednak uznać zadanie za zakończone. Harmonię utworu mamy już gotową, teraz należy jedynie stworzyć melodię do tej harmonii. W trzeciej części naszego artykułu można dowiedzieć się, jak właśnie taką melodię skomponować.

Nowe rozwiązania w komputerach stacjonarnych

Współczesny rynek technologiczny prężnie rozwija się w zakresie komputerów stacjonarnych. Firmy technologiczne próbują wyróżniać swoje produkty poprzez wprowadzanie do nich innowacyjnych rozwiązań. W ostatnim czasie duży rozgłos zyskał Mac M1 Ultra.

Nowy komputer od Apple, odznacza się przede wszystkim swoją wielkością i mobilnością. Zaprezentowany na początku marca produkt jest pełnoprawnym desktopem zamkniętym w obudowie o wymiarach 197 x 197 x 95 mm. Porównując to do kart graficznych Nvidii z serii RTX, np. Gigabyte GeForce RTX 3090 Ti 24GB GDDR6X, gdzie samo GPU ma wymiary 331 x 150 x 70 mm, okazuje się, że otrzymujemy cały komputer o rozmiarach karty graficznej. [4]

Apple M1 Ultra  - przedni panel
Rys. 1 – Apple M1 Ultra  – przedni panel [5]

Różnica w budowie

Rdzenie to fizyczne elementy procesora w których zachodzą procesy i obliczenia, im więcej rdzeni tym szybciej pracować będzie komputer. Proces technologiczny wyrażony w nm oznacza wielkość bramki tranzystora i przekłada się na zapotrzebowanie energii oraz ciepło generowane przez procesor. Zatem im mniejsza wartość jest wyrażona w nm, tym wydajniejszy jest procesor.

Procesor M1 Ultra ma 20 rdzeni i tyle samo wątków, a wykonany jest w technologii 5nm. [4][6] Dla porównania AMD oferuje maksymalnie 16 rdzeni i 32 wątki w technologii 7nm [7] (nowe procesory AMD z serii ZEN4 mają mieć technologię 5nm, jednak na  ten moment nie znamy dokładnej specyfikacji [3]) a Intel 16 rdzeni i 32 wątki w technologii 14nm [8]. Wobec powyższego, w teorii produkt od Apple ma znaczną przewagę nad konkurencją w kwestiach wydajności pojedynczego wątku. [Rys. 2]

Wydajność nowego komputera Apple

Według zapewnień producenta, GPU od Apple miało przewyższać najlepszą, na tamten moment, dostępną kartę graficzną – RTX 3090.

Wykres  wydajności procesora od ilości zużytego prądu
Rys. 2 – Wykres  wydajności procesora od ilości zużytego prądu [9] . Wykres pokazany przez Apple podczas prezentacji nowego produktu

Zintegrowana karta graficzna miała zapewniać lepszą wydajność przy zużyciu ponad 200W mniej mocy. [Rys. 3] Po premierze, użytkownicy sprawdzili jednak szybko zapewnienia producenta i okazało się, że RTX znacznie przewyższa w testach benchmarkowych produkt Apple.

Wykres wydajności karty graficznej od ilości zużytego prądu
Rys. 3 – Wykres wydajności karty graficznej od ilości zużytego prądu [9]. Wykres pokazany przez Apple podczas prezentacji nowego produktu. Porównany z RTX 3090

Problemem jest to, że te benchmarki w większości wykorzystują programy niezoptymalizowane pod Mac OS, przez co produkt Apple nie wykorzystuje całości swojej mocy. W testach wykorzystujących całą moc GPU M1 Ultra wypada bardzo podobnie do swojego dedykowanego rywala. Niestety nie wszystkie aplikacje są napisane pod system operacyjny Apple, co mocno ogranicza zastosowania, w których wykorzystamy pełną moc komputera.[10]

Na poniższym wykresie zostało przedstawione porównanie liczby klatek na sekundę w “Shadow of the Tomb Raider” z 2018 roku. [Rys. 4] Im więcej klatek tym płynniejszy jest obraz. [2]

Liczba klatek na sekundę w grze z serii Tomb Raider
Rys. 4 – Liczba klatek na sekundę w grze z serii Tomb Raider (im więcej tym lepiej)[2]

Pobór energii nowego Mac Studio M1 Ultra w porównaniu do standardowych PC

Pomimo dużej mocy obliczeniowej, nowy produkt Apple jest bardzo energooszczędny. Producent podaje, że jego maksymalny ciągły pobór mocy wynosi 370W. Standardowe PC na współczesnych podzespołach nie schodzą poniżej 500W a rekomendowana moc dla sprzętu z najlepszymi częściami wynosi 1000W [Tab. 1] ( Nvidia GeForce RTX 3090 Ti + AMD R7/9 lub Intel i7/9 ).  

Intel i5
AMD R5
Intel i7
AMD R7
Intel i9 K
AMD R9
NVIDIA RTX 3090 Ti850W1000W1000W
NVIDIA RTX 3090 750W850W850W
NVIDIA RTX 3080 Ti750W850W850W
NVIDIA RTX 3080 750W850W850W
NVIDIA RTX 3070 Ti750W850W850W
NVIDIA RTX 3070 650W750W750W
Lower graphic cards650W650W650W
Tab. 1 – Tabela rekomendowanej mocy zasilacza zależnie od użytego procesora i karty graficznej. W kolumnach procesory AMD i Intel, w wierszach karty graficzne NVIDIA z serii RTX. [1]

Oznacza to znacznie mniejsze koszty utrzymania takiego komputera. Zakładając, że nasz komputer pracuje 8h dziennie i średni koszt kWh na poziomie 0,77 PLN, otrzymujemy oszczędność na poziomie 1500 zł rocznie. W krajach, które nie są zasilane zieloną energią oznacza to również mniejszą ilość zanieczyszczeń.

Problemy produktu od Apple

Produkty od Apple mają dedykowany software, co oznacza lepszą kompatybilność z hardware i przekłada się na lepszą wydajność, ale oznacza też, że dużo programów nie napisanych pod Mac OS nie jest w stanie całkowicie wykorzystać potencjału M1 Ultra. Produkt nie pozwala na korzystanie z dwóch systemów operacyjnych lub samodzielne zainstalowanie Windowsa/Linuxa. Okazuje się więc, że to co pozwala M1 Ultra osiągnąć tak dobre wyniki w niektórych warunkach, jest też powodem przez który nie jest w stanie konkurować wydajnością w innych programach. [10]

Podsumowanie

Apple M1 Ultra jest silnym komputerem w małej obudowie. Technologia 5nm zapewnia najlepszą energooszczędność wśród produktów aktualnie dostępnych na rynku. Jednak przez swoją niską kompatybilność i wysoką cenę nie zastąpi standardowych komputerów. Aby uzyskać maksymalną wydajność potrzebne są programy dedykowane pod system operacyjny Apple. Decydując się na ten komputer trzeba to mieć na myśli. Z tego powodu, pomimo wielu zalet jest to raczej produkt przeznaczony dla profesjonalnych grafików, muzyków lub edytorów wideo.

Bibliografia

[1] https://www.msi.com/blog/we-suggest-80-plus-gold-1000w-and-above-psus-for-nvidia-geforce-rtx-3090-Ti

[2] https://nano.komputronik.pl/n/apple-m1-ultra/

[3] https://www.tomshardware.com/news/amd-zen-4-ryzen-7000-release-date-specifications-pricing-benchmarks-all-we-know-specs

[4] https://www.x-kom.pl/p/730594-nettop-mini-pc-apple-mac-studio-m1-ultra-128gb-2tb-mac-os.html

[5] https://dailyweb.pl/apple-prezentuje-kosmicznie-wydajny-mac-studio-z-nowym-procesorem-m1-ultra/

[6] https://geex.x-kom.pl/wiadomosci/apple-m1-ultra-specyfikacja-wydajnosc/

[7] https://www.amd.com/pl/partner/ryzen-5000-series-desktop

[8] https://www.cpu-monkey.com/en/

[9] https://www.apple.com/pl/newsroom/2022/03/apple-unveils-m1-ultra-the-worlds-most-powerful-chip-for-a-personal-computer/

[10] https://youtu.be/kVZKWjlquAU?t=301

Chmura obliczeniowa a środowisko

Termin chmury obliczeniowej trudno jest jednoznacznie zdefiniować. Inne podejście do chmury będą miały przedsiębiorstwa czy osoby prywatne. Zwykle mówimy o chmurze obliczeniowej jako o sieci dostępnych na żądanie zasobów serwerowych – mocy obliczeniowej oraz przestrzeni dyskowej, ale również i oprogramowania – dostarczanych przez zewnętrzne podmioty, czyli tzw. dostawców chmury (ang. cloud provider). Dostarczane zasoby są dostępne przez Internet oraz zarządzane przez dostawcę, eliminując tym samym wymóg kupowania sprzętu oraz bezpośredniego zarządzania fizycznymi serwerami przez firmy. Dodatkowo, chmura jest rozproszona na wiele centrów danych w wielu rejonach świata, dzięki czemu możemy liczyć na mniejszą awaryjność oraz większą dostępność naszych usług [1].

Podstawowe działanie chmury

Zasoby dostępne w chmurze są współdzielone przez wielu klientów, dzięki czemu można lepiej wykorzystać dostępną moc obliczeniową oraz przy odpowiednim użyciu, może okazać się ona korzystniejsza cenowo. Takie podejście do współdzielenia zasobów może budzić pewne obawy, jednak dzięki wykorzystaniu technologii wirtualizacji, chmura zapewnia wyższe bezpieczeństwo niż w klasycznym modelu obliczeniowym. Wirtualizacja pozwala na tworzenie symulowanych komputerów, tzw. maszyn wirtualnych, które zachowują się tak jak ich fizyczne odpowiedniki, jednak znajdują się na jednym serwerze i są od siebie w pełni odizolowane. Współdzielenie zasobów i wirtualizacja pozwalają na efektywne wykorzystanie sprzętu oraz ostatecznie ograniczenie poboru prądu przez serwerownie. Oszczędności finansowe możemy natomiast odczuć ze względu na powszechnie stosowany przez dostawców model biznesowy “pay-as-you-go” polegający na rozliczaniu użytkowników za faktycznie wykorzystane zasoby (np. za minuty czy nawet sekundy wykorzystanego czasu obliczeniowego) w przeciwieństwie do stałego abonamentu. 

Samo określenie “chmury” zapoczątkowało się jako termin slangowy. Często na schematach technicznych infrastrukturę sieciową i serwerową reprezentujemy jako ikonę chmury [2]. Aktualnie “chmura obliczeniowa” jest powszechnie przyjętym określeniem w środowisku IT oraz popularnym modelem obliczeniowym. Przystępność cenowa chmury oraz brak konieczności samodzielnego zarządzania nią, sprawia, że ten model obliczeniowy jest coraz częściej wybierany przez firmy informatyczne, co pozytywnie przekłada się na aspekty środowiskowe [3].

Mniejsze zużycie energii elektrycznej 

Wzrastające zapotrzebowanie na rozwiązania z obszaru IT niesie za sobą równocześnie większe zapotrzebowanie na energię elektryczną – zasób strategiczny z punktu widzenia utrzymania chmury. Utrzymywanie swojej własnej serwerowni w przedsiębiorstwie wiąże się jednak z ogromnymi nakładami energetycznymi, które generuje nie tylko sam sprzęt komputerowy, ale także system do chłodzenia serwerowni. 

Wbrew pozorom większe serwerownie, które przeliczają na raz ogromne ilości danych są bardziej przyjazne środowisku niż lokalne serwerownie w przedsiębiorstwach [4]. Według badań Accenture, przeniesienie własności przedsiębiorstwa do chmury może zredukować zużycie energii nawet o prawie 65%. Jest to wynikiem tego, że największe rozwiązania chmurowe budowane są zazwyczaj w przeznaczonym do tego miejscu, co pozwala na lepszą organizację infrastruktury i zarządzanie zasobami [5]. Dostawcy dużych usług chmurowych mogą z wyprzedzeniem zaplanować system chłodzenia, który będzie dawać najlepsze efekty. Dodatkowo dysponują nowoczesnym, często dużo wydajniejszym prądowo sprzętem niż przeciętna serwerownia. W badaniach przeprowadzonych w 2019 roku, stwierdzono, że chmura AWS była 3,6 razy bardziej efektywna pod względem wykorzystywanej energii niż mediana badanych centrów danych przedsiębiorstw w USA [6].

Co więcej, ze względu na to, że chmura jest środowiskiem współdzielonym, można efektywnie sterować mocą. Skala użytkowników jednej chmury obliczeniowej pozwala na bardziej rozważne rozdysponowanie zużywanej energii pomiędzy poszczególnymi przypadkami. Zrównoważone zarządzanie zasobami umożliwia również nasz produkt Data Engineering, który zbiera i analizuje dane w celu maksymalizacji wydajności i efektywności pracy.

Zmniejszenie emisji szkodliwych substancji

Poprzez budowę centrów przetwarzania danych, które korzystają z ekologicznych źródeł energii oraz opierają się na niskoemisyjnych rozwiązaniach, można chociażby kontrolować emisję dwutlenku węgla i innych gazów mających wpływ na efekt cieplarniany. Zgodnie z danymi z raportu “The Green Behind Cloud” [7] migracje do chmury publicznej mogą zredukować globalną emisję dwutlenku węgla o 59 mln ton rocznie, co jest porównywalne do usunięcia 22 milionów samochodów z drogi.

Warto również zainteresować się migracją do dostawców mających na uwadze swój ślad węglowy. Dla przykładu chmura firmy Google jest w pełni neutralna pod względem emisji dwutlenku węgla wykorzystując energię odnawialną, a od roku 2030 zobowiązuje się do wykorzystywania wyłącznie energii bezemisyjnej przez całą dobę we wszystkich centrach danych [8]. Chmura Azure firmy Microsoft jest neutralna emisyjnie od 2012 roku, a klienci mogą śledzić emisję swoich usług w specjalnie przygotowanym kalkulatorze [9].

Redukcja hałasu związanego z użytkowaniem sprzętu IT 

Hałas klasyfikowany jest jako zanieczyszczenie środowiska. Mimo że na pierwszy rzut oka wydaje się on całkiem niepozorny i nieszkodliwy, ma on negatywny wpływ na zdrowie człowieka i jakość środowiska. W odniesieniu do człowieka, zwiększa on ryzyko chorób takich jak nowotwór, zawał serca czy nadciśnienie. Z kolei z perspektywy środowiskowej ma on wpływ na zmianę zachowania zwierząt, migracji ptaków czy też ich reprodukcję.

Głównym źródłem hałasu w rozwiązaniach przechowywania danych w serwerach w firmie jest specjalny system chłodzenia, który pozwala utrzymać odpowiednią temperaturę w serwerowni. Wykorzystanie rozwiązań chmurowych pozwala zredukować emitowany hałas przez urządzenia chłodzące w miejscach pracy, co w konsekwencji przyczynia się do zmniejszenia zanieczyszczenia środowiska hałasem.

Jeśli chcesz dowiedzieć się więcej o dostępnych rozwiązaniach pozwalających na redukcję hałasu przemysłowego, sprawdź nasz produkt Intelligent Acoustics.

Redukcja poziomu odpadów 

Zastosowanie chmury obliczeniowej w swojej działalności, w przeciwieństwie do posiadania tradycyjnych serwerów w zasobach firmowych, wpływa również na zmniejszenie ilości produkowanych odpadów komputerowych. Wynika to głównie z faktu, iż chmura obliczeniowa nie wymaga zakupu dodatkowego wyposażenia czy też przygotowania infrastruktury do serwerowni w firmie, co w późniejszej perspektywie ogranicza ilość sprzętu do utylizacji.  

Ponadto, stosowane mechanizmy wirtualizacji, polegające na zastępowaniu większej liczby serwerów z małą mocą obliczeniową na mniejsze ilości serwerów, które później skuteczniej wykorzystują ową moc, optymalizują i zwiększają wydajność serwera, a to w rezultacie zmniejsza zapotrzebowanie na zasoby sprzętowe.  

Podsumowanie 

Aktualnie działanie zrównoważone jest ważnym czynnikiem przy wyborze technologii. Ochrona środowiska staje się dla firm, a także producentów urządzeń sieciowych czy telekomunikacyjnych, sprawą priorytetową, co przekłada się na szukanie bardziej ekologicznych rozwiązań. Chmura obliczeniowa zdecydowanie wpisuje się w ten trend. Nie tylko przyczynia się do ograniczenia zużycia zasobów sprzętowych, energetycznych, a także redukuje emisję szkodliwych substancji do ekosystemu czy emitowany hałas do środowiska.  

Bibliografia

[1] https://www.wit.edu.pl/dokumenty/wydawnictwa_naukowe/zeszyty_naukowe_WITZ_06/0006_Joszczuk-Januszewska.pdf 

[2] https://rocznikikae.sgh.waw.pl/p/roczniki_kae_z36_21.pdf 

[3] http://yadda.icm.edu.pl/yadda/element/bwmeta1.element.ekon-element-000171363539  

[4] Paula Bajdor, Damian Dziembek “Środowiskowe i społeczne efekty zastosowania chmury obliczeniowej w przedsiębiorstwach”, 2018 

[5] https://www.accenture.com/_acnmedia/PDF-135/Accenture-Strategy-Green-Behind-Cloud-POV.pdf  

[6] “Reducing carbon by moving to AWS” https://www.aboutamazon.com/news/sustainability/reducing-carbon-by-moving-to-aws

[7] https://www.accenture.com/us-en/insights/strategy/green-behind-cloud

[8] “Operating on 24/7 Carbon-Free Energy by 2030.” https://sustainability.google/progress/energy/

[9] https://www.microsoft.com/en-us/sustainability/emissions-impact-dashboard

Generative Adversarial Networks GAN

GANy, czyli Generative Adversarial Networks pierwszy raz zostały zaproponowane przez studentów University of Montreal Iana Goodfelllow oraz innych (m. in. Yoshua Bengio) w 2014 roku. W 2016 roku dyrektor ds. badań nad AI w Facebook oraz profesor na New York University Yann LeCun nazwał je najbardziej interesującym pomysłem ostatnich 10 lat uczenia maszynowego.

Aby zrozumieć czym są GANy, należy je porównać z algorytmami dyskryminującymi, którymi mogą być chociażby zwykłe głębokie sieci neuronowe DNN. Wprowadzenie do sieci neuronowych przeczytasz w tym artykule, a więcej informacji o konwolucyjnych sieci neuronowych znajdziesz tutaj).

Dla przykładu skorzystajmy z problemu przewidzenia tego czy dany e-mail to spam czy nie. Słowa składające się na treść e-maila są zmiennymi, które wskazują na jedną z etykiet: spam, nie spam. Algorytm dyskryminujący na podstawie wektora danych wejściowych (słowa występujące w danej wiadomości są przekształcane na reprezentacje matematyczną) uczy się przewidywać jak bardzo dany e-mail jest spamem, tzn. wyjściem dyskryminatora jest prawdopodobieństwo jak bardzo dane wejściowe są spamem, zatem uczy się relacji pomiędzy wejściem a wyjściem.

GANy działają dokładnie na odwrót. Zamiast przewidywać co reprezentują dane wejściowe próbują przewidywać dane mając etykietę. Dokładniej próbują one odpowiedzieć na pytanie: Zakładając, że ten e-mail to spam, jak prawdopodobne są te dane?

Wyrażając się bardziej precyzyjnie, zadaniem Generative Adversarial Networks jest rozwiązanie problemu modelowania generatywnego (z ang. generative modeling), który można zrobić na 2 sposoby (zawsze potrzebujemy danych o dużej rozdzielczości, np. obrazy lub dźwięk). Pierwszą możliwością jest estymacja gęstości – mając dużą ilość przykładów chcemy znaleźć funkcję prawdopodobieństwa gęstości, która je opisuje. Drugie podejście to stworzenie algorytmu, który nauczy się generować dane z tego samego zbioru danych treningowych (nie chodzi bynajmniej o tworzenie tych samych informacji a nowych, które mogłyby być nimi).

Jakie jest podejście GANów do modelowania generatywnego?

To podejście można porównać do gry, w którą gra dwóch agentów. Jeden z nich to generator, który próbuje tworzyć dane. Natomiast drugi to dyskryminator, który przewiduje czy te dane są prawdziwe czy nie. Celem generatora jest oszukanie drugiego gracza. Zatem z czasem, gdy obie stają się coraz lepsze w swoim zadaniu jest on zmuszony generować dane, które są jak najbardziej podobne do danych treningowych.

Jak wygląda proces uczenia?

Pierwszy agent – czyli dyskryminator (jest on jakąś różniczkowalną funkcją D, zazwyczaj siecią neuronową) dostaje na wejście jedną z danych treningowych (np. zdjęcie twarzy). Dalej nazywamy to zdjęcie (jest to po prostu nazwa wejścia do modelu) i jego celem jest, aby D(x) było jak najbliższe 1 – co znaczy, że x jest prawdziwym przykładem.

Drugi agent – czyli generator (który też musi być różniczkowalną funkcją G, również jest zazwyczaj siecią neuronową) otrzymuje na wejście biały szum (losowe wartości, które pozwalają mu na generowanie różnych, prawdopodobnych zdjęć). Następnie stosując funkcję do szumu z otrzymujemy x (innymi słowy G(z) = x). Liczymy na to, że próbka x będzie dość podobna do oryginalnych danych treningowych, jednak ma pewnego rodzaju problemy jak np. zauważalne zaszumienie, co może pozwolić na rozpoznanie tej próbki jako fałszywy przykład przez dyskryminator. Kolejnym krokiem jest zastosowanie funkcji dyskryminującej D do fałszywej próbki x z generatora. Teraz celem D jest sprawienie, żeby D(G(z)) było jak najbliżej zera, natomiast celem G jest aby D(G(z)) było blisko jedynki.

Można to porównać do przykładu fałszerzy pieniędzy oraz policji. Policjanci chcą, aby społeczeństwo mogło posługiwać się prawdziwymi banknotami bez możliwości bycia oszukanymi oraz wykryć te fałszywe, a następnie usunąć je z obiegu i ukarać przestępców. W tym samym czasie fałszerze chcą oszukać policję i używać stworzone przez siebie pieniądze. Co za tym idzie – obydwa środowiska, policjantów oraz złodziei, uczą się wykonywać swoje zadanie coraz lepiej.

Zakładając, że przykładowe możliwości policjantów i fałszerzy, czyli dyskryminatora i generatora są nieograniczone to punkt równowagi tej gry jest następujący: generator nauczył się tworzyć idealne dane, których nie da się rozróżnić, co za tym idzie wynik dyskryminatora to zawsze 0.5 – to znaczy nie potrafi on powiedzieć czy dana próbka jest prawdziwa czy nie.

Jakie są zastosowania GANów?

Sieci te przede wszystkim są szeroko wykorzystywane do operacji nad obrazami. Nie jest to ich jedyne zastosowanie, ponieważ równie dobrze można ich używać do jakiegokolwiek rodzaju danych.

Style Transfer w wykonaniu CycleGAN
Rys. 1 Style Transfer w wykonaniu CycleGAN

Na przykład sieć DiscoGAN potrafi przetransferować styl lub wzór z jednej dziedziny (np. torebki) do innej (np. buta). Również umie ze szkicu przedmiotu wygenerować prawdopodobny obraz (jest wiele sieci, które to też potrafią, jedną z nich jest Pix2Pix). Jest to jedno z częstszych zastosowań GANów, tzw. Style Transfer. Innymi przykładami tego zastosowania jest np. sieć CycleGAN, która zwykłe zdjęcie potrafi przemienić w obraz Van Gogha, Moneta, itd. Pozwalają one także na generowanie zdjęć z opisu (sieć StackGAN) oraz potrafią zwiększać rozdzielczość obrazów (sieć SRGAN).

Przydatne materiały

[1] Goodfellow I., Improved Techniques for Training GANs, https://arxiv.org/abs/1606.03498
2016, https://arxiv.org/pdf/1609.04468.pdf

[2] Chintala S., How to train a GAN, https://github.com/soumith/ganhacks

[3] White T., Sampling Generative Networks, School of Design, Victoria University of Wellington, Wellington

[4] LeCun Y., Mathieu M., Zhao J., Energy-based Generative Adversarial Networks, Department of Computer Science, New York University, Facebook Artificial Intelligence Research, 2016, https://arxiv.org/pdf/1609.03126v2.pdf

Bibliografia

[1] Goodfellow I., Tutorial: Generative Adversarial Networks [online], „NIPS”, 2016, https://arxiv.org/pdf/1701.00160.pdf
[2] Skymind, A Beginner’s Guide to Generative Adversarial Networks (GANs) [online], San Francisco, Skymind, dostęp: 31.05.2019
[3] Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville,Aaron, and Bengio, Yoshua. Generative adversarial nets. InAdvances in Neural Information Processing Systems, pp. 2672–2680, 2014
[4] LeCun, Y., What are some recent and potentially upcoming breakthroughs in deep learning?, „Quora”, 2016, dostęp: 31.05.2019, https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning
[5] Kim T., DiscoGAN in PyTorch, dostęp: 31.05.2019, https://github.com/carpedm20/DiscoGAN-pytorch

Konwolucyjne sieci neuronowe

Sztuczna inteligencja w coraz większym tempie przybliża możliwości maszyn do ludzkich. Duże zainteresowanie zagadnieniem sprawia, że w ostatnich latach wiele dziedzin nauki zaliczyło duży skok rozwojowy.

Jednym z celów sztucznej inteligencji jest umożliwienie maszynom obserwowania otaczającego je świata w sposób podobny do ludzkiego. Jest to możliwe poprzez zastosowanie sieci neuronowych. Sieci neuronowe to matematyczne struktury, które w swojej podstawie inspirują się naturalnymi neuronami znajdującymi się w nerwach i mózgu człowieka.

Z pewnością wielokrotnie doświadczyłeś obecności sieci neuronowych w życiu codziennym, przykładowo w:

  • wykrywaniu i rozpoznawaniu twarzy na zdjęciach w smartfonie,
  • rozpoznawaniu komend głosowych przez wirtualnego asystenta,
  • autonomicznych samochodach.

Potencjał sieci neuronowych jest ogromny. Wymienione wyżej przykłady stanowią zaledwie ułamek obecnych zastosowań. Są one jednak związane ze szczególną klasą sieci neuronowych, zwanych konwolucyjnymi, CNN, bądź ConvNet (Convolutional Neural Networks).

Przetwarzanie obrazu a sieci neuronowe

Aby przybliżyć zagadnienie konwolucyjnych sieci neuronowych, skoncentrujemy się na ich najczęstszym zastosowaniu, czyli przetwarzaniu obrazu. CNN to algorytm, który może pobrać obraz wejściowy i sklasyfikować go wedle predefiniowanych kategorii (np. rasy psa). Jest to możliwe dzięki przypisaniu wag różnym kształtom, strukturom, obiektom.

Sieci konwolucyjne poprzez trening są w stanie nauczyć się, jakie cechy szczególne obrazu pomagają w jego klasyfikacji. Ich przewagą nad standardowymi sieciami głębokimi jest większa skuteczność w wykrywaniu zawiłych zależności w obrazach. Jest to możliwe dzięki zastosowaniu filtrów badających zależności pomiędzy sąsiednimi pikselami.

Macierze wartości obrazu RGB
Rys. 1 Ogólny schemat rozmiaru obrazu RGB

Każdy obraz jest macierzą wartości, których liczba jest proporcjonalna do jego szerokości i wysokości w pikselach. W przypadku obrazów RGB obraz cechują trzy kolory podstawowe, więc każdy piksel reprezentują trzy wartości. Zadaniem ConvNet jest redukcja rozmiaru obrazu do lżejszej formy bez utraty wartościowych cech, czyli tych, które niosą informacje kluczowe dla klasyfikacji.

CNN złożona jest z dwóch kluczowych warstw. Pierwszą z nich jest warstwa konwolucyjna.

Warstwa konwolucyjna

Animacja filtracji obrazu RGB filtrem 3x3x3
Rys. 2 Animacja filtracji obrazu RGB filtrem 3x3x3

Powyższa animacja przedstawia obraz RGB oraz poruszający się po nim filtr o rozmiarze 3x3x3 i zdefiniowanym kroku. Krok to wartość w pikselach, o którą przesuwa się filtr. Może zostać zastosowany „zero padding”, czyli wypełnienie zerami (białe kwadraty). Taki zabieg pozwala na zachowanie większej ilości informacji, kosztem wydajności.

Kolejne wartości macierzy wyjściowej obliczane są w następujący sposób:

  • mnożenie wartości w danym fragmencie obrazu przez filtr (po elementach),
  • sumowanie obliczonych wartości dla danego kanału,
  • sumowanie wartości dla każdego kanału z uwzględnieniem biasu (w tym przypadku równego 1).

Warto zwrócić uwagę, że wartości filtru dla danego kanału mogą się od siebie różnić. Zadaniem warstwy konwolucyjnej, w przypadku pierwszej warstwy, jest wyodrębnienie cech, takich jak krawędzie, kolory, gradienty. Kolejne warstwy sieci – korzystając z tego, co wyznaczyły poprzednie warstwy – mogą wykrywać coraz bardziej skomplikowane kształty. Analogicznie do warstw zwykłej sieci, po warstwie konwolucyjnej występuje warstwa aktywacyjna (najczęściej funkcja ReLU), wprowadzająca nieliniowość do sieci.

Wynik konwolucji z każdym z filtrów możemy interpretować jako obraz, a wiele takich obrazów powstałych poprzez konwolucję z wieloma filtrami to obraz o wielu kanałach. Obraz RGB to coś analogicznego – składa się z 3 kanałów, po jednym dla każdego z kolorów. Wyjście warstwy konwolucyjnej to nie są jednak kolory, lecz pewne „koloro-kształty”, które każdy z filtrów sobą reprezentuje. Odpowiada również za redukcję szumu. Najpopularniejszą metodą jest „max pooling”.

Zazwyczaj stosuje się wiele filtrów, przez co warstwa konwolucyjna, zwiększa głębokość, czyli liczbę kanałów obrazu.

Warstwa łącząca

Kolejna warstwa, nazywana łączącą ma za zadanie zmniejszenie pozostałych wymiarów obrazu (szerokości i wysokości), przy zachowaniu kluczowych informacji potrzebnych np. do klasyfikacji obrazu.

Schemat operacji łączenia
Rys. 3 Schemat operacji łączenia

Operacja łączenia przebiega w sposób zbliżony do stosowanego w warstwie konwolucyjnej. Definiowany jest filtr oraz krok. Kolejne wartości macierzy wyjściowej są maksymalną wartością objętą filtrem.

Wymienione warstwy stanowią razem jedną warstwę sieci konwolucyjnej. Po zastosowaniu wybranej ilości warstw otrzymana macierz zostaje „spłaszczona” do jednego wymiaru – wymiary szerokość i wysokość są stopniowo zastępowane przez wymiar głębokości. Wynik warstw konwolucyjnych stanowi wejście do kolejnych warstw sieci, zazwyczaj takich standardowych, w pełni połączonych (ang. Dense Layers). Pozwala to na nauczenie algorytmu nieliniowych zależności pomiędzy cechami wyznaczonymi przez warstwy konwolucyjne.

Ostatnią warstwą sieci jest warstwa Soft-Max, pozwalająca na uzyskanie wartości prawdopodobieństw przynależności do poszczególnych klas (na przykład prawdopodobieństwo, że na obrazie znajduje się kot). W trakcie treningu są one porównywane z pożądanym wynikiem klasyfikacji w zastosowanej funkcji kosztu, a następnie poprzez algorytm wstecznej propagacji sieć dostosowuje swoje wagi w celu zminimalizowania błędu.

Konwolucyjne sieci neuronowe są ważnym elementem rozwoju uczenia maszynowego. Przyczyniają się do postępu automatyzacji i pozwalają rozszerzyć ludzkie zdolności percepcji. Ich możliwości będą stale rosnąć wraz z mocą obliczeniową komputerów i ilością dostępnych danych.

Bibliografia

[1] https://medium.com/@raycad.seedotech/convolutional-neural-network-cnn-8d1908c010ab

[2] https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148

[3] https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53