遺伝的アルゴリズムから「人類は腕はエッチだとと思っていない」ことを導けるか

遺伝的アルゴリズムで最高にエッチな画像を作ろう!」 において腕の生成が安定しない理由を「This Anime Does Not Exist」と比較しながら考えてみた。果たして人類は腕をエッチだと思っていないのか。モザイクをエッチと思うようになるのか。
ついでに、生成された画像の著作権についても少しだけ考察してみた。

人はモザイクにエッチを見る

皆さんご存じの「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」は、その名の通り遺伝的アルゴリズムでエッチな画像を生成する試みである。二枚の画像が表示され、訪問者がエッチだと思う方を選択すると、その選択が蓄積され遺伝的アルゴリズムにより徐々にエッチな画像ができあがる仕組みになっている。3月1日現在では、13,000世代ほど経過し女性の裸体にような画像が生成されるに至っている。
当初は、全くのランダムなモザイク模様にしか見えなかった。そのため、当該のはてなブックマークのコメントにおいても、「人間がモザイクをエッチに感じるようになる方が早いだろう」との指摘があった。
ネタではあるが、モザイク模様を見て「エッチな画像」というワードが想起されるネットミームもいくつか観測されている。アダルトビデオのモザイクに通じるモノがある。

遺伝的アルゴリズムで最高にエッチな画像を作ろう!」で生成された画像の感想として「人類は腕をエッチだと思っていないのでは?」なる疑問を見かけたのだが、中々に興味深い。、13,000程の世代を重ねてるが腕はぼんやりとしてる。足も膝から下がはっきりしないが、腕の方がより生成が安定していないように見える。
同じような現象が、同時期に公開された This Anime Does Not Exist でも見られる。機械学習により生成されたアニメ調の絵が公開されいるが、よく見ると四肢、特に腕や指が欠損したり融合した画像が多い。

やはり、人類は腕を重視してないのだろうか。

表情豊かな「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」

遺伝的アルゴリズムで最高にエッチな画像を作ろう!」は、群青ちきん氏が2021年1月10日に公開して以降、3月1日現在では13,000世代経過している。女性の裸体が生成される様子は、群青ちきん氏本人も含め様々な人が考察している。にゃんぶ氏による進化の過程が分かりやすい。

2,000という世代(1月12日)を重ねても肌色の領域が少し増えたに過ぎなかった。人間の方がモザイクをエッチだと学習する方が早いと評されるのも、もっともである。
しかし、3,500世代頃(1月14日)から突如として乳のようなものが生成され、4,000世代(1月15日)では顔や胴体のようなものが出現し、5,100世代(1月17日)くらいで足が生え人体っぽくなり、5700世代(1月19日)においては、顔と認識できるものが出来上がっている。その後は顔の発達が目覚ましい。

顔に比べると肢体の発達は緩やかである。足は膝上までしかできず、腕は生まれては消えを繰り返し安定しない。8,000世代前後から腕の片鱗が見られるが、両腕が安定するのは9,500世代以降である。それでも、以降の世代においても腕はっきりとは表れていない。最初期に出現した乳も、基本的な構成に変化は見られていない。
一方で顔は8,000世代以降から劇的に変化していく。9,000世代では、物憂げな表情なようなものが見られている。

体に比べて顔の方が豊かになっていくのは、それだけ人間が顔を意識しているからであろう。人間の脳は顔認識にかなりの労力を割いているはずだ。個体の区別のみならず、細かな表情の違いまで読み取ることすらできる。
「人の顔色を窺う」ではないが、人間は顔から様々な情報を瞬時に読み取っている。エッチか否かも肢体よりも顔の方が重要なのかもしれない。つまりは「宇崎ちゃん」やら「駅乃みちか」、「のうりん」において表情が問題になったのにも通ずるのだろう。

エッチさに腕は必要ない?

人間は顔と比較すると肢体をザックリと認識しているようだが、それにしても「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」においては腕の生成が安定しない。その理由として、人が腕をエッチだと思っていない可能性が考えられる。ミロのヴィーナスは腕がなくても美しい。エッチさに腕は必要ないのかもしれない。
一方、ミロのヴィーナスの魅力は、腕がない故に想像力がかき立てられる点にもある。空間における腕の自由度は顔に比べて遙かに高く、その形も多様である。「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」においては、人によって想像するエッチな腕の形が違うとも考えられる。不特定多数が関与するが故に自由度の高い腕の生成が安定しないとも考えられる。

人間が肢体よりも顔の方に目を向けやすく、腕は空間の自由度が高すぎるため「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」では腕の生成が安定しない。この仮説を裏付けるようなサイトが、同時期に開設されている。

このアニメは存在しない

遺伝的アルゴリズムで最高にエッチな画像を作ろう!」が始まって間もない1月18日に「This Anime Does Not Exist(このアニメは存在しない)」 というサイトが公開された。
このサイトでは、StyleGAN2 により生成されたアニメ調の絵がタイル状に並べられおり、それらが自動的にスライドしつつ、次々に表示されていく。これまでも、存在しないアニメ調の絵を StyleGAN を用いて生成する試みはあったが、このサイトは見せ方が上手い。
しかし、見せ方が上手いだけでない。画面下部にある二つのスライダの内「創造性 コントロール」に秘密がある。

「創造性 コントロール」を増やすと奇抜な絵が表示されるようになる。この「創造性」は、画像をモーフィングすることで生み出されているようだ。生成された画像をモーフィングしているのか、画像を生成する際に分岐させているのかは分からないのだが*1、モーフィングの具合によっては、かなり奇抜な絵となる。
ちなみに、もう一つの「速度 コントロール」は、タイルの移動速度に対応している。

「This Anime Does Not Exist(このアニメは存在しない)」の奇抜さは、日本語のような文字列や、四肢欠損などによるものだ。この不完全な四肢は「創造性」をゼロにしても散見される。つまり、四肢が不完全なのはモーフィングの結果ではなく、StyleGAN2 により生成された時点で不完全なのだ。特に、足よりも腕の欠損が目立つ。腕の生成が安定しないのは「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」と似たような結果に思える。

学習不足

「This Anime Does Not Exist(このアニメは存在しない)」で表示されているアニメ調の絵を生成する方法は「Making Anime Faces With StyleGAN · Gwern.net 」において詳しく述べられている。

絵の生成には GAN (敵対的生成ネットワーク)が用いられている。つまり、学習させたデータを元に画像を生成する仕組みと学習させたデータを元に真贋を見極める仕組みを相互に競い合わせ、より精度の高い偽物、すなわち本物っぽい画像が生み出されている。学習させた画像に依存するため、アニメ調の絵を大量に学習させれば存在しないアニメ風の絵が生成されるようになる。

Making Anime Faces With StyleGAN · Gwern.netでは、日本語のような文字の生成される点や、四肢、特に腕や手の生成に弱点があることも言及されている。共に学習不足、つまりデータが不十分であるからと考察されている。
腕や手を上手く生成できないのは「遺伝的アルゴリズムでエッチな画像を作ろう!」と同様に、人間が四肢よりも顔を意識し、また腕の自由度が高すぎるために思える。

写真撮られるときなんでピースすんの?

写真を撮られる際に手のポーズを意識し出すと、どうしていいのか戸惑うのではなかろうか。演技においても、手の置き場に困るという。それは、手の自由度の高さにある。逆に言えば、手の表現には可能性がある。

アフタヌーンで連載されている「メダリスト」はフィギュアスケートを題材にした漫画であるがが、作中ではアイスダンスにおける腕から指の細やかな演技が繰り返し強調されている。腕も目ほどにものを言うのだ。

手には可能性があるが、肖像画やピンナップは顔が主役である。バストアップなら必ずしも手や腕を描く必要はない。これは、絵に限らず写真でもそうだろう。仮に描かれても、腕を組んだりと腕や手で演技をすることはなく、バリエーションに乏しい。そのため機械学習を試みると、顔のデータは集めやすいが、腕や手のデータが不足しやすいと推測される。

この問題は、画像生成だけでなく、画像判定でも同様に起こる。データが少ないため、真贋判定の際に手や腕の重要度は低くなる。これは、人間も同じで、手や腕よりも顔の方に違和を感じ取りやすいだろう。「This Anime Does Not Exist」をぱっと見で見ると不自然さを感じないが、よくよく見ると奇抜さに気がつくだろう。

人が選別している

選別の方法が異なるものの、「This Anime Does Not Exist(このアニメは存在しない)」も「遺伝的アルゴリズムでエッチな画像を作ろう!」も、手や腕の自由度が高すぎること、そして人間が顔の方に違和を感じやすいことが、手の生成が上手くいかない理由に思える。

「This Anime Does Not Exist(このアニメは存在しない)」は、GANに用いられたデータセットで選別され、「遺伝的アルゴリズムでエッチな画像を作ろう!」は人間によって選別されている。共に選択が繰り返されることで、それらしい画像が生成されるようになる。選択する方法こそ違うものの、結局は人間に認知に寄っている。

「This Anime Does Not Exist(このアニメは存在しない)」の方は、人間が腕や手をあまり描かないこと、「遺伝的アルゴリズムでエッチな画像を作ろう!」では腕や手が重視されないことで、腕の生成が安定しない。それは、人間が顔に先ず着目するのと、手や腕の自由度が高すぎるからだろう。もしかしたら、実際のアニメーション、つまり動画を学習させれば「This Anime Does Not Exist(このアニメは存在しない)」においては、手や腕がより自然になる可能性がある。

著作権について考える

本題とはあまり関係ないのだが、「This Anime Does Not Exist(このアニメは存在しない) 」は著作権法上の問題があるように思う。
機械学習に用いたイメージは、アップロードした画像をタグ付けするサイトである「Danbooru: Anime Image Board」を用いたようだ。「Danbooru: Anime Image Board」 はその多くが、「pixiv」からアップロードされた画像によっている。「pixiv」からアップロードし、タグ付けする方法を紹介するページもある。当然ながら 「pixiv」 は画像の転載を禁止しているし、日本の著作権法からすると無断転載にあたるだろう。
Danbooru」 の運営者は非営利であることから、米国法フェアユースを主張する可能性も考えられる。しかし「pixiv」 に作品をアップロードしている人の多くが日本で創作し日本から投稿していることを考えると米国法によるフェアユースは適用されないだろう。

インターネットで収集したデータを元に機械学習を行い作成されたデータセットの取り扱いも、著作権法によると考えられる。世界的に、公開は適法とする動きで、日本においては2019年1月1日に著作権法が改正され適法となっている。ただし、これは日本の国内に限定されると考えられており、米国で行われたと思われる 「This Anime Does Not Exist(このアニメは存在しない)」には適用されない可能性がある。
米国の場合は、フェアユースが適用されると考えられるが、そもそも「Danbooru」のデータが無断アップロードであることを考えると、それを利用した 「This Anime Does Not Exist(このアニメは存在しない)」も著作権上の問題があるだろう。

データセット著作権法上の問題とは別に、生成された絵の著作権の帰属先を考察するのも興味深い。
「This Anime Does Not Exist(このアニメは存在しない)」にしても、「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」においても、アルゴリズム著作権は制作者に帰属する。しかし、そのアルゴリズムから生成された絵には著作権が生じるのだろうか。これは、学説の分かれる所のようだが、「This Anime Does Not Exist(このアニメは存在しない)」は属人性がないため著作権が生じない可能性が高い。
一方で「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」は、選択に人間が介在している。介在した人間を特定できないが、匿名の著作権は成立するかもしれない。

性的なコンテンツとのお墨付きを得る


遺伝的アルゴリズムで最高にエッチな画像を作ろう!」で腕の生成が安定しないのは、腕がエロくないからではなく、腕の自由度がありすぎるのと、人間が顔の方を重要視するためであろう。そのせいか、8,000世代以降は顔の進化が目覚ましい。

似たような事例が 「This Anime Does Not Exist(このアニメは存在しない)」でも観察できる。データセットに腕の情報が少ないため、腕の生成が安定しないと考えられる。絵を描く際に、顔が重視されやすいのと、腕の位置や形が多種多様なためであろう。

ちなみに、「遺伝的アルゴリズムで最高にエッチな画像を作ろう!」は最終的に、Google から性的なコンテンツツとして認定されるという最高の落ちがついた。
それにしても、3,000世代まで頑張って肌色を増やそうと努力していた人達がすごすぎる・・・・・・。

*1:恐らく後者