Subject   : 敵対的生成ネットワーク(Generative Adversarial Networks:GAN)

カテゴリー  : 情報産業・技術  


 敵対的生成ネットワーク(Generative Adversarial Networks:GAN)
 GAN(Generative Adversarial Network)は、2014年にイアン・グッドフェローらが「Generative Adversarial Nets」という論文で発表したアーキテクチャ(論理的構造)です。 2つのニューラルネットワークを互いに競わせて入力データの学習を深めていくことから、敵対的生成ネットワークとも呼ばれています。

コンピューターに大量のデータを学習させ、分類・予測などの動作を遂行するモデルやアルゴリズムを自動的に構築する技術を機械学習と言いますが、機械学習には主に2種類の分類・予測モデルがあります。

1つは画像認識などの識別モデル、入力されたデータや画像を何であるかコンピューターに判断させるモデルです。

そしてもう1つが生成モデル、入力されたデータや画像から新しい擬似データを生成するモデルです。GANはこの生成モデルに該当します。

GANの用途としては画像生成が有名ですが、データを生成するという点でディープラーニングを補う技術としても注目度が高いです。従来の、サンプル画像を傾けたり、色を変えたりしてデータを増やすというやり方ではなく、特徴を含んだデータを新たに作り出すことで、データ不足が課題になりがちなディープラーニングに応用できます。

この「オリジナルの特徴を含んだデータを増やす」というやり方を応用することで、新しい画像を生成したり、低画質の画像を変換して高画質にしたり、音声を生成したりするというアプローチが可能になりました。

● Deep Convolutional GAN
 Deep Convolutional GANは、画像認識で有名な畳み込みニューラルネットワーク(CNN)の技術を応用しています。オリジナルGANはデータを生成することがメインでしたが、DCGANでは画像生成に強く、昨今の画像生成系GAN技術の基盤になっています。

深いネットワークで安定した学習が可能になり、オリジナルGANと比べてより鮮明な画像が生成できるようになりました。

● StyleGAN
 StyleGANは、従来のGenerator構造を大きく変更。入力されるノイズを一旦別の空間でマッピングし、そこで得られた情報をGeneratorに入力するようにしました。さらに、CycleGANでも活用されていたスタイル変換の技術であるAdaInと、Progressive Growingという高解像度画像を生成する手法も加わりました。

これにより、ノイズの柔軟な調整が行えるため、生成画像の大局的な構造から詳細な構造までを制御可能になりました。

今まで研究されてきた技術の強みを生かしたStyleGANの特徴は、非常に高画質でリアルな画像を生成できる点です。人の目ではもう見分けがつかないレベルまでになりました。写真の証拠はもう役に立たないと言われるほど、リアルな画像生成技術に注目が集まりました。

 ⇒ AI(Artificial Intelligence)

[メニューへ戻る]  [カテゴリー一覧]  [HOMEへ戻る]  [前のページに戻る]