機械学習とは、開発者が予めすべての動作を決めておく従来型のプログラムとは異なり、与えられた情報を元に学習し、自律的に法則やルールを見つけ出す手法やプログラムのことです。
これを一歩進めたものが、ディープラーニングと呼ばれるものです。
機械学習では、人が何を学習するかというのを、当初から決めておく必要があります。
ディープラーニングでは、学習する事柄もAI自身で決めて動作します。
このディープラーニングが発展したおかげで、AIの精度が飛躍的に向上したとも言われています。
上記のことからいえることは、AIを実用的なものとするためには、AIに機械学習(ディープラーニング)をさせ、最適なアウトプットを導き出せる学習済モデルを生成しなければいけません。
機械学習・ディープラーニングには様々な方法がありますが、いずれの場合も学習の素材としてできるだけ大量のデータを読み込ませる必要があります。
この読み込ませる大量のデータですが、著作権と言う観点からはどのような問題があるのでしょうか。
AIの開発者自らが、自分が権利を持っているデータを利用する場合には、なんら問題がありません。
また、データについて、第三者の著作物でも第三者から許諾を得ればこれも問題がありません。
例えばネット上にアップロードされている大量の画像を収集し、それを学習させるような場合に著作権法上の問題となりえます。
これらの画像については誰かが著作権を有していることになるので、無断で使用すると著作権法上問題が生じる可能性があるのです。
機械学習をすることに関しては、これらのデータを、ある人のストレージに保存することが必要です。そうすると誰かの著作物を複製することにあたり、著作権者の複製権を侵害する可能性があります。
この点について、著作権法47条の7では「電子計算機(コンピューター)による情報解析を行うことを目的とする場合には、他人の著作物をメディアなどに記録することが許される」と規定しています。
ここで言う情報解析とは「大量の情報から、必要となる情報を抽出し比較・分類その他の統計的な解析を行うこと」をいいます。
そうすると大量の情報から要素を取り出し比較し、解析を行う機械学習(ディープラーニング)はまさにコンピューターによる解析に該当すると考えられます。
よって、機械学習(ディープラーニング)を目的とした他人のコンテンツについて、自分のストレージに保存するという行為は、著作権法上の適法に行えるということになります。
ただし、この規定も例外規定があり「情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない」とされています。
つまり、このような著作物については、著作権者に無断で、データについて、自分のメディアに記録することは許されず、機械学習(ディープラーニング)に使うことができないのです。
問題となる例としては、違法コピー等によってデータセットを入手したものが、データセットの作成者に無断で、AIの機械学習を使用した場合であると考えられます。この場合には、著作権法違反になる可能性が高いです。
AIと著作権については、決められていないことも多く、衝突することの多い分野です。
関連記事:AI(人工知能)が芸術家に?!でもAIの著作物は著作権法上の保護はどうなるの?
AI事業者は、常に権利関係については、意識するようにしましょう。