メニュー

\ チャンネル登録者数 15,000人を突破 /

検索拡張生成(RAG)導入に伴う法律的リスクと最新動向

ロボット・AI・ドローンの法律

生成AI技術の一つである「検索拡張生成(Retrieval-Augmented Generation, RAG)」は、大規模言語モデル(LLM)による出力の精度向上を目的に、外部のデータベースや検索エンジンから情報を取得して回答に反映させる手法です。

近年、生成AIのビジネス活用が進む中で、社内外の情報を組み合わせて回答を生成できるRAGは、企業の問い合わせ対応やナレッジ活用に有効なソリューションとして注目されています。しかし、RAGを導入する企業は、その利便性と引き換えに発生し得る法的リスクを十分に理解し、対策を講じる必要があります。

目次

RAG概略:検索と生成の組み合わせ

まずRAGの仕組みを簡潔に押さえておきましょう。RAGでは、LLM単体で回答を生成するのではなく、ユーザーの質問に関連する外部情報をあらかじめ検索・抽出し、その情報をコンテクストに含めて回答を生成します。

具体的には、社内文書やWeb上の公開情報などを蓄積したデータベースから問い合わせに適したテキストを検索し、LLMに与えることで、モデルが最新かつ根拠のある回答を出すことが可能となります。このアプローチにより、「ハルシネーション」(根拠のない誤情報の生成)の抑制や、専門領域に特化した回答精度の向上が期待できます。一方で、RAGが外部データを利用するという特性ゆえに、以下で述べる様々な法的課題が生じます。

著作権法上のリスク:外部データ利用と生成物の権利帰属

他者コンテンツの利用による著作権侵害の可能性

RAGでは、検索対象となる外部情報源に著作物(文章・画像・コードなど)が含まれる場合、その利用方法によっては著作権侵害のリスクが生じます。著作権法上、著作物の複製・翻案・公衆送信などを行うには原則として権利者の許諾が必要です。

RAGのプロセスに当てはめると、①他者の著作物をデータベースに蓄積し、モデルへの入力(複製)に供する行為、および②モデルから該当著作物と「同一または類似」の内容を生成・出力する行為が、それぞれ著作物の利用行為として問題となります。

特に問題となるのは②の出力面です。モデルが回答を生成する際、参照した文章と酷似した一文や段落をそのまま出力してしまうと、それは元の著作物の複製権侵害に該当し得ます。

たとえば、RAGが学術論文やニュース記事の一節をそのまま回答に含めてしまった場合、引用の要件(自分の著作物中で適切に区分・出所表示して利用すること)を満たさない限り違法な無断利用となるおそれがあります。また他者の画像を検索して生成画像に組み込むようなケースでも、元画像の著作権侵害となり得ます。生成AIだからといって出力内容が自動的に合法になるわけではなく、既存著作物との類似・依拠の程度によっては通常の著作権侵害が成立します

一方、①の入力面(他者著作物のデータ蓄積・モデルへの入力)については、日本の著作権法上一定の緩和規定があります。2018年の法改正で導入された「情報解析」目的の複製等の例外(著作権法第30条の4)により、「著作物に表現された思想又は感情を享受させることを目的としない利用」であれば、著作権者の許諾なく著作物を複製等できると定められています

AIの機械学習やデータ解析はこの「情報解析」に該当しやすく、モデルの学習段階やRAGにおける検索用データベースへの蓄積・入力行為は、基本的に適法と評価されます。

実際、RAGで「入力した著作物と同一・類似の出力を得ること自体を目的としない」のであれば、検索用データへの収集・読み込み自体は著作権法上許容されるとの見解があります。

著作権侵害になる場合

しかし注意すべきは、情報解析の例外にも限界がある点です。上述のように「同一または類似の内容を出力する目的」で他者著作物を利用する場合には第30条の4の適用対象外となります

例えば、特定の文章をそのまま要約表示する用途でRAGを構築するような場合、入力時点から「類似出力」が目的となっているため著作権上の例外の対象外になり、事前に権利者の許諾を得るか、引用の形式を整えるなどの対策が必要です。

また、RAGで取得したテキストをそのまま社内ドキュメントにコピペしたり配布したりすると、それは単なる情報解析を超えた二次利用となり得るため、許諾の有無を確認しなければなりません。

生成物の権利帰属:AIが作ったコンテンツに著作権はあるか?

RAGによる生成物(出力コンテンツ)の著作権帰属も重要な論点です。例えばRAGを使って自社のFAQ回答やマーケティング文書を自動生成した場合、その生成文章の著作権は誰に帰属するのでしょうか?結論から言えば、日本法では「人間による創作性」が認められない限り著作権は発生しません。

著作権法は「思想又は感情を創作的に表現したもの」(第2条)を著作物と定義しており、人間以外(AI)の独立した創作物には原則として保護が及びません

したがって、AIが自動生成した文章や画像は、誰の著作物でもない(いわばパブリックドメインに近い)状態となります。

企業が生成AIで作成したコンテンツを利用する際、そのコンテンツ自体には著作権がないため原則自由に利用可能ですが、裏を返せば他社に真似されても著作権侵害で差し止めることはできない点に留意が必要です。ビジネス上の重要資料やクリエイティブ作品を生成AIで作成した場合、自社オリジナルとして独占的に守りたいなら、後から人手で加筆修正して「人間の創作性」を付与するなどの工夫が考えられます。

もっとも、生成物に他者の著作物が混入している場合には別の問題が生じます。
例えばRAGの出力文章中に他人の著作物の一節がそのまま含まれていれば、その部分については依然として元の著作権者の権利が及んでいます。AI生成物自体に著作権はなくとも、内容中の他者コンテンツは保護され続けるため、そこを利用するときは権利処理が必要です。このように、生成物が純粋なAI創作物なのか、既存著作物の二次的利用物なのかを見極め、それぞれ適切に対応することが求められます。

契約・ライセンス上の注意:利用許諾と規約遵守

著作権法上は適法な場合でも、契約や利用規約上はNGとなるケースがある点にも注意が必要です。例えば、有料で提供されている論文データベースやニュース記事などは、その利用規約でクローリングやテキストデータの再利用を禁止していることが一般的です。

実際に「有料のジャーナルでは、RAGのような形式で内部の論文データを利用することを禁じているのが通常」だと指摘されています。

この場合、たとえ著作権法上は情報解析目的で論文を蓄積・入力することが許されても、規約違反となれば法的には契約不履行や不正競争行為として問題となります。

企業がRAGを構築する際には、利用予定のデータソースの利用許諾範囲を必ず確認し、必要に応じて別途ライセンス契約を締結することが大切です。また、ウェブサイトの中には「自動スクレイピング禁止」を掲げる所もあります。そのようなサイトから無断でデータ収集してRAGに使うと、技術的防御手段の回避による不正競争防止法違反(後述)に問われたり、サイト運営者から損害賠償請求を受けるリスクもあります。

以上のように、RAG導入時の著作権対策としては次のポイントが挙げられます:

参照データの選別

著作権フリーの資料や自社保有コンテンツを極力使う。他社データを使う場合は利用許諾の有無を確認。

出力制御

モデルが他者著作物の全文や長文断片をそのまま出力しないよう、プロンプト設計やフィルタリングで調整する。必要に応じ引用形式にして出所を明示する。

ライセンス管理

データ提供元の契約条件を精査し、禁止事項に抵触しない形で利用する。グレーな場合は専門家に相談し、追加許諾を得るか代替データを検討する。

人の関与

生成コンテンツに人間が編集・チェックを加え、創作性や信頼性を担保する。これにより自社著作物として権利主張しやすくする効果も期待できます。

個人情報保護・プライバシーリスク:データ入力と出力の両面から

RAGが個人情報を含むデータを取り扱う場合、企業は個人情報保護法やプライバシー権への配慮が不可欠です。個人に関するデータの入力面(モデルへの提供)と出力面(モデルが生成した内容)それぞれにリスクがあります。

モデルへの個人情報入力

第三者提供・目的外利用に注意

社内の顧客データや従業員データなど、個人情報データベースをRAGで活用する場合、その入力行為が「第三者提供」等に該当しないか検討が必要です。

日本の個人情報保護法では、自社が保有する個人データを他社に提供する場合、本人同意や一定の手続きを要件としています(法27条・28条)。クラウド上の生成AIサービス(例えばChatGPT等)に個人データを含むプロンプトを送信すると、それが相手AI提供者への「個人データの提供」にあたる可能性があります。

特に生成AI提供者が受け取ったプロンプトを学習用途に再利用する設定になっていると、回答生成以外の目的でデータが使われることになり、本人の未同意利用として違法になる恐れがあります。

実際、2023年6月に個人情報保護委員会(PPC)が発出した注意喚起でも、「本人の同意なく個人データを含むプロンプトを入力し、それが応答結果の出力以外の目的で処理される場合は法令違反の可能性がある」と指摘されています

したがって、業務で生成AIを利用する際に個人データを入力する必要がある場合は、AI提供事業者側でそのデータを学習等に利用しない措置が講じられているか確認することが重要です。

例えばOpenAI社は企業ユーザー向けに「API経由の入力データは学習に使わない」設定を提供していますが、無料版チャットボットではデフォルトで学習に使用されることがあります。利用するサービスのプライバシーポリシーや設定をよく読み、必要に応じてオプトアウト設定や有償プランの利用を検討しましょう。

また、自社システム内でRAGを構築する場合でも注意点があります。例えばWeb上からクローリングで大量の文章データを収集して社内RAG用データベースを構築する際、そのデータに個人情報が含まれていれば「個人情報の取得」に該当します。
個人情報保護法では、ウェブサイトの閲覧自体は取得に当たらなくとも、「当該情報を転記して検索可能なデータベース化する」ことは個人情報の収集行為とみなされるとされています。

つまり、公開情報であってもコピーして蓄積すれば法の適用対象になるわけです。したがって、社外からデータを集める場合は取得段階でプライバシー性の高い情報を除外・マスキングする措置が必要です。

特に病歴や犯罪経歴等の要配慮個人情報が混入しないよう十分に気を付け、万一含まれていた場合は速やかに削除・匿名化することが求められます。

また取得元サイトのプライバシーポリシーでクローリングを禁じている場合もあるため、技術面・契約面の両方で適法なデータ収集に留めることが大切です。

社内の顧客情報や契約書をRAGに入力するケースでは、利用目的の範囲内かどうかも検討しましょう。例えば顧客から取得した個人情報を、問い合わせ対応の自動化目的でAIに読み込ませる場合、その用途が当初説明した利用目的に含まれているか確認します。

目的外利用に当たるなら、あらかじめ本人から改めて同意を取るか、個人を特定できない仮名加工情報に変換して活用するといった対応も必要になります。

出力に含まれる個人情報・プライバシー情報のリスク

RAGの出力結果が個人に関する情報を含む場合、その内容次第ではプライバシー侵害や名誉毀損の問題が生じます。例えば、社内RAGが社員データベースを元に回答を生成し、問い合わせ者に他の社員の個人情報(住所や家族情報など)を不用意に伝えてしまうと、当該社員のプライバシー権を侵害しかねません。

また外部向けのチャットボットが特定個人に関する噂やデマ情報を生成した場合、それは名誉毀損や信用毀損として法的責任を問われる可能性があります。日本でも他国でも、AIが根拠なく個人を犯罪者扱いするような誤回答を出し問題となった事例が報告されています。生成AIは訓練データ内のパターンに基づき回答を作るため、実在人物について誤ったプライバシー情報やセンシティブ情報を生成してしまうリスクがあります。

この対策として、個人に関する問い合わせは回答しない設定にする、出力テキストにフィルターをかけて明らかな個人名や住所をマスクする、などの技術的措置が考えられます。

また、利用者に対して「この回答はAIが生成したものであり、個人情報を網羅・正確に保証するものではない」旨の注意喚起を行うことも有用です。万一、出力が個人の権利を侵害する内容だった場合、速やかに削除・訂正の対応を取れるよう社内体制(人によるモニタリングや通報窓口)を整備しておくことも重要でしょう。

不正競争防止法と営業秘密の問題:機密情報の漏えいリスク

企業がRAGを導入する際、自社や取引先の機密情報(営業秘密)が扱われる場合にも注意が必要です。営業秘密とは、公開されておらず有用かつ管理された技術上または営業上の情報のことで、不正競争防止法によって保護されています。具体的には、秘密情報を第三者に不正に開示・漏洩したり、取得したりする行為は同法違反となり、損害賠償や刑事罰の対象になり得ます。

社内機密の入力による漏洩リスク

社内の機密資料やソースコードをRAGに活用したいケースは多いでしょう。例えば社内FAQや技術文書をデータベースに入れておけば、社員からの質問にRAGが即座に答えを返せるなど業務効率化が期待できます。しかしその際、機密データをどのようにAIシステムに提供するかでリスクが変わります。

オンプレミス型で自社サーバ内だけでAIが動くなら社外流出の心配は小さいですが、クラウド上のAIサービスにアップロードする場合、事実上それを第三者(AI提供者)に開示することになります。前述の個人情報と同様、社内規程や顧客との契約で「当社の営業秘密を第三者に提供してはならない」といった秘密保持義務がある情報を、外部AIに入力するのは契約違反・守秘義務違反に該当する恐れがあります。またAI提供企業が米国など海外にある場合、輸出管理や外国当局によるデータアクセスのリスクまで考慮が必要です。

実際に起きた事例として、2023年にSamsung電子のエンジニアが社内の極秘ソースコードを対話型生成AIに入力し、バグ修正の指示を求めたところ、その情報が外部に漏洩する事故が発生しています。

この件を受けSamsung社は従業員によるChatGPT等の利用を厳しく制限する措置を取りました。

この例からも明らかなように、機密情報をうっかり生成AIに入力したことで社外に情報が流出するリスクは現実に存在します。情報漏洩の経路としては、AI提供者側の人間スタッフや他のユーザーからアクセスできる状態になる場合もあれば、AI自体が学習してしまい後の他ユーザーへの応答にその機密内容を再利用してしまう可能性もあります。

特に大規模な公開チャットボットでは、一度学習データに組み込まれると完全削除は難しいため、機密の流出は不可逆的です。このため、機密データを扱う部署では原則としてインターネット接続型AIサービスの利用を禁止するか、どうしても使う場合は事前承認制や入力内容のレビューを課す企業が増えています

また社内向けにクローズドな環境で動作する生成AIを導入し、外部にデータを出さずにAI活用する取り組みもあります。例えばデータを暗号化したままAI処理を行う技術や、オンプレミスでGPT系モデルを動かすソリューションなども登場しています。機密保持が重要な業界(金融、製造業など)では「RAGで社内データを活用しつつ、モデルとデータは社内完結させる」動きが広がっています。

他社の秘密情報・限定提供データの扱い

RAGが外部から取得したデータを利用する場合、それが他社の営業秘密や限定提供データに該当しないかにも注意しましょう。例えば競合企業のウェブサービスからクローリングでデータを集めるような場合、そのサービスがID・パスワードで保護されていたり、利用規約で二次利用を禁止していたら、そのデータは「限定提供データ」(不正競争防止法2条1項7号)として保護される可能性があります。

限定提供データとは、データ提供者が技術的アクセス制限をかけて提供している有用な情報を指し、これをその提供条件に反して第三者に提供・利用させる行為は不正競争行為となります。したがって、ログインが必要なサイトやAPIから無断でデータを取得してRAGに組み込むと、契約違反のみならず不正競争防止法違反で訴えられるリスクがあります。実務では、他社データの利用については契約で明示的に許可を取るか、公開情報のみを使うかの慎重な判断が求められます。

さらに、RAGの出力が他社の営業秘密を含む場合にも問題があります。例えば、ある企業が社外向けに提供するRAGチャットボットが、内部で誤って競合企業の秘密情報データにアクセスできる状態になっており、それをユーザーに回答として表示してしまったとします。

これは競合の営業秘密の不正開示に当たり、提供企業は不正競争防止法違反で責任を問われかねません。意図せずともAIが外部から得たデータに秘密情報が混入していたケースも同様です。AIに与えるデータセットには営業秘密を含まないことを確認し、万一含む場合は適切にマスキングする、あるいは利用許諾を得てからにする必要があります。

対策:秘密情報の管理と社内ルール整備

以上を踏まえ、RAG導入における営業秘密保護対策としては

インプット管理:ChatGPT等の外部サービスに社内機密や顧客秘密を入力しないルールを明文化し徹底

どうしても必要な場合は、事前に上長や情報管理責任者の承認を得るフローを作る。

データの限定公開:社内の重要データベースをRAGの検索対象とする場合、そのAIシステム自体を社内ネットワーク内のみで稼働させ、外部と切り離す。クラウドを使う場合も国内拠点や信頼性の高いプロバイダを選定し、契約で守秘義務を課す。

モニタリング:RAGシステムのログを監査し、不審な外部アクセスや大量データの持ち出しがないかチェックする。必要に応じて回答に含まれる社内機密キーワードを自動検知しブロックする。

研修:従業員に対し、機密情報漏えい事例や不正競争防止法の罰則を周知し、安易なAI利用の危険性を教育する。「うっかりミスで重大情報が漏れるリスクがある」ことを認識させることが重要です

利用規約やデータ利用に関するリスク:契約上の落とし穴

前述のとおり、RAG活用には様々な契約・ライセンス上の制約が絡みます。利用規約(Terms of Service)やデータ利用契約に起因するリスクについて整理します。

AIサービス提供者の利用規約

まず、ChatGPTのような生成AIサービスの提供元が定める利用規約を確認する必要があります。多くの生成AIサービスでは、利用者が入力したプロンプトや生成された内容の扱い、禁止事項、責任範囲などが規約に明記されています。

例えばOpenAI社の規約では、ユーザが入力したコンテンツに対する権利はユーザに留保され、出力についてもユーザが広範な利用権を持つとされています。

これは、生成物を商用利用できるかどうかの判断基準になる重要事項です。自社サービスにRAGを組み込む際、その生成物を営業に使ったり配布したりするなら、AI提供者側の規約で認められているか確認しましょう。
一般に大手の生成AIサービスは「出力の著作権は発生しないが利用者に事実上譲渡する」という立場を取っているケースが多く、商用利用を許諾しています。

しかし一部のサービスや無償プランでは、出力物の商用利用に制限があったり、著作権が生じた場合はサービス側にライセンスされる旨が書かれていることもあるため注意が必要です。

また規約には禁止事項として、特定の用途(例えば違法行為への利用、公序良俗に反する利用など)や特定種類のデータ入力禁止(例:第三者の個人情報、機密情報の入力禁止)が定められている場合があります。

自社の社内文書をAIに入力する行為が規約違反とならないかも確認しておきます。AIサービス側が利用者の入力データをどの程度保持・利用するかも規約やプライバシーポリシーに記載があります。前述のように「学習利用しない」と約束しているか、データ保存期間はどうか、といった点です

規約違反は最悪サービス利用停止や法的措置に発展しかねませんから、利用開始前に規約とポリシーを読み込み、疑義があれば問い合わせるぐらい慎重でも過剰ではありません。

ロボット・AI・ドローンの法律

この記事が気に入ったら
いいね または フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次