Data Ethicsについて

データの倫理や、AIの倫理について常日頃から興味を持っていたので、気になっていたData Ethicsのコースを視聴してこのブログにログを残すことにしました。

講義は、University of San FranciscoでDr. Rahel Thomasが教えたコースで、オンラインにまるっとおいてあります。

この記事はLesson 1: Disinformationです。

イントロ：Data Ethicsの問題とは？

このコースで取り扱うのは題材について３つほど例をあげる。

フィードバックループ
モデルのアウトプットであるデータが、即座に次のインプットデータとなるため、データがモデルやソフトウェアによって騙されやすくなること。これによって例えばYouTubeのレコメンデーションは、人がいいねを押す動画を再生するけれども、そもそも人が目にする動画をコントロールしてもいる。
問題を認識し、策を講じる手立てのないシステム
アーカンソー州のヘルスケアの公的サービスを決めるアルゴリズムを作ったが、ソフトウェアのバグで本当に必要な人のサービスが減らされた（なくされた）。それ自体も問題だけれど、その問題を発見する方法がなく、患者からの要求で後に判明した。（ソース）
バイアス
ある黒人の研究者が自分の名前をGoogle検索したところ、「（名前）は逮捕歴があるか？」というバックグラウンドチェックの会社の広告が表示された。同じバックグラウンド会社の広告でも白人の名前の場合はそのような広告はでなかった。GoogleはA/Bテストの結果というが、社会の構造的差別・偏見が表示されている。（ソース）

このコースではこのような問題を深掘りしたのち、なぜ起きるのか？どうしたら防げるのか？というのを後半で解説する。

Lesson1: Disinformation

1. Disinformationとは？

まず日本語でDisinformationとは…

〔真実を隠すため・人を欺くため・人を混乱させるためなどに故意に発信される〕偽情報、虚報、がせネタ、デマ

Disinformationは「フェクニュース」以上のもの
- disinformationには、ミーム、動画、ソーシャルメディアのポストも含まれる。
- 噂や、でっちあげ、プロパガンダ、誤解をよぶようなコンテンツや文脈も含まれる。
- むしろ完全にフェイクであるよりも「誤解を呼ぶ」ものが多い。
- disinformationが作られる動機もまちまちである。
- また、「フェイクニュース」は最近ではメディアへのアンチコメントとして使われるようになってきており、少し意味が異なってきているとのこと。
Disinformationには、行動を操作する一連の流れも含まれる
- 1ポストだけで完結するというよりかは、例えば虚偽のプラットフォームで虚偽の情報を流し続けることなども含まれる。
Disinformationはエコシステム
- “the trumplet of amplicfication”と呼ばれる拡散の流れがある。
  - 4ちゃん/8ちゃん（日本の2ちゃんのようなもの）→クローズドなグループメッセージ→RedditやYouTubeの陰謀論系のスレッドやチャンネル→ソーシャルメディア→従来のメディア
- このように多くの組織・プラットフォームが時系列でまちまちに使われているため、対策を講じるのが難しい。
Disinformationは政治キャンペーンの操作を通じて民主主義を傷つける
Disinformationは情報環境を汚染する
- Disinformationの問題というのは、その記事が虚偽であるということだけでなく、私たちが真実を信じることができなくなることにある。
- 現代の「検閲」は情報過多によって実際に何が起きているかわからなくさせるという方法をとる。
- Hack-and-Leak
  - ヒラリー・クリントンのメール
    - （補足）hack-and-leakは以下の4ステップで成り立つ
      - ステップ1: ターゲットに対して虚偽の情報をメディアから流し、信頼を落とす
      - ステップ2: ハッキングを行う
      - ステップ3: ハッキングによってスキャンダラスな情報が得られない場合は虚偽の情報を作る
      - ステップ4: ステップ2または3で得られたもの（生成されたもの）を漏洩する
  - ナラティブ・ロンダリング
    - 本物の書類を使い、異なる解釈を作り上げること
    - 20ページ以上の文献を1ツイートにまとめたり、時系列を差し替えた編集をしているドキュメンタリーはナラティブ・ロンダリングに含まれるか？という議論もあり。
  - 虚偽の書類を本物の書類の中に紛れ込ますこと

2. テックプラットフォームはどのようにしてdisinformationを悪化させるか？

プラットフォームは以下のものを含む
- デザインと構造
  - プロダクトは、ユーザーがスクロールしたり即座にエンゲージメントを高めたり、即座にフィードバック（いいねなど）を得られるようにデザインしてある
  - すると人は情報の信頼性に関係なく、政治的信念などにもとづいてコンテンツをシェアしたりする
  - フィード上に猫の動画と真剣なニュースが混ざって存在しているのもまた設計のうち
- レコメンデーションシステム
  - レコメンデーションのメトリックに対してゲーム的にとにかくレコメンドされるようなものが作られていく
- ビジネスモデル
  - オンライン環境には中毒性がある。基本的なビジネスモデルは、ユーザーの行動を操作して、ユーザーの時間を少しでも長く奪うように作られている。
  - 長期的な評価基準が作りにくいので、短期的な評価基準が採用される
- 社会的・文化的関わり
  - アルゴリズムだけではなく、質的なところにも問題がある。例えばあるYouTubeインフルエンサーは、「大手メディアではなくて私を信じて」と言って極右の情報を流したりする。

3. 最新のAIはどのようにしてdisinformationを悪化させるか？

虚偽プロフィール
- Deepfakeによる虚偽画像と虚偽のプロフィールは単体では騙されにくいが、あわさってLinkedInアカウントなどになってしまうと虚偽であると気付きにくくなる。
- ちなみにこのウェブサイトで出てくる顔は全てAIが作った顔です！
自然言語処理によって虚偽の言論を大量生成し、オンラインでの議論が操作される

4. 私たちは何をすべきか？

Disinformationの目的
- 人を混乱させ、信頼のある組織への信頼を弱めること
- これに対し、例えばピンタレストは反ワクチンの対策としてワクチン関連の情報は正式な医療機関のみが投稿できるようルールを作った。
Disinformation対策
- 虚偽情報を検出する
- 責任のある開発ツール
- エコシステム
  - パーソナライズドされた広告は同じ広告を見る人の数が少ないため、大手メディアやジャーナリストが気づかないところで虚偽情報が配信されている可能性がある。広告を配信する対象を大きくすることで、そのようなことを防ぐことができる。
- サイバーセキュリティーの問題として取り上げる
- Check, Please! Starter Courseなどで学ぶ

最後の「何をすべきか？」の内容は今後のレクチャーで深くみていくようなので、さらっとだけ書きました。

感想

虚偽情報とひとえにいえど、種類・情報の流れるプラットフォーム・情報の生成過程が幅広く、対策を講じることの難しさを感じたし、一辺倒な対策は意味がないということがわかった。これらのケーススタディーは今後Waffleの講演でも使えそうだな、と思う。これからのレクチャーで他のEthics probelmsや解決方法を学ぶのが楽しみです。

おまけ：英単語集

disinformation: 〔真実を隠すため・人を欺くため・人を混乱させるためなどに故意に発信される〕偽情報、虚報、がせネタ、デマ
deceptive: 人を欺(あざむ)くような、当てにならない
coopt: 吸収する、組み入れる, coopted as a new word
dissident: 意見を異にする、反体制の、(…と)意見を異にして
malicious: 悪意のある、意地の悪い

Data Ethics 1 Disinformation