yoheikikuta/paper-reading

[1902.03245] Ask Not What AI Can Do, But What AI Should Do: Towards a Framework of Task Delegability [paper-reading]

yoheikikuta opened this issue · 10 comments

論文リンク

https://arxiv.org/abs/1902.03245

公開日(yyyy/mm/dd)

2019/02/08

概要

AI にどのようなタスクなら委譲させることができるかを人間の嗜好に基づいて調べた論文。
タスクの委譲可能度合いを四段階(no AI -> machine in the loop -> human in the loop -> only AI) で評価する際に、その factor として Motivation, Difficulty, Risk, Trust の四つを導入し、さらにそれぞれに component (全て合わせると 15 個) を導入して定式化をした。
専門的なタスクから日常的なタスクまで 100 個のタスクのリストを作り、Mechanical Turk でデータを作成して実験を実施した。
AI に全て任せるというのが好まれるタスクはほとんどなく、人間が主導して AI がサポートするという段階が最も好まれる結果になった。
その他にも、タスクの委譲可能度合いを予測する問題をモデルで解いて、random baseline を上回ることで提案した枠組みが有効であることを示した。

artificial intelligence is the new electricity by Ng という話があるように AI 技術があらゆる分野に進出してもっと使われていく可能性があるが、それに伴いどんなタスクをどのように AI に移譲すべきかという問題が重要になってきている。

その時に二つ重要な点は、AI には何ができるのかということと、人間の嗜好はどういうものかということである。前者は研究の中心となっているものだが、後者に関してはそれほど研究されているとは言えない。
例えば、小説を書くことに喜びを見出している人が、いくら上手く書ける AI が存在すると言ってもその作業を委譲したくはないだろう。

この論文では、その観点に注目して、タスクの委譲に関する人間の嗜好が様々な要因とどのように関係づいているかを調べている。この論文の主たる貢献は以下の三つである。

  • 評価のための枠組みを作り、motivation, difficulty, risk, trust という観点を導入した
  • academic なタスクから日常的なタスクまでを含んだ公開データセットを作成した
  • タスクの委譲に関する嗜好を実験的に明らかにして、提案した枠組みが妥当であることを示した

結果を一言で言っておくと、全てを AI に任せるような委譲を好む人はおらず、また random baseline よりも優れたモデルを構築できることから問題設定自体(つまり提案した枠組み自体)が有用、というものである。

Related work は論文の性質上機械学習以外のものも色々調べているので、ちょっと興味深いがやれって言われたら大変そう。

簡単に言ってしまえば、過去の研究との違いは以下の二点に集約されると思う。
一点目は、これまで性能の観点から AI にタスクを委譲する話はあったが、この論文では人間の嗜好という観点も取り入れてタスク委譲について調べているという点。
二点目は、これまでも人間と AI の協調システムについて述べたものが色々あったが、この論文ではそういったものまで含めて統一的な枠組みを提案し、どれぐらい AI にどれくらいタスクを任せるべきかを定量的(精緻ではないが段階に分けて濃淡が見えるように)に調べているという点。

信頼性(解釈性を含む)あたりは特に関心が大きいトピックで、そのあたりの先行研究はかなりこの論文の研究に影響を与えている。

タスク委譲に関する枠組みを構築する。

タスク委譲を判断するために、4 つの factor とその中の小分類として計 15 個の component を以下のように定義する。

factor だけ見るとそんなに想像は難しくないものだが、component は文言を見ないとどういうものか把握できないものも少なくない。
これはまとめとしてどう書くべきかちょっと困るが、ここでは愚直に全部貼っておこう。

  • Motivation

  • Difficulty

  • Risk

  • Trust

ずらりと並べてしまったが、この選び方こそが提案手法のようなものなので重要である。
ただこれを見せられてもなかなか妥当性は判断できないしツッコもうと思えば色々ツッコめるわけだが、この論文では先行研究にも基づきつつえいやとこれらを定めたわけで、あとは適切に実験をデザインしてこれらが良い component であるのかを調べるしかない。

ここでの仮定は、同一 factor 内の component 間の相関は、異なる factor 間の相関よりも高い、というものである。つまり component はその factor のみを表現するもの、と信じている。

それぞれの factor と委譲の判断の関係性は以下のようになるものと仮説を立てている。
factor 間の関係性として、 motivation と difficulty は互いに影響していて、risk は trust に影響するものと考えている。前者は難しければやる気が出ないこともあるだろうし(ちと単純化しすぎなきらいはあるが)、後者はリスクが高いタスクならより高い信頼性を要求するだろうし、そんなに違和感はない。

これらの情報に基づいて、与えられたタスクを四段階の委譲レベルのどれかに当てはまるとして評価する。
段階と言っているので順序集合で、以下のものとなる。

  1. No AI assistance
  2. The human leads and the AI assists (machine in the loop)
  3. The AI leads and the human assists (human in the loop)
  4. Full AI automation

やりたいことは、タスクのリストを作り、それぞれの component がどれくらいのものか 5 段階で評価し(例えばこのタスクをするのに social skill は 4 必要など)、タスクに関する委譲可能度合いも 4 段階で評価し、各種相関を調べて枠組みの妥当性を検証することである。

データは Amazon Mechanical Turk でアンケートを実施することで作成する。
報酬がいくらだとかちゃんと質問読んでるかチェック用の質問入れたとか色々書いてあるが、そういうのは割愛。

ガンであるか否かの診断のような academic なタスクから、歯を磨くというような日常のタスクまで、100 個のタスクを準備する。それを以下のように構成して {15 個の component を 5 段階, タスクの委譲可能度合いを 4 段階} で評価してもらう。

  • 1000 (全データ)
    • 500 (personal: 4つの factor 全て含む)
      • (1 task につき 5 件回答してもらう) × 100
    • 500 (expert: Motivation を除く 3 つの factor のみを含む)
      • (1 task につき 5 件回答してもらう) × 100

データは https://delegability.github.io/ で公開されていて、raw data は GitHub 上に csv ファイルとして置かれている。

眺めてみるとなかなか面白い。
最も委譲しやすいタスクとして、大会社における株式市場の分析や売買の執行や倉庫から顧客に商品を放送して送る、などがある。
逆に最も委譲しにくいタスクとして、歯磨きや知り合いへの誕生日プレゼント選定、などがある。人間の嗜好という意味でなかなか興味深い。ちなみに次は裁判における有罪/無罪の判決、が来てかなり心情的な部分が出ている。

実験結果。

まずはタスクの委譲可能度合いを単純に集計したもの。左側は単純なカウントで、右側は各タスクにある 5 件のデータの平均を取ってからカウントしたもの。
personal と expert でやや違いはあるが、主たる傾向は同じで 4 (AI-only) が好まれるタスクは少なく、2 (人間が主導して AI がそのサポートをする) が好まれるタスクが多いことが分かる。

これは結構興味深い。
例えば自分だったら 4 とするものが多い。これは AI というものに対する理解というか認識の違いが色濃く反映されていると思う。AI を得体の知れない意思を持ちうるものとみなしているならば、全部委譲するのを避けたいと思いがちだろう(多分)。

続いてタスクの委譲可能度合いと各 component の相関を調べたもの。
大まかな傾向としては、Motivation, Difficulty, Risk は逆相関(これらが高いものはあまり AI に委譲したくない)になっていて、Trust は順相関(これは自然で、他のものと比べると値の絶対値が大きい)になっている。
personal の場合は有意差が出ていないものもあり、これは個人間の違いが出ているのだろうというコメント。Motivation を評価することで嗜好性がより濃く反映されやすくなり、その結果ばらつきが大きくなったという感じかな。

その次は component 間の相関を全組み合わせで計算して factor 毎にまとめたもの。
これは実験前の仮説としては対角項が大きく、Motivation-Difficulty, Risk-Trust 間の相関も大きくなるというものだったが、結果は Difficulty, Trust の対角項は小さく Difficulty-Risk の相関が大きく予想を裏切る形となっている。
対角項が小さいものに関しては、その factor 内で相関を見るとブロック対角化されて複数グループができてしまうことが確認できるので(結果はここでは載せてないが)、component の選び方として改善の余地があるだろう。

ということで、事前の予想と違うところが色々と生じながらもいくつかの興味深い事実が明らかになった。
やってることはアンケートの設計と crow sourcing でのデータ作成だけど、アンケートは設定がめちゃ難しいのでこれくらいものが言える結果が出れば成功だと思う。
個人的にはやはり AI に関する理解度で傾向がだいぶ違う気がするので、conference で集まった研究者の人にアンケートとかやってみて欲しいところ。

最後に classification の問題として、component の評価を入力として、タスクの委譲可能度合いを出力とするモデルを作ってその結果を調べる。
ちょっと細かいことを言えば、出力のターゲットは独立なカテゴリではなく順序を持つ要素になっているが、単純な classification として考える。

ここでやりたいのは良い性能を持つモデルを構築することではなく、random な baseline と比較して優位に良いモデルが作れるか否か、つまり問題として解けるものか否か、ひいては提案した枠組みがちゃんと意味のあるものになっているか否か、を明らかにするということである。

5-fold nested CV をして macro F1 と accuracy で評価した結果が以下。
accuracy はそこまで差がないが、F1 score は baseline よりも明らかに良くて確かに解ける問題設定であったことが示された。
コメントのみだが、ablation study で Trust の component を抜くと性能がガタ落ちになってしまうので、Trust の component が重要であると言っている(これは相関を分析したときの結果と consistent)。

confusion matrix は以下。

また、personal で学習したもので expert (またはその逆)を解いても解けるとのこと。

ここら辺はパッと見でしょぼい感じがする(実際もう少しはっきり差が出ればより嬉しかったのだろうと思うが)が、提案した枠組みの妥当性を保証するという点では確かに聞いてるので、悪くない分析だろう。実際そういう部分もちゃんと評価されて NeurIPS 2019 accepted だと思うし。

ということで一通り読んでみた。
難しい手法とかは使ってないけど、みんなが興味ある話題をちゃんと定式化してデータも作って結果を示した、という点ではよく分からんモデルを作ってみましたとかよりはよっぽどちゃんとした研究だと思う。

個人的には AI ってなんか暴走とかしてヤバそう、と世の人々が思っているというのは間接的にデータで見ることができたように思えるのでなかなか面白かった。