利得思惑理論
確率 へ戻る
大学生のための数学 へ戻る
2012.11.01____


[ 問 題 ]

  駅前の便利屋さんは、 毎朝未明に山道を歩いて、 山頂近くの山荘に山水を採取して持っていきます。 山荘に行くには、 Aルート と Bルート の2つがあり、 どちらも中腹の道端で山水を採取することができます。 ただしBルートの山水のほうが比較的良質です。 山荘に行くまでに歩く距離は同じなのですが、 Aルートはカーブはあるもののずーっと一様でなだらかな登り道になっているのに対して、 Bルートは中腹以降アップダウンをくり返す道になっています。 どちらの水を配達してもいいことになっているのですが、 Aルートの場合は の水を、 Bルートの場合は の水を配達することになっています。 それは、 両方で労働の強度がほぼ同じになるようにと、 山荘の主人が配慮してくれたことです。 山荘の主人は、 さらに便利屋さんのことを思って、 毎夕、 山荘の従業員が帰宅するときに、 ゴルフ場で使うカートをどちらかのルートの中腹まで降ろさせ、 翌日に便利屋さんが使えるように準備をしています。 ただし、 どちらのルートに用意されているのかを便利屋さんは聞いてはならないことになっています。 山荘の従業員は、 毎朝、 前の日にカートを降ろした方のルートを通って通勤し、 便利屋さんが使用しなかった場合は、 カートを使用して山荘に戻すことになっています。 また、 山荘の主人はどちらかというとBルートの山水がほしいと思っているので、 Bルートにカートを降ろした時には、 カートにご褒美のバナナとアンパンを用意して、 カートを使用した者が食べてもいいことになっています。 便利屋さんが少しでもラクに山水を配達できる確率を高めるには、 1か月( 30日 )のうち何日 Aルートを通ればいいでしょうか? ただし、 ラクした度合い ( ラクした度 ) を次のような値で表すことにします。

   Aルートにおいて の水を山荘まで運ぶ : 
   Bルートにおいて の水を山荘まで運ぶ : 
   Aルートにおいて カートに乗って山荘まで行く : 
   Bルートにおいて カートに乗って山荘まで行く : 



[ 解 答 ]

次の4つのケースの 「 ラクした度 」 は次のようになります。
    Aルートを選択し、 カートがあるとき ( Aルートにカートが置いてある ) : 
    Aルートを選択し、 カートがないとき ( Bルートにカートが置いてある ) : 
    Bルートを選択し、 カートがないとき ( Aルートにカートが置いてある ) : 
    Bルートを選択し、 カートがあるとき ( Bルートにカートが置いてある ) : 


  山荘の従業員がAルートにカートを用意する確率を とし、 便利屋さんがAルートを選択する確率を とします。 すると、 便利屋さんの 「 ラクした度 」 の期待値は、 次の で表されます。
    
    
    

   は何をしているのかと申しますと、 便利屋さんがAルートを選択した場合の 「 ラクした度 」 の期待値 と Bルートを選択した場合の 「 ラクした度 」 の期待値 とを求めているのです。 最後に内積をとっているのは、 便利屋さんがAルートを選択する確率にAルートを選択した場合の 「 ラクした度 」 の期待値をかけたもの と、 便利屋さんがBルートを選択する確率にBルートを選択した場合の 「 ラクした度 」 の期待値をかけたもの との合計をとっているのです。 その値 が全体の期待値になります。

次の図をみてください。

     

  の範囲ですから、 の直線は、 灰色で塗られた範囲内に存在することになります。

  山荘の従業員が必ずBルートにカートを配置する場合は、 のときです。
のグラフを見てください。 期待値 は次のようになります。
    
     とは、 いつも 「 ラクした度 」 が の場合です。
     とは、 いつも 「 ラクした度 」 が の場合です。

  山荘の従業員が必ずAルートにカートを配置する場合は、 のときです。
のグラフを見てください。 期待値 は次のようになります。
    
     とは、 いつも 「 ラクした度 」 が の場合です。
     とは、 いつも 「 ラクした度 」 が の場合です。

  また、 のときは、 便利屋さんの選択の結果に関係なく常に 「 ラクした度 」 の期待値が になることもわかります。

  今回の問題では、 の値が決まっていません。 そこで のときに の範囲で がアットランダムにある値をとったときの 「 ラクした度 」 の期待値を求めてみましょう。 図で、 のとき、 の範囲で が動くと、 の範囲で が動くことになります。 ということは、 のときの 「 ラクした度 」 の期待値は、 との中間 であるということです。 のとき、 の範囲で が動くと、 の範囲で が動くことになります。 ということは、 のときの 「 ラクした度 」 の期待値は、 との中間 であるということです。 ということは、 「 ラクした度 」 の期待値は、 となって、 の範囲では のときが最も大きくなります。 そこで、 毎回Bルートを選択する場合が最も 「 ラクした度 」 の期待値が大きくて、 そのときの 「 ラクした度 」 の期待値は になると考えますよね。 しかし、 よく考えてみてください。 山荘の従業員だって少しでもラクをしたいのです。 ですから、 「 便利屋さんはどうもBルートばかり選択しているようだ。」 と気づけば、 彼はカートをAルートにばかり置くようになります。

  いよいよ、 この問題の本質に突入して参りました。 この問題は、 単なる期待値を求める問題ではなかったのです。 「 互いの利得の思惑 」 が作用する 「 ゲーム理論 」 の問題だったのです。 利得思惑理論によると、 「 相手が取った選択の確率によって、 自分の選択の結果に関係なく期待値が常に一定になるところの期待値が最も大きい期待値となり、 相手が取る選択の確率がどんなに変化しても、 期待値が変化しないように自分が選択すれば、 その期待値を得ることができる。」 ということです。 したがって、 この場合は、 図でいうと、 次の2つの直線の交点の 座標値が、 最も 「 ラクした度 」 の期待値が大きくなる選択のしかたであり、 座標値がそのときの 「 ラクした度 」 の期待値になります。
    
  この交点の座標を求めるには、 この連立方程式を解けば良いわけで、 答えは次のようになります。
    
  したがって、 この問題の答えは、 「 1か月( 30日 )のうちの 20日、 Aルートを通ればいい。」 ということになります。


  これを現実的に考えてみましょう。 カートを使用しないときは、 便利屋さんにとってはどちらのルートを通っても同じ労働の強度ですが、 山荘の従業員にとってはBルートを通るほうが労働の強度が強いです。 カートを使用できる時は、 便利屋さんにとっても山荘の従業員にとってもBルートを通ったほうがご褒美がついているのでうれしいです。 これらを総合的に考えてみると、 便利屋さんはどちらかというとBルートを選びたいと思うし、 山荘の従業員はどちらを選んでもよさそうですが、 「 便利屋さんはどちらかというとBルートを選びたいと思ってるだろうから 」 ということで、 Aルートの方にカートを置く確率が高くなりそうです。 したがって、 便利屋さんもAルートをやや多めに選択したほうがカートに乗れる確率が高くなるわけです。 利得思惑理論では、 実際に山荘の従業員がどんなカートの置き方をしても、 理論どおりに行動すれば、 「 ラクした度 」 の期待値は変わりません。 ただし、 実際に理論どおりに行動したとしても 「 ラクした度 」 が期待値どおりになるわけではありません。 期待値とは、 あくまでも期待値なのです。
  さて、 山荘の主人の期待はどちらかというとBルートの山水なのですが、 便利屋さんが理論どおりに行動すれば、 山荘の主人の期待はずれになってしまいます。 いったいこれはどういう理由なのでしょう。 それは今の私にはわかりません。 でも言えることは、 世の中はもっと多くの利得が絡んでいるはずだから期待値をはじきだすのは容易じゃないってことです。 だから利得だけで行動するのはよしましょうってことです。


  さて今度は、 次のように条件を変えてみましょう。 ご褒美はつかなくなりますが、 Bルートの山水は 持っていけばよくなり、 「 ラクした度 」 が次のように変わります。
   Bルートにおいて の水を山荘まで運ぶ : 
   Bルートにおいて カートに乗って山荘まで行く : 

すると、 次の4つのケースの 「 ラクした度 」 は次のようになります。
    Aルートを選択し、 カートがあるとき : 
    Aルートを選択し、 カートがないとき : 
    Bルートを選択し、 カートがないとき : 
    Bルートを選択し、 カートがあるとき : 

 
 
 

 
  この2つの連立方程式を解くと、
     
  したがって、 この場合は、 便利屋さんが少しでもラクに山水を配達できる確率を高めるには、 1か月 ( 30日 ) のうちの 15日 Aルートを通ればいいことになります。 先ほどと比べると、 Aルートを選択すべき割合は少なくなっています。

  ではこれを、 山荘の従業員の立場で考えてみましょう。 ただし、 Bルートに置いてあるカートを従業員が利用して出勤した場合は、 山荘の主人からご褒美がでることになっています。
次の4つのケースの山荘の従業員にとって 「 トクした度 」 は次のようになります。
   便利屋さんがAルートを選択し、 カートがあるとき
        山荘の従業員は、 Aルートを選択し、 カートはありません。 : 
   便利屋さんがAルートを選択し、カートがないとき
        山荘の従業員は、 Bルートを選択し、 カートがあります。 : 
   便利屋さんがBルートを選択し、 カートがないとき
        山荘の従業員は、 Aルートを選択し、 カートがあります。 : 
   便利屋さんがBルートを選択し、カートがあるとき
        山荘の従業員は、 Bルートを選択し、 カートはありません。 : 


  山荘の従業員がAルートにカートを用意する ( Aルートを通る ) 確率を とし、 便利屋さんがAルートを選択する確率を とします。 すると、 山荘の従業員の 「 得した度 」 の期待値は、 次の で表されます。
 
 
 

 
  この2つの連立方程式を解くと、
     

  したがって、 山荘の従業員としては、 4日に1回の割合でBルートにカートを置くと 「 トクした度 」 の期待値が最大になります。 ただし、 山荘の従業員が4日に1回の割合でBルートにカートを置いたとしても、 便利屋さんはAルートとBルートを均等に選択してさえおけば、 便利屋さんの 「 ラクした度 」 の期待値が低下するわけではありません。