永野裕之のBlog

永野数学塾塾長、永野裕之のBlogです。

【ベンフォードの法則】不正を暴く「1」の法則:先頭の数字として最も多いのは何?

f:id:naganomath:20200702181113p:plain

私たちの身の回りにはたくさんの数字があふれていますよね? 

新聞を読んでも、本を読んでも、ネットの記事を読んでも必ずと言っていいほど数字は登場します。もちろん、営業成績、電話料金、住所、人口、株価等もすべて数字です。

言うまでもなく、すべての数値は0~9の数字を組合せてできています。先頭の数字(最上位の桁の数字)に限って言えば、1~9のいずれかです。では

ありとあらゆる数値の中で、先頭の数字として最も多い数字は何でしょう? 

色々な数字がでてくるわけだから、どれも同じくらいじゃない?

と思うかもしれませんね。あるいは

時と場合によってバラバラなのだから、わかるわけないでしょう?

という感覚もふつうでしょう。

しかし、先頭の数字の表れ方には際立った規則性があります。

ベンフォードの法則とは

実は、先頭の数字の割合は一様ではないことがわかっています。先頭の数字として最も多いのは「1」であり、1から始まる数値の割合は全体の約30%を占めます。仮に1~9の数字が均等に現れるのなら(先頭の数字なので0は除きます) \displaystyle \frac{1}{9}≒11%になるはずですから、30%というのはずいぶん高い割合です。ちなみに先頭の数字が大きくなるほど、割合はだんだん小さくなり、「9」で始まる数の割合は全体の5% \displaystyle = \frac{1}{20}ほどしかありません。

一般に、先頭の数字がnである数の割合は次の式で計算できます。
\begin{align}
\displaystyle \large \log_{10} \frac{n+1}{n} \
\end{align}

これを「ベンフォードの法則」といいます。上のグラフと表はこれに基づいて計算した結果です。先頭の数字が「1」か「2」である数値は全体のおよそ半分に達することがわかります。「log~」というのは高校の数IIで登場する対数ですが、 \displaystyle \log_{10} \frac{n+1}{n} は、 y=\displaystyle \frac{1}{x} のグラフ(反比例のグラフ)と x 軸と x=1 x=10 で囲まれた図形のうち、 x=n から x=n+1 までの面積の割合に相当します。

 

《数学的な補足》

(注)分数関数の積分が未修の方は読み飛ばして下さい

 y=\displaystyle \frac{1}{x} のグラフと x 軸と x=1 x=10 で囲まれた図形の面積は

\begin{eqnarray}
\displaystyle \int_ {1} ^ {10} \frac {1} {x} d x &=& \Bigl[\log |x|\Bigr]^{10}_1\\
\displaystyle &=& \log10-\log1\\
\displaystyle &=& \log{10}\
\end{eqnarray}

一方、 y=\displaystyle \frac{1}{x} のグラフと x 軸と x=n x=n+1 で囲まれた図形の面積は

\begin{eqnarray}
\displaystyle \int_ {n} ^ {n+1} \frac {1} {x} d x &=& \Bigl[\log |x|\Bigr]^{n+1}_n\\
\displaystyle &=& \log{(n+1)}- \log{n}\\
\displaystyle &=& \log{\frac {n+1}{n}}\
\end{eqnarray}

よって、 x=1 x=10 で囲まれた図形のうち、 x=n から x=n+1 までの面積の割合は

\begin{eqnarray}
\frac{\displaystyle \log{\frac {n+1}{n}}}{\log{10}}= \log_{10} \frac{n+1}{n}\
\end{eqnarray}

フランク・ベンフォード

この法則をアメリカの物理学者フランク・ベンフォードが提唱したのは1938年のことでした。ジュリアン・ハヴィル著『世界でもっとも奇妙な数学パズル』によると、当時彼は、分子量、人口、新聞の記事など、2万例を超えるサンプルを集めて、この法則にたどり着いたそうです。

上の表はその結果をまとめたものです。中には新聞記事やデザイン、住所など、自然由来とは言えないものも含まれますが、それでも平均値と理論値は驚くほど一致しています。

ただし、1から始まる数が極端に多いことに最初に気づいたのは、ベンフォードではありません。アメリカの天文学者のサイモン・ニューカム(1835-1909)です。ニューカムは、1881年に『アメリカン・ジャーナル・オブ・マセマティックス』誌に寄稿した論文の冒頭で次のように述べています。

10種の数字が等しい頻度では出てこないのは、対数表*1をよく利用する人なら誰でも明らかだと思うに違いない。表の最初の頁の方が、後ろの方の頁よりも早くすり切れる。最初の桁の数字は他の数字よりも1の方が頻度が高く、9に向かって進むにつれて頻度は下がる。

[出典:世界でもっとも奇妙な数学パズル]

ベンフォードの法則が成り立つケースと成り立たないケース

たとえば細菌の増殖のように、自然界では、その数が一定の時間間隔で2倍になっていくことは珍しくありません。このようなとき、仮に1年で倍になるとすると、はじめに100個あったものは1年で200個になります。2年で400個、3年で800個、4年で1600個です。

このような増え方を指数関数的な増加、と言います。

グラフで表してみましょう。

100個から200個に増えるには1年かかります。この間、個数の最初の数字はずっと「1」です。これに対したとえば個数の最初の数字が「5」である期間(500個から600個に増える期間)は約3ヶ月ほどしかありません。同じように1000個から2000個に増えるのにかかる時間は1年ですが、5000個から6000個に増えるのにかかる時間はやはり約3ヶ月です。

このようにすると、(自然界に多く見られる)指数関数的に増加する変化においては、最初の数字が「1」である期間は最初の数字が他の数字である期間にくらべて、とりわけ長いことがわかって頂けるのではないでしょうか?

また、特に指数関数的な変化はしなくても、ベンフォードの法則がよくあてはまるケースがあります。それは、会員番号のように順に番号が付けられるケースです。たとえば、会員数5,000人のファンクラブがあるとします。すると、先頭の数字が5、6,7,8,9の会員番号は、先頭の数字が1,2,3,4の数字に比べて極端に少なくなります。

上の表は、会員数が1,000人~10,000人のキリのいい数のときに、先頭の数字別に個数をカウントしたものです。先頭の数字が「1」のものは、すべてのケースで最大個数になっていますね。これに対し、先頭の数字が「9」のものが最大個数になるのは4桁の場合は9999のときしかありません(その場合でも他の数字から始まるものの個数と並ぶだけです)。

会員番号のように順々に採番されるとき以外でも、人口や川の長さのようにある範囲の中でほぼ一様に数字が散らばっていることが期待されるケースでは同様の現象が起き、やはりベンフォードの法則がよくあてはまります。

ただし、電話番号のように別のルールによって決められる数の並びや、センター試験の得点のような正規分布(や他の統計的分布)に支配されるデータは、ベンフォードの法則に従いません。また、値の範囲に制限のないランダムな数の集合もベンフォードの法則の適用外です。しかし、新聞の記事に登場する数字のように、ベンフォードの法則に従わないいくつかの分布から無作為に集めたデータは、再びベンフォードの法則に従うことが知られています。

まとめると特に良い精度でベンフォードの法則が成り立つのは次のケースです。

  1. 指数関数的に増加する数字の集まり
  2. ある範囲の中で順々に採番された数字の集まり
  3. ある範囲の中で一様に分布することが期待される数字の集まり
  4. いくつかの分布から無作為に選ばれた数字の集まり

ベンフォードの法則を数学的に証明するには、「スケール不変」という性質を拠り所にするのが一般的です。スケール不変とは、単位系を変えても同じ性質が成立することを意味します。もし、本当にベンフォードの法則が真理を表しているなら、(ベンフォードの法則に従う例として有名な)川や湖の面積の表を、別の測定単位系にしても同じ結果になるはずです。

神様はヤード法よりもメートル法の方を好むなどということは考えられません。ということは、最初の数字について普遍的な法則があるのなら、それはスケール不変でなければならないわけです。

スケール不変の性質を微分方程式で表し、これを解けば、数学的にベンフォードの法則を導くことができますが本稿では詳細は割愛します。詳しいことをお知りになりたい方は、上でも紹介した『世界でもっとも奇妙な数学パズル』をご覧ください。丁寧な証明が載っています(数IIIの微積が既習であれば、理解できる内容です)。

世界でもっとも奇妙な数学パズル

世界でもっとも奇妙な数学パズル

 

不正を暴く「ベンフォードの法則」

Googleの黎明期に収益源となる広告モデルを設計し、「Googleを世界一にした経済学者」とも言われるハル・ヴァリアン氏は1972年に

ベンフォードの法則を応用すれば、粉飾決算を見抜くことができる

と唱えました。

金額を偽装しようとする人はこの法則を知らずに、先頭の数字について均等すぎる分布で数値を書いてしまったり、逆に偏りすぎる分布で書いてしまったりします。すると「1」から始まる数値の割合がベンフォードの法則から大きく外れることになり、偽のデータであることが発見できるというのです。

実際、1990年代の初めにこんなことがありました。会計学校講師のマーク・ニグリニが学生に対して「企業収支の各数値の最高桁の数字がベンフォードの法則に従う分布を示すかどうか確かめよ」という課題を出したところ、ある学生が、親戚の経営する金物屋の帳簿の数字がベンフォードの法則とは全く違うものであることを発見し、これが帳簿の不正発覚に繋がってしまったのです。これをきっかけに、ニグリニは、1999年に発表した論文の中で、ベンフォードの法則を使えば粉飾決算が見抜けることを統計的に示しました

ニグリニよると

  • 支払勘定データ
  • 総勘定元帳での推定
  • 二重支払い
  • 売値の新しい組合せ
  • 顧客への払い戻し

などについて、その分析にベンフォードの法則が使えるそうです。現代では、会計監査のほか、選挙における不正投票の検証にもベンフォードの法則は使われています

新刊のご案内:『数に強くなる本』

最後に少し宣伝させてください

東大→JAXA→人気数学塾塾長が書いた 数に強くなる本 人生が変わる授業

本記事は5/24に発売されました『数に強くなる本』を記念して書きました。数に強くなることに興味がある方は、是非お手に取ってみてください。ベンフォードの法則は、「数字についての知識」のひとつですが、数字について知ることは、「数に強い人」になる必須条件の1つです。

*1: \log_{a}m=x mに対応する xの値を表にしたもの。 aが10であるものは特に常用対数表といい、高校の教科書にも載っています