|
 |
|
头衔:金融分析师 |
昵称:满仓看瀑布 |
发帖数:200 |
回帖数:849 |
可用积分数:168755 |
注册日期:2010-05-26 |
最后登陆:2020-08-12 |
|
主题:Benford定律
1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。
本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是 1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。
本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。
1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由 2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多。
马伯强老师对我介绍道,全世界200个左右国家地区,如果我们看面积的第一个数字出现的频率,1到9也遵守Benford定律,同样,这些国家地区的人口的第一个数字也遵守Benford定律,这是一件很奇妙的事情。
我们看看wiki是怎么介绍Benford定律的:
Benford’s law, also called the first-digit law, states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way. According to this law, the first digit is 1 almost one third of the time, and larger digits occur as the leading digit with lower and lower frequency, to the point where 9 as a first digit occurs less than one time in twenty. This distribution of first digits arises whenever a set of values has logarithms that are distributed uniformly, as is approximately the case with many measurements of real-world values.
This counter-intuitive result has been found to apply to a wide variety of data sets, including electricity bills, street addresses, stock prices, population numbers, death rates, lengths of rivers, physical and mathematical constants, and processes described by power laws (which are very common in nature). The result holds regardless of the base in which the numbers are expressed, although the exact proportions change.
It is named after physicist Frank Benford, who stated it in 1938, although it had been previously stated by Simon Newcomb in 1881.
有人可能会问,如果我们改变单位制呢?Benford定律恰恰是因为改变单位制而分布不变所引起的对数律。有人会继续问,如果我们改变进位制呢?例如8进位而不是10进位,甚至是2进位?Benford定律在不同进位制下的准确的表述是,在b进位制中,首位数字取d(=1,……, b-1)的几率是
这个定律可以用来检查是否有人做了假账。通常的账本会满足Benford定律,而做了假账的账本不满足,4和5出现的频率更大,而不是1。
马伯强老师和他的学生邵立晶最近在这方面写了三篇文章,他们发现了:
1、强子的宽度遵守这个定律(文章见这里)。
2、脉冲星的重心周期满足修正的Benford定律。
3、统计物理的三个重要分布,Boltzmann-Gibbs分布,Bose-Einstein分布,Fermi-Dirac分布,也基本上满足Benford定律。
【免责声明】上海大牛网络科技有限公司仅合法经营金融岛网络平台,从未开展任何咨询、委托理财业务。任何人的文章、言论仅代表其本人观点,与金融岛无关。金融岛对任何陈述、观点、判断保持中立,不对其准确性、可靠性或完整性提供任何明确或暗示的保证。股市有风险,请读者仅作参考,并请自行承担相应责任。
|
|
 |
|
头衔:金融分析师 |
昵称:满仓看瀑布 |
发帖数:200 |
回帖数:849 |
可用积分数:168755 |
注册日期:2010-05-26 |
最后登陆:2020-08-12 |
|
Benford定律之后,我们来看看一些数据的末位数的分布规律吧相许 夏天一葉 68位粉丝 1楼
Benford定律说:在(满足一定条件的)数据中,在N进制下,首位数为k的概率为LogN (1+1/k)。 如十进制下就是:Lg2,Lg3/2,...,Lg10/9。 举例来说,Fibonacci数列是满足Benford定律的。(F1=1,F2=1,Fn=Fn-1+Fn-2) 在前10000个Fibonacci数中,首位数为1到9的频率分别为: {1, 0.3011}, {2, 0.1762}, {3, 0.1250}, {4, 0.09680}, {5, 0.07920}, {6, 0.06680}, {7, 0.05800}, {8, 0.05130}, {9, 0.04560}。和Benford定律符合的挺好。 ————————X_X———————— 下面来看看末位数的情况。 首先,在整数或正整数或自然数什么的里面,等概率的随机抽一个,末位数为0到9的概率肯定都为1/10(这不废话么)。我们肯定不研究这个。 那研究什么样的数据咧? 先看质数 在整个质数**中,等概率的随机抽一个,末位数为0、4、6、8的概率为零,2、5的概率趋近于零,那1、3、7、9呢?各是1/4么? 经过统计, 末位数为1,3,7,9的概率为: 前100个质数中:0.24, 0.26, 0.24, 0.24,总和:0.98 前10000个质数中:0.2484, 0.2515, 0.2508, 0.2491,总和:0.9998 前1000000个质数中:0.249934, 0.25011, 0.250014, 0.24994,总和:0.999998 确实有趋近于25%的趋势,所以我猜测,那1、3、7、9的概率就各是1/4。 —————————————————— 再看看Fibonacci数列,不过这回,末位数为0到9的概率并不是均匀的1/10. 经过统计,前100000个Fibonacci数中,频率如下: {0, 0.06666}, {1, 0.13334}, {2, 0.06666}, {3, 0.13332}, {4, 0.06667}, {5, 0.13334}, {6, 0.06666}, {7, 0.13334}, {8, 0.06668}, {9, 0.13333} 就是说0,2,4,6,8的概率是1/15;1,3,5,7,9的概率是2/15。 这样的分布是由于各项并不是独立的,Fn由它的之前两项决定。Fn=Fn-1+Fn-2 除此以外,这样的分布还由初始条件F1=F2=1决定。 如果保持递推关系Ln=Ln-1+Ln-2不变,初始条件改为,L1=1,L2=3。(这个叫Lucas数列) 则前100000项中,频率如下: {0, 0.}, {1, 0.16667}, {2, 0.08333}, {3, 0.16667}, {4, 0.08334}, {5, 0.}, {6, 0.08333}, {7, 0.16667}, {8, 0.08333}, {9, 0.16666} 与Fibonacci的分布是不同的。 即0,5的概率是0;2,4,6,8的概率是1/12;1,3,7,9的概率是1/6。
由于An=An-1+An-2的自由度是2,An可表示为An=C1 x1^n+C2 x2^n,C1,C2为初始条件决定的两个常数,x1,x2为方程x^2=x+1的两根。因此以Fn、Ln为基,An可表示为An=D1 Fn+D2 Ln。 其中Fn+Ln(2,4,6,10,16,26...)的结果颇有意思。 1,3,5,7,9的概率是0;0,2,4,6,8的概率是1/5。
最后,求Fibonacci数列和Lucas数列末位数分布的结论的证明。
|