统计学思维

2023年9月20日 下午2:42:13

《统计与真理》的读书笔记

自然界中的不确定性是固有的。

在以上前提下,凯特勒利用概率论的概念描述社会学和生物学现象。孟德尔通过简单的随机性结构,如掷骰子,公式化了他的遗传法则。玻尔兹曼对理论物理中最重要的基本命题之一,热力学第二定律给出统计学解释。

人类思维方法的这种变化由著名物理学家玻恩(M.Bom)简洁地表述为:

我们已经看到传统物理学如何徒劳无益地力图使大量的观测结果与基于由日常经验导出但已上升为形而上学的因果论的先验概念一致;如何徒劳地抵制随机性的侵入。今天,次序已经颠倒过来了:随机性已经成为一种基本概念,表示定量法则的一种技术。而且,在通常的经验范围内,涉及因果律及其属性的绝大多数的结果,均可由统计学的大数定律来圆满地加以说明。

大数定律

大数律断言,一个系统中多个个体平均行为所显示的不确定性将会随着个体总数的不断增加而逐渐减少,因而可以把这个系统作为一个整体,其表现的几乎是决定性的现象。

那么,人类在不确定性下,如何做出决定呢?我们如何对某些特定的观察数据加以概括总结来发现新的现象或提出新的理论呢?这个过程涉及到艺术、技术,还是科学呢?

直到 20 世纪初叶,才开始量化不确定性,来尝试回答这些问题。

//其实得到完全随机数列是很麻烦的事情。比如掷骰子手动生成钱包助记词

随机数列

什么是随机数列?

不遵循任何特殊模式的数列。

期望值

期望值是指平均数的理论值

随机结构

掷骰子、口袋抽球、统计婴儿得到的随机结构相同

伪随机

数学家们相信:要构造一个有效的随机数列(使之满足很多规则),不应通过随机程序而要利用适当的确定性程式(参见Hull和Debell(1962))来实现。因而通过装置所产生的数列被称为伪随机,在大多数实际应用中,使用这种伪随机数列可以达到所预期的目的。

随机数的用途

抽样调查

解决过于复杂而又难以求得精确解答的概率和统计学问题

设计科学实验要求完全随机

信息加密

随机性作为建模的一种工具:如预测天气、商品需求

从随机视角解释创造性

什么是创造性?创造性可以有不同的种类。最高水平的创造性是一种新思想和新理论的产生,这种新思想或新理论与任何已存在的结构有着本质的不同或是完全不一样,完全不能从已有的理论演绎而成,这种新思想或新理论可以比任何已知的理论解释更广范围的自然现象。另外一种不同水平的创造性是指在一个已存在法则范围内的新发现,但这种新发现在某个特殊的领域内具有巨大的意义。可以确认,这两种创造性均是新知识的源泉,然而两者之间存在微小的区别:第1种情形中,创造的是一种先验的思想,将由后来对事实的观察来加以验证;第2种创造性则是对现有知识在逻辑上的扩展。我们或许可以对第2种创造性的产生过程的背景做一些想像,而第1种创造性的产生却超越了我们的理解。拉曼纽扬和爱因斯坦是如何创造出他们所做的工作?尽管他们对创造性有一些神秘的解释,我们却永远不会了解他们工作的实际过程。然而我们可以用某些方法来描述创造性的特点。

非常重要的发现决不是由逻辑推断和强化观测基础来得到的。显而易见,创造性的一个必要条件是让思维不受已有知识或成形的规则所束缚,让其能自由地思考。或许产生新发现之前的思考仅仅是一个模糊的形式,是随机捜索相互作用的一次成功。这种随机搜索可找出一些新的框架,与过去的经验和潜在的意识一致,从而缩小新发现可能产生的范围,克斯特勒(A.Koestler)在描述创造性的思维时说:

在发现的最后的决定性阶段,思考的内容漂浮在梦里、幻想中,盘绕着整个思维,此时思潮随着自己抑扬的情绪无拘无束地活动,明显地处于一种没有任何约束的状态。

//今天的大语言模型,就是基于随机搜索的原理。统计上的相似性。对学习的模型,至少是适合学习的模型,仅有随机模型(概率模型)

随机思考是创造性的重要组成部分。(相当于演化论中的变异。)

有人问到爱因斯坦关于创造性思维的问题时,爱因斯坦这样回答:

任何写出的、讲过的词汇或语言在我思考的结构中似乎不起任何作用,作为思维元素存在的物质实体似乎是某些符号,和一些或明或暗的想像,这些想像被‘随心所欲地’再生和组合,……这种组合性的思维活动似乎是创造性思维的基本特狂——这种思维活动产生于存在一种能用文字或其他符号来与其他人交流的逻辑性结构之前。

偶然性、混沌

偶然性是研究无序中的有序。像彩票抽奖等

混沌研究有序中的无序。如气象预测、不规则的海岸线

它们都适用于观察现象的模型化

不确定性的现象,却可以用模型生成。到底什么是偶然性?

//当然,这些现象都是自然界现象,如果加上人的主观因素,就很难模拟了。因为人本身会参与到现象的演进中。正如预测会改变预测。

//偶然性和模糊性是使得生活变得有趣的两个基本因素。

统计学

那些默默无闻的统计学家们已经改变了我们的世界,——不是由发现新的事实或技术,而是改变了我们推理和试验的方法,以及我们对这个世界的观念的形成方式。——哈克英(Hacking)

统计学STATISTICS这个术语的词根,在拉丁语中是国家STATUS的意思,由18世纪中叶德国学者艾奇纳沃(G. Achenwall)新创出的这个词意为由国家来收集、处理和使用数据。

三种逻辑推理方法

除了熟知的演绎法和归纳法,还有,风险管理的逻辑方法。

//大概就是贝叶斯方法

20 世纪初,人们认识到,尽管由特殊到一般的规律所建立的知识是不确定的,一旦能度量所含的不确定性,则获得的知识尽管总类不同,但,是确定的。

不确定的知识|所含不确定性度量的知识=可用知识

这不是哲学,这是一种新的思维方法。

由这个基本方程可以导出风险管理的一个有效方法,而且把人类从神谕和算命先生中解放了出来它把未来置于现时可做出明智决策的有助框架之中:

  • 如果我们不得不在不确定性的前提下做出抉择,则错误是不可避免的。
  • 如果错误是不可避免的,则在一定的规律下做出抉择(形成新的具有不确定性的知识)时,最好我们能知道犯错误的频率(对不确定性量度的知识)。
  • 这样的知识能够用于找出制定决策的某种规律,从而使我们减少盲目性,使做出错误决策的频率最小,或者使出错误决策产生的损失最小。

这样由最优化决策来处理的问题能够用演绎推理来解决。所以,归纳推断可以划归演绎逻辑的范围。

知识的发展依赖于以下三个逻辑过程:

  • 归纳:基于观察到的数据信息产生新知识。

  • 诱导:由直观而不是数据信息产生新知识。

  • 演绎:证明所提出的理论。

如何量化不确定性

最初尝试量化不确定性的是贝叶斯(T. Bayes,?一1761)。据说他死于59岁(出生日期不明)。贝叶斯在一组可能的假设下介绍了先验分布的概念,即在数据信息被观察到之前,提出对不同的假设的信赖程度大小。假设h的可信度表为p(h)并且是给定的。同时如果在给定假设h下数据d的概率分布已知为p(d/h),就可以使我们得到观测数据信息的边缘概率分布p(d)。于是现在我们能计算在给出数据信息d时,假设h的条件概率分布,这被称之为贝叶斯定理

贝叶斯定理是归纳推理中利用概率论为工具的有独创性的尝试。然而一些统计学者对引用先验分布来解决问题的方法感到某种程度的不安,除非先验分布的选择是按客观做出的,例如,是基于过去观察的事实结果而不是由人的主观或为方便后验分布的数学计算来做出的。实际上,不利用先验分布而发展推断理论是近代统计学创始者们的努力。

300 多年前,法国数学家笛卡儿(1596——1650)有句名言:

当我们不具备决定什么是真理的力量时,我们应遵从什么是最可能的,这是千真万确的真理。”

//这就是今天数据分析所做的工作吧,解释数据的意义。

总结起来,偶然性不再是一件值得担心的事情或者是一种无知的表现。相反,它是表达我们拥有知识的最具逻辑性的方法。我们能够接受不确定性,承认它的存在,并且量度不确定性,同时证明,尽管面对不确定性,知识的发展和适用行动的发展是可能而且合理的。考克斯(D.Cox)爵土曾指出:

对不确定性的认识并不意味虚无主义,也不需要迫使我们进入像美国人有时所说的那种偏废的状态。

偶然性或许不遵循任一法则,但是解决的办法是找到偶然性的规律。我们决定要考察的对象,给出其发生的概率作为这些对象所具有的不确定性的量度。在已知各种事件发生的结果和发生的概率的情况下,不确定性下的决策可以化归为演绎逻辑的问题。处理偶然性已不再成为无所适从的事情了。

数据分析的原理和策略——数据的交叉验证

数据的交叉检验CED(Cross Examination of Data)表示任何探索或初始研究都是为了了解数据的性质,剔除测量误差、记录误差和异常值,检验先验信息的有效性,检测数据的真伪,数据的初始研究也用于检验一个指定模型的有效性或是对进一步的数据分析选择一个更合适的随机概率模型或随机概率模型族。

推断数据分析IDA(Inferential Data Analysis)表示基于对观察数据所选定的随机概率模型所进行的估计、预测、假设检验和决策推断等统计方法的综合。数据分析的目的不仅仅只限于解答某些特殊的问题,而是要从数据中获取一切有效信息。数据中常常含有对新的研究导向有价值的信息,同时含有为收集数据改进未来的实验设计或样本抽样的有价值的信息。我将数据分析的主要原理用一个基本方程式明确给出:

数据分析=回答特定问题+提供新研究方向的信息

在大的范围内对每个小范畴的特殊需求进行数据交叉检验时,一个可供采用的检查项目有如下几种:

  • 数据是如何收集、记录的?
  • 数据中含有测量误差和记录误差吗?有关测量值的概念和定义明确吗?观察值之间存在任何区别吗?
  • 数据是真实的,即是所调查的原样,还是以任何方式经过人工伪造、编纂或修改过的?是否由观察者自行决定删除了任何观察值?数据中是否存在任何或许会过度影响统计推断的异常值?
  • 提供信息的观察数据是来自什么样的实施总体?作为抽样调查总体中所选定部分是否存在没有回答的(部分或全部)?数据信息是来自自单一总体,还是混合总体?与抽出样本单位的识别和分类有关的因素都记录下来了吗?
  • 对所要调查研究的课题或是观察数据的性质是否存在任何先验信息?

数据交叉检验成功与否很大程度上依赖于数据的性质,以及从这些数据(让数字说话)中抽取信息时统计学者本身技能。