“全国科普日”陈松蹊院士网络科普报告:数据实验与统计分析—从大气污染到女士品茶

发布时间:2022-09-20

当今时代,大数据的获得越来越容易,但其也附带许多混杂因素。要想从大数据中提炼出科学的结果需要使用统计学技术,因此如何使用统计学技术剔除、调整、建模大数据中的混杂因素是数据实验与统计分析中的重要问题。

2022年全国科普日的主题是“喜迎二十大、科普向未来”, 侧重围绕大数据、人工智能等科技发展前沿,让更多公众深刻感知前沿科技魅力。为此,中国数学会联合中国工业与应用数学学会、中国运筹学会和中国现场统计研究会特别邀北京大学陈松蹊院士,为广大科技工作者和数学爱好者献上了精彩的网络科普报告:“数据实验与统计分析—从大气污染到女士品茶”。中国数学会副理事长周爱辉研究员主持了报告,一起出席的还有中国工业与应用数学学会副理事长王兆军教授、中国运筹学会科普工作委员会主任刘歆研究员。

9月18日上午9点,在大家的热切期待中,报告正式开始。陈院士的报告用三个例子说明了为何从大数据中提炼出科学的结果需要使用统计学技术。这三个例子分别是:(1)从大气污染监测网络数据提取污染排放信息,介绍团队八年来分析、追踪北方地区大气污染变化的实证研究,给出大气污染评估的统计学思路和方法; (2)女士品茶及充分随机实验;(3)吸烟对寿命影响的大样本观测研究。

环境大数据时代

陈院士从一封与朋友来往的邮件讲起他和大气污染研究的渊源,强调对大气污染的研究关系到人民的生命健康及生活质量。

12.png

目前我国已建立包括污染物思维时空数据、气象思维时空数据、人口与经济数据、卫星数据、遥感数据在内的生态环境检测数据,真正进入了环境大数据时代。而如何使用监测大数据度量污染物排放量是大气管理的关键科学问题。陈院士首先对比了用“排放源清单”监测的传统方法和用“环境大数据”监测的新方法,接着详细阐述了用统计学方法剔除气象因素干扰后能更准确地度量污染物排放以及在最理想的情况下用充分随机实验Treatment Effect检验方法(t-检验方法)能很好地解决“如何评判今年的污染低于去年”的问题。最后,陈院士通过对比随机化实验和观测实验,说明充分随机实验的有效性和理想性。

13.png

女士品茶

“女士品茶”案例是充分随机试验的范例,它描述了Ronald A. Fisher的实验和随机化的想法,是随机试验数据分析的两大支柱之一,更是20世纪最伟大的科学思想之一。

14.png

1920年,英国的Bristol女士声称可以只通过品尝就能区分一杯奶茶是茶先倒进杯子还是奶先倒进杯子。“现代统计学之父”Ronald Fisher和生物学家William Roacb用充分随机试验的方法(随机给出八杯其它条件一样而仅倒茶倒奶顺序相反的茶,两类各四杯,随机从八杯中挑选四杯让Bristol猜,结果Bristol全部猜对)检验了Bristol女士是真有“能区分出来是茶先倒进杯子还是奶先倒进杯子”的能力,该试验被称为最著名的“八杯牛奶”充分随机试验。

陈院士强调“女士品茶”说明了充分随机试验的强大。随后在农业中(如育种、种子的产量等)也做了相关随机化的试验,但此方法并未在社会学中进行试验。而1948年美国用定额抽样方法进行大选预测,结果大选预测失败。这说明在人群中存在隐性偏差,而充分随机试验能消除各种隐性偏差。因此现在的民意测验包括市场研究、营销的基本理论都是用随机抽样法进行。

陈院士总结在对大数据研究时做充分随机实验和进行统计偏差调整这两种方法要选其一进行。

1960年的论争—吸烟有害吗

陈院士首先介绍对吸烟是否有害这个问题的数据研究不能在充分随机化实验的条件下进行。所以将选定的三组实验人群(英国医生加拿大退休人员、美国25个州的男性)分三类:(1)不抽烟;(2)只抽香烟;(3)抽雪茄、烟斗。根据人群中每1000人死亡率可知:(1)抽雪茄、烟斗的吸烟者应该放弃吸烟,因为死亡率高;(2)如果戒不掉吸烟,那抽雪茄、烟斗的人可以考虑只抽香烟,因为抽香烟的死亡率明显低于抽雪茄、烟斗组,甚至与不抽烟组差别不大。为什么会出现上面的结论,陈院士解释结论里面有混杂因素:年龄,如果按年龄分层就能消除不同吸烟组间的年龄差异,结果会得到相反的结论。

1663644891(1).png

最后陈院士总结(1)大气污染是“观测研究”。如果要评估今年大气污染是否低于去年,需要Control气象因素,且两年的简单平均值是不可比的,因为气象分布不一样。(2)大气环境研究是“统计观测研究”。因为它不能在大气中随机化气象条件,而且每年气象变量分布有变异(气象变异),气象变异造成的bias需通过统计调整去掉。因此对大气污染PM2.5的研究要去除风向及平均气象密度的干扰。通过构造基准气象分布和调整均值的办法来调整气象,并且可以很好的反映排放的变化,这也是统计学因果推断的思想。陈院士还介绍了团队八年来分析、追踪北方地区大气污染的变化的实证研究,给出大气污染评估的统计学思路和方法,并提出了“人努力-天帮忙”指数,该指数分解了“气象因素”与“人为因素”对污染的影响。

1663644948(1).png

报告结束后,周爱辉研究员主持提问环节。嘉宾们代表网友提出三个问题,分别是:面向未来大数据、万物互联等新场景,统计分析要面临哪些新挑战以及如何展望未来的发展趋势?深度学习在很多领域都有卓越的性能表现,相信深度学习也可以用于“从大数据中提炼出科学的结果”,陈院士是如何看待这个方向?以及如何看待这个过程中模型的可解释性与可信问题;因果推断被誉为下一代AI的核心,因果推断在未来统计分析中将会扮演怎样的角色?这三个问题是通过中国数学会官方微信公众号收集遴选。陈院士对这些问题做了详细的回答。

点击此处观看全国科普日科普报告视频回放



数学会奖项

华罗庚奖

华罗庚先生是我国著名数学家

华罗庚先生是我国著名数学家,他热爱祖国,献身科学事业,一生为发展我国的数学事业和培养人才做出了卓越贡献。

陈省身奖

陈省身教授是一位国际数学大师

国际数学大师陈省身教授是美籍华裔数学家、中国科学院外籍院士。他非常关心祖国数学事业的发展,几十年来在发展我国数学事业、培养数学人才等方面做了大量工作。

钟家庆奖

钟家庆教授生前对祖国数学事业的发展极其关切

钟家庆教授生前对祖国数学事业的发展极其关注,并为之拚搏一生。为了纪念并实现他发展祖国数学事业的遗愿,数学界有关人士于1987年共同筹办了钟家庆基金,并设立了钟家庆数学奖,委托中国数学会承办。

关注微信

扫描二维码关注

京ICP备17012431号-1   京公网安备 110402430128号 版权所有:中国数学会  法律法规 | OA/ERP系统