Views: 2607
|
Replies:0
|
OP
08/18/2017
最近有一位统计专业人士撰写了一篇题为《聚合和细分政府数据》(“Aggregation and Disaggregation of Government Data”)的文章【1】。 该文引经据典,对于“亚裔细分”这一热门话题发表了其看法。 该文作者对于亚裔细分持赞成态度,并对一些不赞同亚裔细分的观点进行了批驳。 作为统计专业的Jeremy Wu专家,在通篇文章中除了开头引用了一位统计前辈对数据收集必要性的辩论,文章中部提到了小样本对统计分析的影响,以及最后的一些从网上收集来的统计报表之外,并没有任何内容讨论人群数据收集与分析的基本原则。 与其说那是一篇从专业角度阐述亚裔细分的必要性的文章,倒不如说那是一篇不严肃的灌水文。 本文就统计的基本原则对该文章提出一些异议。 1. 统计分析是基于概率论基础的。当样本含量很小的时候,样本对于总体的代表性很差,统计分析的有效性就很差。正如作者提到的,小样本会限制更深一层次的数据分析。当5%的亚裔在学区或者地方医院中被细分成5个,10个,20个成分,每个成分的人数将是很少的。 例如,细分后的族裔之一是汤加(Tongan)。 该国的全国人口不到11万人,在美国的移民数目可想而知。 这样的数据没有任何统计分析的意义,因为误差会很大。罗德岛的亚裔细分就是这样的一个例子。 另外,其他的少数裔族例如非裔、西裔,同样的存在多样性,并且人数上大大超过亚裔,细分他们从统计学上来说更有意义。例如,Hispanic,他们占美国人口的17%,三倍于亚裔。 他们来自中美洲,南美,欧洲,亚洲等不同的区域将近二十个国家。 按照人种分,他们之中既有白人也有黑人,还有黄色人种。 但是那些搞亚裔细分的州却没有对Hispanic进行细分(个别州有对Hispanic进行粗分)。 2. 基于调查表的数据收集有一个很重要的假设,就是调查表的设计是不容易产生疑义的。不精确的调查表会导致错误的数据被收集,错误数据不但浪费经费和时间,还会导致错误的假设,错误的结论,以及低效的执行力。2016年,IBM估算到错误数据每年浪费了美国3.1兆美元( poor data quality costs the US economy around 3.1 trillion US dollars a year)【2】。 亚裔细分的表格在细分中使用了不同的理论基础以及不同的分类原则(国家,民族,地区,肤色,…),这样的分类原则导致了很多的混淆与混乱,因而执行起来极其荒唐。 亚裔细分把race, ethnicity, 以及nationality 混为一谈,要求亚裔美国人填表回答“race”这个问题时,根据若干东南亚国家和地区的名字以及太平洋岛国的名字,来回答自己属于哪一个“race”。 那其实是用ethnicity或ethnicity替代了race。 统计的对象必须在同一类数据中具有共同性。 例如,在根据统计数据研究各类水果的营养价值时,必须首先对“水果”有一个清楚和明确的定义,不能用“食品”替代“水果”这个概念。 拿饼干的数据去说明水果的营养,就是离谱了。 另外,亚裔内部本身存在着各国之间的移民以及各个民族之间的通婚的情况。 在这样的前提下,填写这样的细分表格会导致种种错误。从这个角度来说,亚裔细分从表格设计,到各类种族的定义,都有很多统计学上的缺陷,这样的缺陷会导致数据收集的失败,从而浪费政府的财力和物力。 3. 基于人类信息的数据收集是敏感数据,美国的各个国家数据收集中心都有对数据收集的保密性要求,以及统计分析报表中对个人隐私的保密性。比如US Census的数据有一些细分内容,但是这些细分内容是不允许被公布的,这样的数据也不会出现在Zip code甚至Tract 层面的报告中,因为可能的隐私暴露危险【3】。 如今的亚裔细分内容却会出现在学区或者地方医院的表格中,私人隐私将被暴露,这是完全不符合美国伦理学的要求的。 参考文献 【1】Jeremy Wu, Aggregation and Disaggregation of Government Data. https://www.linkedin.com/pulse/aggregation-disaggregation-government-data-jeremy-wu 【2】Quintero D, Bolinches L, Sutandyo AG, et. al. IBM Data Engine for Hadtop and Spark. http://www.redbooks.ibm.com/redbooks/pdfs/sg248359.pdf 【3】 Statistical safeguards. United States Census Bureau. https://www.census.gov/about/policies/privacy/data_protection/statistical_safeguards.html
0
0
|
|