数据是实现人行动目的的工具
孙宝强
2022-06-14 11:45

提要

不是数据在驱动人生,而是人的行动促使人们关注数据、掌握数据、分析数据,试图为自己的行动服务。因此,数据是人行动的结果,也是实现人行动目的的工具,它本身不是目的。

1

数据内涵丰富、动态变化

尽管人们经常谈论数据、使用数据,然而我们还没有形成一个一致的数据概念。与之相关的数字经济、数据经济、数据资产、数据要素更是存在争论。

从词源来看,数据的英文词“data”是一个复数名词,单数形式很少使用,表明数据是由多个数据构成的数据集合。data源自拉丁语“datum”,意思是“that which is given”,也就是“被赠予的东西”。

从现有的定义来看,数据有符号说、信息说、素材说和数字说或数值说四类。还有一种综合说,认为数据无所不包。数据是一个内涵丰富的概念,数据的内涵动态变化,外延不断扩展。从最为常见的数字,到文本、声音、图像、位置都可以归为数据,人和事物的行动轨迹都可以量化为数据。需要说明两点:第一,数经过整理加工才成为数据,单纯的数不属于数据;第二,信息具有主观性,甲认为是信息,乙可能认为是垃圾,因此将数据等同于信息不妥。

数据的概念莫衷一是,数据的分类更加纷繁复杂。我们常见的数据是统计数据,统计数据是统计工作活动过程中所取得的反映社会经济现象的数字资料以及与之相联系的其他资料的总称。统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。新闻媒体每月都会报道若干统计数据,如PPI、CPI、PMI。

按性质,数据可以分为定位数据,如坐标数据;定性数据,如优良中差;定量数据,如长度;定时数据,如年、月、日。按观察角度可以将数据分为横截面数据、时间序列数据和面板数据。按表现形式可以分为数字数据和模拟数据。按记录方式划分,数据可分为地图、表格、影像、磁带、纸带。在地理信息系统中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理与分析的要求。按来源划分,可以分为第一手数据、第二手数据。

数据包括数字、依据、时间、空间四个要素,四者不可分离。如果按照统计学的观点,数据包括口径、范围、时间三个要素。这一界定包括了数字、时间、依据,由于任何数据都有空间特征,因此还需补充空间要素。不同空间的数据往往难以比较,比如南京的雨和北京的雨在数字、时间、依据上可能完全一致,但是因为空间不同,因此还是有差异。当然,也有学者认为数据的存在没有过去和未来。

数据有很多定义,从奥地利学派的视角可以定义为:数据是人的行为的历史记录。可以说,只要有行为,就会有数据,关键是有无可靠的测量工具和记录工具。之所以人们对此毫无感觉,就如同我们生活在空气中,而未感觉到它一样,它成了自然而然的外部环境。当然,我们产生的数据未必都有贡献,这里涉及到主观价值论,在甲看来没有价值,在乙看来可能价值很大。

由于人的有限理性、主观差异等原因,统计数据未必能够全面准确反映统计对象的特征。这恰如统计专家所言,任何一项统计指标,都是人们对社会经济现象定性基础上的定量认识,鉴于社会经济现象的复杂性、随机性和不确定性特点,统计指标所表现出的定量数据并不一定能够完整地反映社会经济现象的发展变化。

2

数据是人行动的结果

荷兰统计学者桑内·布劳博士认为,“数字影响着我们吃什么、喝什么、在哪儿工作、挣多少钱、住哪儿、和谁结婚、投票给哪个党派、能否得到银行贷款,以及要交多少保险费。数字甚至还影响你是生病还是痊愈了,是活着还是死了。”政治学者李连江认为,平均值和标准差是驱动人生的两条鞭子,平均值让我们不甘落后,标准差让我们不随大流。自己距离平均数有多远,往往会影响着心情和行为。大学教授确定了升职的论文数量,医生确定了BMI等医学指数的正常范围,统计部门公布了平均工资,有关政府部门确定了入学、结婚、工作和退休年龄。当我们看到自己距离平均数太远时,往往会产生心情的波动。比如,当我们跑步时,会不自觉地对比软件上的平均步数,如果不想让自己落后就会加速快跑。

只要拥有可靠的测量仪器,人的任何行动都可以产生数据,这些数据都可以被加工。一个人从出生到死亡,随时都在产生数据,人或者接受调查贡献数据,或者从事调查工作取得数据,或者使用数据,或者三者兼有之。统计思想和工作在古代社会就开始了,只是受制于当时的思维、技术,人们感受不显著,在数据经济时代就十分显著了。可以毫不夸张地说,现代人的一生是与数据相伴相随的一生,人生与数据须臾不可分离。当然,人生产生的数据会经历一个范围扩大、数量增长,达到峰值后再逐步萎缩、直至消失的过程,等到生命结束时,一个人贡献数据也就画上了句号。显然,之后还可能产生与其有关的数据,这与其生前的多个因素有关,如名气、贡献、地位、财富、家庭、作为、外貌等。比如我们今天仍在生产孔子、亚里士多德等先贤的数据,而且当代的数据规模远超先贤在世时的数据规模。

当一个人呱呱坠地时,接生护士就记录了婴儿的出生地点、时间、身高、血型、体重、体温、父母亲名字和身份证号码,婴儿同时拥有了自己的身份证号码等数据,一般来说这些信息在人生中长期有效,并频繁使用。

当孩子稍微大一点,就要定期体检,产生了包括体重、身高和血常规数据等。当家长为孩子办理金融社保卡时,孩子就同时拥有了社保账户、银行账户。当家长为孩子购买玩具时,孩子的喜好就在父母等人的购物数据中得到体现。等到孩子要读幼儿园时,要建立学籍信息,这时孩子与家庭住址等数据捆绑在一起,在园期间产生了各种成长数据,包括体质测试、参与活动、成长评价数据等。读小学时开始,孩子的数据包括了各个科目的成绩、品德等,数据范围不断扩大。大学时期,随着活动的丰富,一个人贡献了更多样的数据,如出行、购物、参加社团、发表文章、义务劳动等。

从学校毕业后,人生进入社会大学,此时的数据范围不断扩大,体检、就业、工资、出差、婚恋、子女等相关数据不断产生,而且在不断增长。这一时期也是人生差异最大的时期,既可以体现为个体的地位、财富等方面,更能体现在生产数据方面,往往是行动越多的人贡献数据越多,使用的数据也越多。

人到中年,各个方面开始稳定,此时贡献的数据在范围上难以扩大,但数据量在持续增长;使用的数据往往在增长。起床、开机、运动、开车、通勤、上班、做饭、洗衣都产生数据。人到老年,绝大部分人贡献的数据范围在缩小,直到最后缩小为零。

为了增加论述的严密性,举一个极端的例子。一个在家自然分娩,终生不参与社会活动的人,也离不开数据吗?是的。即使你不参加任何活动,愿意成为现代“鲁滨逊”,也离不开数据。即使本人毫不关心,家人总会对比一下数据,比如孩子这个年龄的身高、体重等与同龄人相比是否正常,是不是需要干预等。

一般而言,一个人的活动范围越大、参与活动越多,贡献的数据越多,当然使用的数据也多。假设一个人不活动,或者仅仅在一个小范围内活动,一般而言贡献的数据与消耗的数据都不大。当然也有例外,如康德从未离开自己居住的柯尼斯堡小镇,但是其数据贡献很大,《纯粹理性批判》等名著是经典。

越来越多的APP和穿戴设备,比如跑步软件、汽车、智能手表等在不间断地搜集人的数据。在即将安装APP的时候,你都会无奈地勾选一个《用户协议》或《用户体验改善计划》,大概率是没有完整地看过就同意了,要点是无偿地将自己的使用数据上交。它们如同探针一样随时随地追踪人的动态,记录消费者购物、用餐、旅游、娱乐等轨迹,也就是数据。利用App生成的浏览、购物记录被计算机全程记录、整理,形成个体的画像。一些企业的大数据系统利用社会学的知识图谱,把人身份背后的隐含信息和搜索关键词信息结合起来去做推荐,往往具有较高的准确度。当然画像不是100%的准确,网站推荐的商品未必是我们想买的,只是根据以往记录推荐的,前提是假设过去的消费行为是今后的消费目标。大数据的发展就是大公司成功运用APP、网页等全程收集用户信息,倾力提高计算力,发展人工智能算法的过程。

需要明确的是,大数据的来源是网络,不上网的人就无法被收集数据。不是数据在驱动人生,而是人的行动促使人们关注数据、掌握数据、分析数据,试图为自己的行动服务。因此,数据是人行动的结果,也是实现人行动目的的工具,它本身不是目的。

(作者系经济学者)

(原标题《数据是实现人行动目的的工具》)

编辑 编辑-黄小菊(客户端)审读 吴剑林审核 编辑-郑蔚珩(客户端)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页