数据价值评估模型研究
前言
随着数字经济的发展,人们越来越重视数据估值。数据作为一项资产在企业和公共部门的重要性迅速增加,各组织正在努力这样对待它。然而,这仍然是一个挑战,因为数据是一种无形资产。如今,没有衡量数据价值的标准。大家熟知的方法包括基于市场的数据估值、经济数据估值模型和对数据应用维度的估值模型。本文的第一部分(数据评估框架)研究了这些方法,并提出了对它们进行分组的框架。本文的第二部分(构建多维数据评估模型并为其评分)描述了我们如何构建数据评估模型并为其评分。
关键词:数据估值,无形资产,数据作为资产,数据货币化,数据估值模型,数据估值框架
我们经常听说数据正在成为经济中的新货币(例如,Keller, 2020年)。这清楚地表明,作为一个社会,我们希望有一种具体的方式来评估数据的价值。
如今,企业投资于数据的未来价值,以巨额资金收购竞争对手。政府根据可获得的数据来估计未来的经济繁荣程度。最后,我们中的许多人显式或隐式的计算特定数据集在改善业务结果方面的价值。这些方法的存在表明,我们正在努力数据货币化。然而,这些不同的数据估值方法突出表明,我们仍在试验一种可重复的方法来评估数据的价值。
在过去的二三十年里,研究人员越来越多地寻求定义一种可重复的数据估值方法。数据估值的方法通常分为三类,我们将分析这些方法的特点、差异和共性,并强调它们的优势和挑战。我们还可以看一看每种方法的实际示例。然后,我们将更仔细地研究其中一种方法,并扩展使用它来评估数据的尝试。在这样做的过程中,我们开发了一个易于使用、可重复的模型来为两个用例评估数据。目前不存在单一的数据估值方法,可以根据用例使用不同的方法,甚至是方法的组合。
1.概述
作为数据管理的长期从业者,我们对“数据作为资产”的许多引用感到震惊。这意味着数据的估值应该与传统资产类似。当市场存在时,未来效益的贴现值可以用货币来衡量。然而,当市场不存在时,数据的价值必须更有创造性地计算。例如:
•许多组织受益于人们免费提供的数据。免费提供的数据的价值取决于解释。在最近的一项大规模调查中,研究人员估计了个人放弃某些数据密集型应用程序(如电子邮件、地图和社交媒体)所需的补偿。例如,他们估计,Facebook的典型美国用户可能需要每月48美元才能放弃这些数据(Brynjolfsson等人,2019年)。这个数字略高一些,但与Facebook的收入除以用户数量所显示的大约每用户27美元大致相同。
•2011年对英国公共部门数据的市场估值为18亿英镑(Deloitte, 2013)。这包括对公共部门数据销售的直接价值,对与公共数据交互的实体的直接价值,以及影响供应链的间接价值。当考虑到数据重用和更广泛的社会影响等因素时,这个估计的价值增加了三倍。
•有时,在没有市场存在的情况下,数据的价值只能用相对价值来表示,而不能用货币价值来表示。例如,在最近的新冠病毒流行期间,汇集了许多数据源,而且往往是免费提供的。包括医院、研究机构、政府和学术界在内的实体必须通过检查一系列因素,包括数据量和种类、数据质量和更新频率,来决定哪些数据源最适合他们。这些因素不容易用货币来表达。相反,组织必须通过隐式或显式地对它们的价值进行评分来相对地评估它们的价值。
为了更好地理解如何将价值应用于数据,我们采用了双重方法。首先,对已经尝试过的方法进行了回顾。其次,基于少量的真实数据构建了一个数据估值模型。
通过研究发现了许多关于估计数据价值的研究和执行。没有标准的数据评估方法,并且根据用例的不同,观点也有很大的不同。基于我们的发现,我们创建了一个框架,将数据估值方法分为三个模型:基于市场的、经济的和维度的。
我们发现,在买卖数据或数据密集型业务(基于市场)时,企业通常根据成本和收入来估计数据的价值。政府对数据估值的方法集中在估算数据可用带来的经济效益上——例如,公开提供人口普查、交通和健康数据等政府数据,以期刺激预定的经济增长(经济)。第三种方法利用数据维度(维度)。这种方法检查特定数据集的估值点,包括数据固有的价值点,如数据质量(例如,完整性、准确性、及时性),以及与价值数据相关的价值点(例如,使用频率、所有权)。例如,组织经常根据这些维度决定是获取或保留一个数据集还是另一个类似的数据集。
研究表明,每个模型都可以在不同的情况下使用,这些方法均不适用于所有情况。所有模型都是推测性的,并受数据外部环境的影响。我们还注意到这三种模型相互重叠。例如,政府政策和法律法规(如隐私保护)会影响所有模型。正确的方法取决于给定的用例。它们可以作为数据评估框架的基础,每个用例利用一个或多个模型。
那么如何构建多维数据评估模型并对其进行评分呢?我们设计了一份包含30个问题的调查。我们使用维度模型研究作为基线,并以之前的工作为基础,提出的数据估值是基于所有权、成本、效用、年龄、隐私、数据质量、数量和多样性等维度。
维度模型最适合比较一个数据集与另一个数据集。因此,我们重点讨论了两个用例:如何比较两个相似数据集的价值,以及如何评估向现有数据池添加数据集的价值。我们通过研究持有不同观点的利益相关者如何以不同的方式衡量和评估维度,对先前的工作进行了扩展。例如,我们研究了政府、研究机构、医院和学术机构如何以不同的方式衡量某些问题。
我们的目标是设计一种易于使用的、可定制的方法,帮助组织使用一个小的、一致的维度集来评估特定用例的特定数据集的价值。我们的评分反映了数据集的相对价值。它在一些比较中显示出明显的差异,而在另一些比较中则显示出更细微的差异。我们得出的结论是,我们的模型可以有效地用作确定数据集价值的基线,并且分数的权重可以根据上下文和利益相关者的观点而显著变化。
2.数据评估框架
2.1. 数据评估模型
我们回顾了从40多年前到今天的许多数据估值的例子。通过对先前方法的研究,我们得出了一个数据评估框架,该框架将数据评估方法分为三个模型。我们将其定义如下:
•基于市场的模型:基于收入(例如,销售数据)、成本(例如,购买数据)和/或股票价值(例如,数据密集型组织的价值)来评估数据。组织经常买卖数据和数据密集型公司。
•经济评估模型:根据数据的经济影响来评估其价值。政府经常使用这个模型来评估公开数据的价值。例如,政府共享天气数据,这有助于维持天气预报的生态系统。
•维度评估:模型通过评估数据集固有的属性(例如,数据量、种类和质量)以及数据使用的上下文(例如,数据将如何使用以及如何与其他数据集成)来评估数据的价值。例如,组织固有地决定获取、保留或优先考虑几个相似但不同的数据集中的一个。到目前为止,这是一个非正式的过程。
这种分组允许来自行业和政府的数据研究人员、从业者和政策制定者更好地处理数据估值。表1总结了数据评估框架。它提供了每个模型中包含的方法类型的概述。随后的章节将为每个模型提供示例,详细描述每个模型,以及每个模型的优点和挑战。
表1数据评估框架
2.2.模型的重叠
虽然这三个模型是不同的,并且应用于特定的用例,但它们之间有重叠。例如,政府政策和法律法规(如隐私)会影响所有模型。类似地,调查问题可以适应构建任何模型。最后,我们看到成本和效用(有时以财务术语表示)被用作所有模型的估值方法。这种重叠突出了三种模型的潜在相似性以及它们自身的独特性。图1反映了的差异和三种评估方法的共性。
2.3.市场模型实例
基于市场的数据估值方法是实物资产估值的延伸。就像实物资产一样,数据可以根据其成本、销售价值或潜在收入进行估值(美国国税局[IRS], 2020年)。除了这些数据估值方法外,除了采购成本,公司还使用至少两种不同形式的成本。第一个是数据估值的保险成本-数据损失的成本是什么?其次是评估竞争对手数据的价值,有时还需要支付购买费用。以下是基于市场的数据估值的一些例子:
•买卖数据
Acxiom、Equifax和Dun & Bradstreet是只买卖数据的公司。他们汇总这些数据,并对其进行增强和重新包装以供消费。这些数据经纪人利用成本和它在市场上所能获得的收入来评估他们的数据。
用于营销的电子邮件地址可在公开市场上购买。例如,在2014年,可以用75.95美元购买400万封电子邮件(Nash, 2014)。
•利用数据来改进产品或服务
普华永道通过从数据中获得投资财务回报的效率更高的公司——数据信托的领跑者——通常会使用成本效益分析明确评估其数据的价值(普华永道,2017年)来营销其服务。
大型零售商正在向供应商出售他们的采购数据,供应商急于购买这些数据,以改善其产品的上市时间(Najjar & Kettinger, 2013)。
•通过相关数据产品或服务提升客户体验
联邦快递为客户提供在线包裹跟踪服务,提升了包裹递送服务。因此,这些数据可以通过它产生的额外业务来衡量。
公司经常提供高级版本的软件或免费应用程序,包括天气、健身跟踪和分析平台。Spotify和Netflix等公司利用客户数据向用户提供增强的流媒体内容和推荐。
•评估数据泄露或损失的价值
随着数据泄露和数据勒索的增加,公司通常会进行数据估值,以确定为其信息资产购买多少保险以及什么样的保险。在这里,数据的价值是根据罚款、客户损失和防止未来违规的成本来定义的。请注意,公司可能想要为一个离散的数据或知识产权投保。一般来说,答案是无法做到这一点,因为很难对数据进行离散的估值(Najjar & Kettinger, 2013)。
一位观察家指出,TJX公司在2007年披露的泄露事件估计使该公司在超过4600万条记录上损失了至少1.8亿美元,计算出每个客户记录的价值超过4美元——这不禁让人怀疑,一个理论上的保险公司如何提前进入该公司制定这样的政策,并计算出价值(Todd, 2015)。
•购买或出售数据型公司
有很多公司为了数据而收购其他公司的例子,这些数据在很大程度上决定了它们在市场上的价值。举个例子,2016年,微软公司以262亿美元收购了在线职业网络领英公司(微软,2022年)。其他例子包括谷歌收购YouTube(17亿美元,2006年)、Nest(32亿美元,2014年)和Ftbit(21亿美元,2019年)或Facebook收购Instagram(10亿美元,2012年)和WhatsApp(220亿美元,2014年)。
2.4.经济模型实例
我们发现了两种关于经济模型的研究:一种明确估计开放数据的价值,另一种关注政策如何创造公共数据价值。以下是一些经济模型的例子:
•太空对地观测的经济价值。对地理空间数据对澳大利亚经济价值的评估审查了气象监测卫星数据的影响;海洋健康;以及石油钻探、景观监测、农业、水监测、自然灾害管理和采矿等活动。该评估于2015年完成,预计将为澳大利亚公众带来总计约30亿美元的经济、社会和环境效益(Acil Allen Consulting, 2015)。
•人口普查数据的经济价值。一份量化了使用人口普查和人口信息给新西兰带来的好处的报告估计了人口普查数据在以下领域的价值:改善保健资金、减少使用未充分利用的资本投资、制定更精确政策的能力以及对政府和私营公司的总体利益。该报告的结论是,尽管在制定严格的量化方面存在重大困难,但人口普查数据显示,在25年内,新西兰公众(< 500万人口)受益10亿美元(Bakker, 2013)。
•加州消费者隐私法(2018年)。该规定将于2020年1月生效,要求企业在提供某些服务时,提供合理和诚信的方法来计算消费者数据的价值。
•数据销售税收。纽约市正在立法制定数据销售税。该提案的作者概述了四步方法,第一步是“量化纽约人产生的数据量,并将其商业化以获取利润。(Adams & Gounardes, 2020)与此类似,加利福尼亚州州长加文·纽瑟姆(Gavin Newsom)在2019年责成一个团队研究“数据红利”,即向消费者或国家出售个人数据所支付的税款(Ulloa, 2019)。
2.5.维度模型示例
除了基于市场和经济的数据估值模型之外,许多研究试图量化其他类别或“维度”来评估数据的价值。这些维度是基于数据本身(例如,数据质量)以及数据使用的环境(例如,交付的及时性)。我们把这种方法称为维度模型。
我们发现了用于评估维度模型的不同方法,包括使用数学公式、调查问题、对先前研究的检查,以及对数据资产进行分类的实际尝试。应用数学公式的一个例子是道格·兰尼(Doug Laney, 2018, p. 253)在他的《信息经济学》一书中使用的计算信息的商业价值:
信息的业务价值=
*有效性*完整性*时效性
其中p =业务流程功能的数量。
其他模型使用的调查包括要求受访者评估特定的数据集特征,如数据的年龄、准确性、运营价值和重置成本。我们对先前的研究进行了大量检查,其中一些研究探讨了添加新维度对数据估值的影响。我们还发现了一些研究,这些研究检查了维度在实际用例中的应用。例如,一项研究根据用例将使用情况分类为日志分析、识别数据消费者或查看/下载数量(Brennan等人,2018年)。
尽管我们经常使用维度模型进行非正式的评估,但我们发现了有限的已发表的实际示例。在一个例子中,管理道路和相关基础设施数据的英国高速公路公司(Highways England)研究了其1150亿英镑无形资产中有多少可归因于数据。它将关键数据资产映射到业务功能及其财务价值,通过对每个数据资产的潜在市场价值的评估进行调整,以显示该组织的数据价值600亿英镑(Laney, 2021)。
3.数据评估模型分析
3.1.以市场为基础的模型
3.1.1.市场模型概述
该模型的关键特征是它使用收入或成本来评估数据。我们发现,基于市场的数据估值模型被广泛应用。有关这一模式的政策制定仍在发展中。目前,它类似于其他无形资产(如专利、版权或软件)的估值技术。事实上,美国国税局评估无形资产的指导方针将“技术数据”列为一种无形资产(IRS, 2020)。根据美国国税局的说法,无形资产的价值可以用与有形资产相同的方式来确定:使用成本基础,衡量资产在市场上的价值,或者根据相关资产的潜在收入来确定资产的价值。
3.1.2.市场模型优势
基于市场的模型基于市场将支付的价格对数据进行货币估值,估值是否基于预期收入,以数据为导向的公司可能在销售中获得多少,或者对数据损失价值的推测。
在成本方面,基于市场的模型计算数据泄露或损失的成本以及保险成本。同样,公司也会评估让竞争对手进入市场的成本,有时还会根据竞争对手数据的预期价值来决定收购这些竞争对手。
数据甚至可以在交易所被买卖。个人和商业数据的数据市场的例子开始出现(参见,例如,Dilmegani, 2022)。这种情况也发生在非法市场的数据上,比如信用卡和社会安全号码。合法交易数据的正式交换是否可持续还有待观察。
3.1.3.市场模型的挑战
基于市场的模式面临的一个挑战是,数据之外的因素,比如人的因素,可能会发挥作用。另一个挑战是数据买家和卖家的市场规模小,导致比较一笔交易与另一笔交易的能力有限(例如,大多数人不共享价格)。此外,虽然有数据经纪人收集并出售信息,但他们对信息质量的问责有时是有问题的,而且这些市场不透明(联邦贸易委员会,2014)。
以市场为基础的模式也没有考虑消费者创造的数据的价值,而企业则通过这些数据获得广告收入。关于对个人数据的边际使用征税在多大程度上可能有利于公众,而不是抑制组织创建用户信息市场(Bergemann & Bonatti, 2019),存在争议。
基于市场的数据估值也受到当地市场限制的影响。例如,公司可能会产生成本,以遵守在本地存储个人数据的要求。公司必须考虑本地盗版、偏袒本地竞争者和审查制度的风险。这些类型的本地限制最终会影响到数据的价值。
3.2.经济模式
3.2.1.经济模型概述
经济模型从整体经济和公共利益的角度来评估数据。经济效益可能会考虑整体的就业增长,而公共效益可能会考虑对隐私、健康和基础设施的影响等社会效益。在某些情况下,使用经济模型的数据估值与使用市场模型完全相反。例如,很多工作都是基于大数据的循证医疗保健,它依赖于来自许多来源的广泛数据,包括提供者、支付方(即保险公司)和个人(例如健康应用程序;Harwich & Lasko-Skinner, 2018)。经济模型可能会为公众考虑这些数据的整体价值,而工业可能会利用基于市场的模型来降低成本或增加其部门的收入。我们发现了许多关于为公共利益评估数据的研究(例如,开放数据观察,2021年)。这些研究通常是代表政府进行的。他们估计数据对经济的价值,如地理空间数据、人口普查数据或一般的公共部门数据。
3.2.2.经济模式优势
经济模型的优势在于,它在两类研究中关注公共利益的数据估值:一类是评估开放数据的价值,另一类是建议使用政策来推动公共数据价值的研究。前者政府和私营部门如何利用开放数据来产生经济效益。后者讨论了调整政策以实现同样的利益。经济模型正被积极用于确定数据的价值。例如:
•通过聚合来自多个来源的数据来生成价值。有效数据聚合的一个例子是英国水文局(UKHO)在地表水和地理空间测量方面从纸质地图过渡到数字地图。这种数字转换使UKHO能够汇总测绘数据,包括其他不同来源,然后应用分析。如今,除了皇家海军和国防部,90%的国际贸易船只都使用这一数据,每年产生1.5亿英镑(英国财政部,2018年)。
•公共机构提供的数据往往会刺激私人创新。由政府生成的天气数据和交通数据定期得到增强,并免费或收费提供给社会(例如,付费版本)。
一些观察人士认为,经济模型可以通过支持有利于竞争的政策来刺激增强的数据访问,使少数公司更难囤积此类数据(Coyle et al., 2020)。
经济模型正在探索个人数据的估值,方法是提取直接向最终用户或国家缴纳的数据使用税。
经济模型可以指定数据所有权。今天的数据所有权还没有很好的定义。因此,事实上的所有权是很普遍的。制定有关数据所有权的法律,例如将个人数据所有权分配给个人的隐私法,将显著地使数据价值向有利于所有者的方向转变。
3.2.3.经济模式挑战
经济模型的计算范围有限,验证时间长。经济模式在一定程度上得到了执行,但与市场模型不同的是,经济模式在实践中进展缓慢。这可能是因为它们的影响——无论是好是坏——都很重要,而且没有利润动机。政府小心行事以避免负面影响。挑战的例子包括:
•过分严格的法律或政策可能会对数据的价值产生负面影响,阻碍竞争和广泛的数据重用。这样的法律可能会导致公司囤积数据,违背经济模型的目的。例如,过于严格的隐私法对经济的潜在负面影响可能超过其预期的好处(Jones & Tonetti, 2019)。
•与实物商品不同,数据的流动是不被跟踪的。这可能需要企业或国家之间的数据流动,或向最终用户提供免费服务,如电子邮件、搜索结果或驾驶指南。因此,诸如无报酬数据创建、数据重用和跨境流动等活动的数据价值很难包括在模型中(经济合作与发展组织[OECD], 2019;美国商务部,2016)。
经济模型根据预期的财务和社会效益反映数据估值。基于数据评估社会福利尤其具有挑战性。
知识产权法的目的是维护创新与公共利益之间的平衡。这种方法已经在有限的数据上进行了尝试。例如,英国1997年的《数据库版权和权利条例》允许对数据库(包括内容)进行版权保护。一些研究表明,强大的外部性,例如从许多来源汇总数据的好处,使得类似版权的保护不太适合数据(Duch-Brown et al., 2017)。
3.3.维度模型
3.3.1.维度模型概述
许多研究通过维度来评估数据的价值。这些维度基于数据本身(例如,数据质量、年龄、格式)以及数据使用的上下文(例如,时间节省、所有权级别、交付频率)。
•Niv Ahituv(1980)的一项早期研究检验了评估数据系统的数学公式,包括时效性(响应时间和频率)、非期望数据的级别、数据聚合的价值、格式(介质、数据组织和数据表示)和数据重要性的排名。同一作者的后续研究调查了信息估值的属性,包括及时性、内容、格式和成本(Ahituv, 1989)。
•Daniel Moody和Peter Walsh(1999)对数据进行了一项经常被引用的研究,研究了基于会计实践的信息价值的不同方法,即成本、市场价值和预期收入潜力的现值。作者得出结论,这些是最有效的估值参数。作者还研究了传播理论,试图根据传播的信息量来衡量信息的价值。他们正确地得出结论,这忽略了内容的价值,并不是一种有用的数据估值方法。
最近,Gianluigi Viscusi和Carlo Batini(2017)进行了编译,记录了先前使用维度数据估值的各种研究。该汇编反映了信息质量(例如,准确性、及时性、可信度)和信息结构(例如,抽象化、编纂)的使用情况。它重申了效用(财务价值)作为数据估值类别的重要性。此外,该研究还强调了信息扩散(例如,稀缺性、共享)和基础设施(例如,抽象性、嵌入性)作为关键数据估值类别。
•2018年,高德纳(Gartner)当时的分析师兼作家道格拉斯·兰尼(Douglas Laney)普及了“信息经济学”(Infonomics)的概念,旨在集中讨论将数据作为一种资产进行评估。他讨论了几个模型,其中至少有两个(数据的内在价值和业务价值)涉及数据维度。
表2总结了对维度数据评估模型的研究。值得注意的是,一些类别,如数据成本、质量和效用,在多项研究中重复出现,这表明它们是特别有价值的维度。
表2使用维度模型进行数据评估的先前方法的总结
3.3.2. 维度模型优势
维度模型包含了特定于数据的和上下文相关的属性,比如数据质量和管理,其他模型忽略了这些属性。这些属性强调了数据的有效使用。它们在很大程度上是数据管理和成熟度模型的重点,例如能力成熟度模型集成数据成熟度模型(CMMI研究所,2022年)、联邦数据成熟度模型(数据内阁,2018年)和数据管理协会的数据管理知识体系(DAMA国际,2020年)。维度模型的其他优点包括:
•数据维度对于相似数据集的相对比较很有用。
•这个模型适用于调查问题。它可以让业务用户简单而直接地评估关键数据维度。
•数据维度可以扩展其他模型的估值方法。例如,数据聚合——被视为经济模型的优势之一——使用高质量数据比使用低质量数据进行类似的聚合更有益。同样,数据的买卖也高度依赖于数据的准确性和及时性等因素。
•该模型促进了数据维度的标准定义,这将导致更广泛的采用。这加强了对数据管理的投资,最终创建更好、更一致的数据。
一些维度相互馈入其他维度。例如,及时性、准确性、生命周期和其他可能是成本和效用的因素,这是两个最普遍和最有用的维度。能够分解和比较这些术语中的成本和效用,可以对数据估值进行简明的评估。
3.3.3.维度模型挑战
该模型的主要挑战如下:
•价值可能会根据诸如谁使用数据以及用于什么目的等因素而有很大差异。例如,欺诈检测依赖于近实时数据,以数据质量为代价。或者,使用相同的数据对购买历史进行分析需要更高的数据质量,并可能造成严重的延迟。
•相似的数据集可能是不可替代的。在某些情况下,各种数据集可能包含相似但略有不同的信息,因此可能具有不同的值。由于这种不相似性,数据资产并不总是容易比较或替代(Yousif, 2015)。
•该模型中的数据价值通常通过调查问题来衡量。即使我们可以清楚地定义每个维度以及如何衡量,估值也需要解释。不同的调查对象可能会对数据质量或管理的需求有不同的解释。
这个模型仍在发展,我们发现的调查规模很小。调查的执行成本很高。我们的目标是,随着时间的推移,我们可以利用一个更大的数据集池来充分标准化和简化调查问题。虽然可以根据维度确定两个不同数据集的相对价值,但将该值转换为货币术语可能需要对给定数据集进行基于市场或经济模型的二次应用。
4.建立和评价多维数据评估模型
我们围绕一组扩展的维度设计了大约30个问题的调查,包括数据的内在(例如,数据质量)和上下文(例如,数据使用)。对于数据,我们利用了三种类型的数据集:COVID-19数据、航班调度和导航数据以及选民数据。我们检查了两个用例:
•一个数据集的值如何与类似的数据集(航班调度和导航,选民数据)进行比较;
•给定数据集如何为现有数据(COVID-19数据)增加价值。
为了定义维度,我们利用了第2节和第3节中描述的研究,并对该研究进行了扩展。因此,我们创建了关于成本、年龄和所有权的问题,并围绕隐私、许可限制、数量和种类等维度添加了其他问题。
我们利用专业的数据管理经验为每个问题打分,并对分数进行加权,在某些情况下,从不同的角度对数据集进行评分。
4.1.模型设计
我们的目标是创建一个简单的、不太耗时的、多个涉众(包括业务方面的分析师、工程师和高管)都可以使用的模型。以下是我们的步骤:
我们基于先前研究中发现的维度,特别是那些反复反映的维度,为我们的模型基础。我们还依靠在数据管理方面的经验来确认某些维度,如使用、成本和数据质量,对数据估值是有用的。
我们围绕评估维度创建了一组调查问题,随后用于对样本数据集的值进行评分,同时对数据集进行评分以获得一个值,然后通过增加新的维度、增加加权评分以及从不同角度评分来扩展先前的研究。
4.1.1.调查设计
在我们的研究中,看到维度模型的有限设计和执行。在一个例子中,一个团队要求16个不同的参与者根据一组标准问题评估他们的数据集。他们确定,某些维度,如运营影响、重置成本和及时性,比竞争优势或监管风险等其他维度对数据估值的贡献更大(Brennan等人,2019年)。
我们的目标是创建一个简单的、不太耗时的、多个涉众(包括业务方面的分析师、工程师和高管)都可以使用的模型。我们认为我们的模型可以作为初始评估,并指出评估人员可以更详细地探索的领域(例如,成本、使用、数据质量)。我们追求的是简单和速度,而不是细节的精确。虽然这样的模型可能不能提供所有的答案,但它可以指出数据集的相对价值,突出潜在的风险,并促进明智的决策。
我们的重点是针对两个用例执行数据估值。我们最初的用例旨在比较相似数据集的值。为此,我们使用了两个相似的航班调度和导航数据集以及两个相似的选民数据集。根据经验,我们知道这对于任何想要减少类似数据源数量或想要用类似但更好的数据集替换现有数据集(例如,更低成本、更可靠、更少维护)的大型组织都是有用的。
通过与几个内部项目合作,我们制定了第二个用例。这些项目需要评估向现有数据池中添加新数据。为此,我们使用了COVID-19基线数据集,并在其中添加了其他数据。因此,我们的第二个用例变成了现有数据的价值与现有数据加上新数据的价值的比较。数据集部分将更详细地讨论我们的数据集。
通过我们的研究和数据映射,很清楚哪些维度很重要。我们的维度扩展了之前的工作,并通过反复测试和与利益相关者的互动而不断发展。最后,我们通过询问所有权、成本、效用、年龄、隐私、数据质量、数量和种类等维度的问题,找到了最佳结果。表3反映了最终的一组维度。
接下来,我们开始在每个维度中制定问题和一组相关的答案。对于答案,我们分配递增的积分值,给认为价值最低的答案加一分,并为认为价值更高的答案加一分。我们利用自己作为研究人员的经验,以及在政府机构和行业工作的不同背景,制定了这些问题。
然后开始将这些问题和答案应用到数据集和透视图中。在这个过程中,我们在问题中寻找冗余、清晰和空白。对于冗余,删除了不需要的或重复的问题。由于缺乏清晰度,重新措辞了问题和答案,使它们更容易阅读和理解。对于空白,添加了缺失的问题。这一过程在本质上是重复的,并导致了一系列精确的问题和答案。
4.1.2.数据集
对于数据,我们利用了三种类型的数据集。具体而言,对于COVID-19,利用了病例/死亡率、检测和疫苗接种数据集;对于航班调度和导航,利用了类似的供应商编译的数据集;对于选民数据,利用了两个州的数据:俄亥俄州和北卡罗来纳州。这些数据集要么是公开的(COVID-19,约翰霍普金斯大学,2021年;选民数据,美国选举援助委员会,2020年),或者,在航班调度和导航数据的情况下可以访问。
对于航班调度,我们使用了在不同时间购买的两个自有数据集。对于导航数据集,我们使用了一个免费提供的数据集和一个购买的类似数据集。约翰霍普金斯大学冠状病毒资源中心(JHU)公开提供了COVID-19数据集,美国选举援助委员会公开提供了选民数据。同时使用购买和免费数据集的一个动机是,我们可以明确地将成本因素考虑到数据估值比较中。例如,这可以验证一个更昂贵的数据集是否有更多的数据或更高的数据质量。我们之所以使用COVID-19和选民数据,是因为这些数据免费、流行、丰富、质量好、非常适合不同的观点,而且易于增加多样性,而且可以很好地混合在一起。这种方法使我们能够检查各种比较。
4.2.得分
为了对数据估值进行评分,我们利用了自己与行业和政府合作的经验。首先为每个问题分配一个原始分数。我们是根据分数来计算原始分数的。我们将对数据集的值贡献最小的答案赋为1,并将对数据集的值贡献最大的答案得分最高的每个后续答案的值增加1。由于有些问题的答案比其他问题多,所以所有问题的可能得分并不相同。为了标准化这个过程,我们添加了一个转换因子,这样答案多的问题就不会自动比答案少的问题得分高。最后,我们为每个分数添加了1到5之间的权重因子。这可以作为一个问题相对于所有其他问题的重要性的指标。
在存在不同视图的情况下,我们根据视图考虑不同的权重。我们通过反复试验得出了这个设计,注意到某些维度或某个维度内的调查问题可能对某些组织比其他组织更重要。
我们从政府、医院、JHU和公共服务研究组织的角度研究了COVID-19数据的价值。关于航班调度和导航数据,我们调查了一家供应商、政府和一家公共服务研究机构。
下面的表格是我们评分的示例:
表4反映了两个相似数据集(在本例中为航班调度数据)比较的数据质量维度。我们可以清楚地看到,数据集2的数据质量高于数据集1。值得注意的是,除了数据质量评分外,数据集2的成本、使用、年龄、数量和种类评分也更高。
表5反映了我们在数量和种类维度上对COVID-19评分的示例。在这里,反映了将检测和疫苗接种数据添加到COVID-19病例和死亡率数据中如何提高估值。值得注意的是,除了数据质量评分外,合并数据的使用评分要高得多。此外,成本和所有权不是因素,因为这两个数据集在创作共用许可下都是公开的。
表6显示了不同组织对COVID-19数据集的不同评价。在这里,我们再次展示了COVID-19评估的数量和种类的示例,但从四个不同的角度来看:政府、研究机构、医院和JHU。这些观点都是基于我们自己的最佳猜测。
表4比较两个相似数据集示例
表5 使用实例向已有数据池添加数据的示例
请注意:JHU为约翰霍普金斯大学冠状病毒资源中心
表6不同的观点的例子
请注意:JHU为约翰霍普金斯大学冠状病毒资源中心
4.3.发现
我们的评分验证了典型的假设。例如:
•当比较两个相似的数据集时,更高的成本也表明更高的数据质量、更多的使用、更多的历史、更大的容量和多样性。这体现在两个航班调度数据集的比较中。
•对于飞行导航,数据集1是免费授权的,而数据集2是购买的。对比显示,数据集2虽然获取成本更高,但在使用方面的比率明显更高,包括包含元数据、易于与其他数据集集成、包含额外资源以及受欢迎程度。数据集2在数据质量、数量和多样性方面得分也更高。
•在比较为现有数据增加价值的数据集时,合并后的数据集得分更高。这反映在COVID-19数据中,病例/死亡和检测/疫苗接种数据的使用率明显高于病例/死亡数据。然而,我们的案例很简单,将一个小数据集添加到另一个相对较小的数据集。我们预计,将一个小数据集添加到一个大数据池中可能并不总是会导致这种结果。
这些数据集各有优缺点。这有时会使估值趋于平衡。例如:
•对于飞行导航,数据集2是购买的,这使得它比许可的数据集1更有价值。但是,数据集1在组织内共享的限制较少。
•对于COVID-19数据,将检测/疫苗接种数据添加到病例/死亡数据中,可以显著提高数据的多样性和数量。然而,这种增加的数量和种类增加了维护数据集的成本。
背景很重要。例如:
•对于航班调度数据,我们从三个角度打分:供应商、政府和研究机构。我们的一个使用问题是关于使用频率的,对于政府和研究机构来说是每天使用,但对于供应商来说很少。这意味着供应商的值更低,这是违反直觉的,因为供应商将从数据集中获利。因此,供应商可能会给这个问题一个低权重或根本不权重。
•在隐私方面,我们对个人可识别信息(PII)以及数据集是否满足要求的隐私合规性进行了评分。在选民数据的情况下,两个数据集都包含PII,我们认为PII值更高。这样的数据对各种分析都很有用。然而,要满足隐私合规性,组织可能需要屏蔽PII数据,在这种情况下,它可能会对被屏蔽的数据给予更高的价值。
•不同利益相关者(如政府、研究组织、医院和JHU)对COVID-19数据回答新问题的能力或愿望可能有所不同。虽然我们没有让这些组织的利益相关者参与进来,但我们假设COVID-19数据集更有可能被政府和研究组织用于分析。
•当数据集伴随着额外的资源时,它会更有价值。对于导航和飞行调度数据来说,当伴随着完整的元数据集和其他资源(如代码、数据分析、报告或其他查找)时,数据集的价值就会增加。同样的情况也适用于选民数据,其中一个数据集提供了解释所有字段的完整元数据。
我们的团队尝试了很多不同的权重。最后,我们使用了我们认为合理的权重。我们还得出结论,权重是非常具体的上下文。例如,成本可能对特定的利益相关者或在特定的上下文中更重要。我们意识到权重也可能因视角而异。虽然我们的权重在1到5之间,但我们鼓励用户以适合自己的方式来尝试权重。该调查为利益相关者提供了一个蓝图,以记录他们对数据集价值的专业意见。
有些情况我们无法调查。例如:
•我们的评分反映了一些维度比其他维度更重要(例如,使用量、数据质量、数量和多样性)。然而,我们对数据集的抽样很小,而且在关键方面(如成本、所有权)存在差异。我们需要获得更大的数据集样本,才能有信心地说,某些维度或问题在所有情况下都更重要。
•作为我们研究的一部分,我们简要地试验了依赖关系。例如,可以从询问组织是否拥有给定的数据集开始,然后评估其他备选方案,例如成本、使用情况或数据质量。我们发现,记录这种依赖关系很快就会导致许多复杂的线程,而没有任何证据表明从一个维度/问题开始,然后再从另一个维度/问题开始比另一个方法更正确。
•对于给定的数据集,数据固有的原始得分(例如,数据质量、隐私、数量和多样性)在持有不同观点的利益相关者之间保持相同。只有与数据分离的维度(例如,所有权、使用、成本)的分数才会变化。也就是说,例如,数据质量的定义是数据在多大程度上适合于预期的用途。这可能会使给定的数据集更适合一个组织而不是另一个组织。类似的概念也可以用于其他维度,比如隐私、数量和多样性。
•我们意识到给定数据集的价值对于涉众来说可能是不同的。这导致我们首先添加不同的视角,然后为每个视角包含权重。这也让我们发现了一些未解之谜。例如,对于COVID-19数据,JHU获取数据,整理数据,然后免费提供给无需以相同方式整理数据的其他人。然而,事实证明,将数据争吵折叠到获取成本中是困难的,因为我们认为自由获取的数据在成本维度中更有价值。在这里,我们试图反转估值评分,将获得成本较高的数据给予最高分。虽然这从不同角度解决了COVID-19模型的问题,但该方法并不适用于其他数据集估值。我们无法解决高度重视免费数据的同时也考虑沉没成本价值的悖论。
我们能够使用基于分数的方法确定基于维度的两个不同数据集的相对值。将该价值转换为货币术语可能需要对给定的数据集进行基于市场或经济模型的二次应用。
我们预计,如果有足够的调查反馈数据库,就有可能将人工智能和机器学习应用到这些调查中,以便更自动地完成调查。我们知道这需要记录许多额外的用例。
5.结论
决定利用哪个模型在很大程度上依赖于给定的用例(例如,收购一家数据密集型公司,计算数据政策的经济影响,或对数据集进行内部评估)。我们的初步研究表明,每个模型在不同的情况下最有用,没有一种单独的方法在所有情况下都有效。我们还发现了模型之间的重叠(例如,成本、效用、政策)。根据上下文的不同,这三个模型可以结合使用。
参考文献:A Review of Data Valuation Approaches and Building and Scoring a Data Valuation Model Mike Fleckenstein, Ali Obaidi, and Nektaria Tryfona
本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。