摘要
在物联网时代,敏感和非敏感数据被记录并传输到多个服务提供商和物联网平台,旨在通过提供高质量的服务来提高我们的生活质量。然而,在某些情况下,这些数据可能会提供给感兴趣的第三方,他们可以分析这些数据,以期获得进一步的知识,并产生关于用户的新见解,最终可以用于自己的利益。这种困境提出了一个关键问题,即用户的隐私以及他们对个人数据如何被共享和潜在使用的认识。健身追踪器使用量的巨大增长进一步增加了生成、处理、可能共享或出售给第三方的用户数据量,从而能够提取有关用户的进一步见解。在这项工作中,我们调查了对健身追踪器收集的数据的分析和利用是否会导致对所有者日常活动、健康状况或其他敏感信息的推断。根据结果,我们利用PrivacyEnhAction隐私工具,这是我们在之前的工作中实现的一个web应用程序,用户可以通过它分析从他们的物联网设备收集的数据,教育用户可能存在的风险,并使他们能够相应地在健身追踪器上设置用户隐私偏好,从而有助于所提供服务的个性化,就他们的个人数据而言。
1 介绍
物联网(IoT)具有连接和控制数十亿台设备并获取有价值数据的能力,正在塑造技术和社会的未来,据估计,到2030年,连接设备的数量将增加到500亿(Vailshery 2021)。智能家居设备和健身追踪器等物联网设备的普及,促进了用户生成数据的获取、交换和分发。物联网设备之间共享的数据量是惊人的,到2025年将产生超过150泽字节(150万亿千兆字节)的数据(IotaComm 2020)。此外,“据估计,今天平均每人每天创建1.5 GB的数据”(Krzanich 2016)。难怪今天“数据是新的黄金”这句话(福布斯2019;世界经济论坛2020;CEOToday 2020)是一个比喻,描述了一种彻底改变世界的新范式。
在2000年的一次采访中(Dennedy et al. 2014),已故的英特尔公司首席执行官Andrew Grove预言道:“隐私是这个新电子时代最大的问题之一”。保护个人数据是欧盟保障的一项主要公民权利,在物联网领域尤为重要。欧盟通用数据保护条例(GDPR)于2018年推出,旨在通过提供高水平的数据保护来有效保护这一权利。此外,该法规旨在为保护用户的隐私及其个人数据提供一个通用框架,并向用户提供他们的数据是如何收集和处理的意识。GDPR高度关注健身追踪器,因为它们的功能涉及个人数据的使用,因此它们必须遵守其指示。由于透明度是GDPR应用的关键,健身追踪器用户必须了解他们的个人数据是如何处理的(Becher et al. 2020)。这些设备用于监控用户的日常健身和身体活动,它们收集大量高度敏感的个性化身体、健康和健身数据,如活动、步数、温度、睡眠模式或卡路里燃烧,使用嵌入式传感器,如计步器、加速度计、GPS、心率监测器和高度计(Yan et al. 2015)。
在现有文献中,对用户意识机制的发展给予了有限的关注,这些机制可以帮助用户理解如何利用他们的智能设备创建的数据来提取有关他们日常活动和生活方式的推断。我们迫切需要开发这样的工具,因为健身追踪器收集敏感的个人信息,这些信息可能会被未经授权的第三方在用户不知情的情况下获取(Kounoudes和Kapitsaki 2020),而且由于缺乏严格的安全指南和它们收集的数据的敏感性,这些设备已经成为攻击和数据泄露的完美猎物(Masuch等人,2021)。目前,现有的意识机制以繁琐的隐私政策的形式出现(Alqhatani和Lipford 2021),用户通常倾向于忽略这些政策;因此,需要进一步研究,以设计必要的工具和方法,让用户意识到他们的智能设备数据如何被第三方利用,以直接和全面的方式呈现信息(Kröger 2018),并使他们能够吸收如何通过提出简单的解决方案来降低这些风险,例如,通过改变他们的隐私偏好。
这是这项工作的重点,通过专注于三个品牌的健身追踪器,即Fitbit, Garmin和小米,我们调查这些追踪器收集的数据的分析和利用是否会导致提取有关所有者日常活动,健康状况或其他敏感信息的推断。我们利用我们之前的工作中引入的数据推理框架(Kounoudes等人,2021),其中通过使用许多机器学习,统计分析和建模技术,我们的目标是验证这种推断是可能的,以提高用户对它们的认识。这些技术应用于我们之前工作中介绍的PrivacyEnhAction隐私工具,这是一个web应用程序,用户可以通过它分析从他们的智能设备(智能水表或运动传感器)收集的数据,目的是了解潜在的隐私漏洞和使用这些设备可能产生的推断,从而能够在他们的设备上适当地改变和设置他们的用户隐私偏好。以这种方式与他们的个人数据相关,为所提供服务的个性化做出贡献。该工具现已扩展到智能设备列表中的三个健身追踪器品牌,其数据可以被用户分析以进行推断检测。为此,我们的工作以用户为导向,旨在提高用户对物联网领域隐私的认识,这一维度使其有别于该领域的其他工作。
这项工作的主要贡献是:
-
我们列出了在使用健身追踪器时可能对用户隐私构成威胁的推断列表,并试图从Fitbit、Garmin和小米健身追踪器收集的特定数据中确定哪些特定推断可以得出。
-
我们在PrivacyEnhAction中提出了这些功能的实现,旨在提高用户在使用健身追踪器时对隐私的认识。
-
我们提供了我们的研究结果,包括针对健身追踪器用户的两份调查问卷,旨在评估他们与PrivacyEnhAction应用程序的互动是否提高了他们的意识。
本文的其余部分组织如下:在第2节中,我们提供了相关工作的概述以及本文其余部分使用的一些背景知识。在第3节中,我们介绍了我们在这项工作中使用的方法。在第4节中,我们对正在研究的健身追踪器的隐私政策进行了回顾。在第5节中,我们根据现有文献分析了从健身追踪器数据中可以得出的关于用户的可能推论。在第6节中,我们描述了用于收集、检查和分析所研究的三种健身追踪器场景中的数据的方法,并解释了在每种情况下如何进行推理检测分析。第7节提供了有关PrivacyEnhAction应用程序中这些新功能实现的详细信息,而在第8节中,我们展示了用户评估过程的结果。第9节讨论了研究结果,并概述了这项工作的局限性,而第10节总结了这项研究。
2 背景
在本节中,我们将介绍可穿戴设备隐私保护领域的研究,从健身追踪器数据中提取推断,以及收集和分析健身追踪器用户对隐私保护的意见和看法的相关工作。
2.1 可穿戴设备的隐私保护
健身可穿戴设备包括运动手表、智能手表、腕带、胸带和其他智能设备,它们可以监控和跟踪我们每天走的步数、爬的楼梯数、每晚的睡眠时间或睡眠质量等。研究表明,智能手机用户最有可能拥有健身可穿戴设备(Balas et al. 2020),而兼容的Fitbit设备使用户能够进行非接触式支付,提供额外的服务。可穿戴设备收集的数据可以用于推断有关步行或跑步等身体活动的信息(Chen和Shen 2017),而智能手表数据已成功用于识别用户的饮食活动(Thomaz et al. 2015),饮酒活动(Parate 2014)或吸烟(Tang 2014)。
由于可穿戴设备和健身追踪器的本质通常不允许设备与用户之间进行高水平的交互,因此Mohzary等人(2020)提出了一个用户界面,用于捕获用户在他们使用的每个应用程序中的隐私偏好。所呈现的GUI旨在教育用户有关数据访问请求和保护其个人数据。使用健身追踪器,特别是Fitbit智能手表的隐私漏洞和威胁,在另一项工作(Blow等人,2020)中通过分析设备特性和潜在的安全风险进行了探讨。作者提出了一系列减少这些漏洞的措施,并为可穿戴设备制造商提供了一些最佳实践,以在功能和隐私保护之间取得平衡。
由于健身追踪器收集的敏感信息需要保护,Kim et al.(2020)提出了一种以隐私保护的方式积累和处理健康数据的方法。采用基于采样的数据收集方案,采用本地差分隐私,与简单的解决方案相比,该方案在准确性方面取得了重要进步,为收集的数据提供了更好的隐私保护。Arca和Hewett(2020)提出了一种匿名方法,通过推广关键数据,使重新识别用户变得困难,从而保护智能健康设备用户数据的隐私。根据作者的说法,他们的技术结果表明,在计算成本和数据保留方面做出了很小的妥协,该解决方案对隐私保护是有效的。Kazlouski等人(2020)对与健身追踪器及其相关智能手机应用程序通信的第三方进行了分析,其中从隐私的角度确定了任何意想不到的第三方。这项工作的目的是敦促用户在购买设备之前研究设备的隐私政策,以了解更多关于哪些个人数据被共享的信息。
虽然Psychoula等人(2020)通过提出一个框架来关注可穿戴设备和物联网服务领域的用户隐私意识,该框架可以作为开发者和服务提供商的指导,以便将隐私风险用户意识整合到他们的产品中,但据我们所知,还没有其他工作涉及提高用户意识,从他们的健身追踪器数据中提取有关用户的推断。
2.2 信息推理作为物联网中的隐私威胁
在文献中,已经表明,来自智能设备的看似无害的数据可以用来推断用户的个人信息(Kröger 2018)。机器学习技术和大数据分析已被用于从看似无害的数据或已识别的行为中得出强有力的推论,这损害了基本的隐私法,该法律允许一个人控制谁知道他们的信息(Horvitz和Mulligan 2015)。类似的技术也被用于预测人们的私人生活、行为、习惯和偏好,为针对相关人员的歧视、偏见和侵入性决策创造了完美的条件(Wachter and Mittelstadt 2019),对用户隐私构成了重大威胁。最近,这些与隐私相关的担忧已经从个人担忧扩展到社会问题,因为来自Strava的“匿名”健身跟踪数据以“匿名”热图的形式发布。Strava是一款广泛使用的追踪活动和锻炼的应用程序。为了在地图上显示访问量最大的地区,该公司绘制了两年来累积的活动数据。然而,由于士兵习惯性地将他们的健身跟踪数据上传到Strava,美国的秘密战区地点和军事基地被突出显示,这造成了巨大的安全威胁,因为敏感的政府和军事网站被曝光(Whittaker 2018)。
在物联网领域,推断是用户自己不是有意识地提供的个人信息,而是由数据控制器或其他第三方从给定数据中提取的信息。这是机器学习领域的一种常见方法;即使不使用先进的技术也能得到推论。无需使用机器学习或其他与COVID-19大流行相关的先进技术即可提取的“当前”推论示例如下:如果一个人在最近几周内去过感染严重的地区,则可能被认为感染了该病毒。这里做出的推断并不能证明某人已被检测为COVID-19阳性,而是表明感染的可能性(Skiljic 2021)。
由于生成的数据量和可用的数据分析技术的增加,不希望的推断问题在物联网中更加明显,它们对用户的隐私构成了重大风险。自数字时代开始以来,隐私保护这一主题一直是研究人员面临的挑战(Foukia et al. 2016)。今天,欧盟数据保护当局承认有必要确保个人数据保护,特别是处理与健康有关的数据,这是《通用数据保护条例》第9条普遍禁止的。脚注2:由于推论只是预测性和指示性的,它们可能是不准确和无法证实的。然而,它们有助于公司和第三方创建用户档案,并可能危及人们的基本权利和隐私,因为收集的用户数据越多,与用户关联的数据越多,可以对该用户进行的推断就越多。
2.3 了解用户意识和co对隐私和物联网的担忧
现有文献中的各种研究都是收集和分析可穿戴设备用户对其隐私保护的意见和看法,以及在未经其知情或同意的情况下暴露其个人信息可能带来的风险。
Lee等人(2016)调查了用户对个人数据隐私风险的担忧,他们在研究中使用了一项包含多个数据暴露场景的调查,评估了用户的担忧,结果表明,在使用可穿戴设备时,隐私是用户最担心的问题。另一方面,作者也观察到,如果用户认为与风险相关的利益对他们来说是重要的,他们愿意接受任何与隐私相关的风险。此外,本研究中发现的用户主要关注的问题包括(a)财务信息的泄露,这是用户关注的问题,涉及用户可能因其健身追踪器上存储的财务信息泄露而遭受的任何可能的成本,以及(b)位置跟踪,跟踪和某些可穿戴设备上使用GPS技术造成的身体伤害。这项工作的结果提供了与可穿戴设备的用户如何辨别个人数据泄露相关的见解。我们工作的多样性在于,我们让健身追踪器的用户参与到调查这些设备产生的数据如何损害他们的隐私的过程中,目的是让他们意识到这些数据可以对他们做出各种推断。
Lehto和Lehto(2017)的工作研究了用户对可穿戴设备收集的数据的隐私性和敏感性的理解。该研究采用定性研究方法,通过主题访谈收集数据,结果发现,总体而言,参与者不认为活动追踪器收集的数据是隐私的,除非这些数据与姓名和地址等可识别信息结合在一起。另一方面,与会者认为医疗记录中存储的健康信息非常敏感和隐私。因此,医疗信息的披露已被确定为用户关注的问题,因为用户担心银行、保险公司或雇主等第三方在作出有关贷款、保险费率、雇用新员工、晋升等决策时可能会从这些数据中获益。在我们的工作中,我们也对可穿戴设备用户的态度和他们对所收集数据的隐私程度的看法感兴趣,但与此同时,我们的目标是通过专门的网络应用程序提高他们的意识。
Cho等人(2018)分析了可穿戴健身设备隐私演算中考虑的因素,他们基于隐私演算理论开发了一个研究模型,并对健身追踪器用户进行了一项调查,以检验用户披露个人数据的意图与继续使用可穿戴设备之间是否存在关系。调查结果显示,如果用户认为该设备带来的好处高于他们对隐私的担忧,他们就更有可能继续使用该设备。已确定的隐私问题包括第三方可能获得用户个人数据的可能性,设备可能收集过多有关所有者和活动监控的信息。让我们的工作与众不同的是,我们支持用户决定他们是否希望继续使用一个设备,教育他们关于可能的隐私推断风险,这些风险源于他们自己的数据,否则对用户来说可能并不明显。
Fietkiewicz和Ilhan(2020)研究了用户对健身追踪器数据收集的理解及其隐私问题。作者使用了一项在线调查,来自欧盟和美国的健身追踪应用程序的现任、前任或非用户都参与了调查,以确定不同群体如何理解这些设备收集的数据的敏感性,以及他们对自己隐私的具体担忧。这项研究的主要发现是,通常对自己的在线数据隐私感到不安全的用户也更有可能担心和关注从健身追踪器收集的数据隐私的保护。通过调查发现的用户隐私问题包括第三方可能获得他们的个人数据,以及他们的数据可能被用来对付他们的可能性。虽然在这项工作中,作者的目标是发现从健身追踪器收集的具有最高隐私敏感性的数据类型,但在我们的工作中,我们的目标是告知用户通过专用web应用程序识别的任何数据隐私漏洞。
在他们的工作中,Zimmer等人(2020)对健身追踪器的当前用户进行了一项调查和半结构化访谈,以了解用户从与这些设备的交互中感知到的优点和缺点。总的来说,参与者表示他们对隐私的关注程度很低,他们认为使用健身追踪器的好处大于坏处。研究人员表示,这项研究的结果是,用户并不认为从健身追踪器收集的数据是敏感的,他们没有意识到可能的威胁,他们倾向于分享他们的个人数据,如心率或步数,因为他们觉得隐私风险很低。我们工作的多样性在于,我们利用健身追踪器的用户数据来检查用户隐私是如何受到威胁的,并让用户意识到可以从这些数据中提取关于他们的见解。
一项旨在调查美国和德国健身追踪器用户隐私态度的相同点和不同点的调查显示,两组用户对用户隐私问题的关注程度差异很大(Ilhan和Fietkiewicz 2020)。欧盟GDPR的引入是本研究的推动力,研究表明,欧洲用户正在使用他们的GDPR权利,并且对他们的数据更加负责。已确定的用户隐私问题的例子包括第三方可能获得用户个人数据的可能性,或者他们的数据可能被用来对付他们。在我们的工作中,我们也对健身追踪器用户对隐私的态度和关注感兴趣,但除此之外,我们的目标是教育用户了解可能存在的风险,并使他们能够相应地设置健身追踪器的隐私偏好,从而为他们的个人数据提供个性化的服务。
Velykoivanenko等人(2021)分析了健身追踪器用户如何理解与使用这些设备相关的隐私推断风险。通过纵向研究、在线调查和对参与者的访谈,作者得出结论,参与者对从健身追踪器数据中可能推断出的关于他们的信息类型感到担忧。作者进一步建议,保护用户隐私的一个解决方案是通过放弃集中数据收集和减少收集并发送给数据提供者的数据的粒度来提供更好的数据最小化程序。与这种数据最小化的观点相反,我们从用户的角度研究健身追踪器的用户隐私,重点是提高用户的意识,从他们的数据中可以做出关于他们的推断。
这里展示的作品使用调查和访谈等方法作为研究工具,以深入了解健身追踪器用户如何感知与这些设备的数据收集和共享相关的隐私风险。表1对上述方法进行了总结。
2.4 相关工作
Kröger等人(2019)利用嵌入在可穿戴设备中的加速度计传感器的使用,通过分析这些传感器收集的数据,提出了许多可能的推论。识别的推断包括活动、行为或位置跟踪。作者建议,他们的发现应该被用作对客户的警告,以及对开发人员和组织采取行动的理由。Yan等人(2015)研究了用于计算步数的计步器传感器推断的可能性。推断用户典型路线的可能性,例如,去咖啡店或杂货店,是通过利用用户健身追踪器的每分钟步数来计算的。使用步数跟踪序列与路径查询序列之间的欧氏距离设置阈值,只要该阈值波动,则可以以接近50%的准确率推断出用户路径。
Meteriz等人(2019)使用健身追踪器的海拔数据来预测用户的位置路径,使用自然语言处理计算机视觉来表示数据,并使用基于机器学习和深度学习的技术来预测和推断个人信息,例如经常访问的地方。Torre等人(2016)提出了一个基于健身追踪器的案例研究,其中使用贝叶斯网络构建了推理预防模型,该模型根据用户已知数据的组合计算推理攻击的风险。
Reichherzer等人(2017)对健身追踪器的隐私漏洞进行了研究,其中利用机器学习技术分析来自这些设备的数据,以便对用户活动做出有意义的推断。结果显示,通过健身追踪器的数据追踪用户和他们的活动是可能的,这对他们的隐私构成了威胁。Das等人(2016)研究了健身追踪器和智能手机之间蓝牙低功耗(BLE)通信导致隐私泄露的可能性。由于健身追踪器的BLE流量似乎与用户活动的强度相关,作者表明,恶意侦听者可以通过分析BLE流量分析来推断用户的活动。他们还展示了他们的发现,即通过分析用户设备的BLE流量来识别用户的可能性,这可以描述一个人独特的移动方式。
可穿戴设备中被忽视的安全和隐私挑战是Blasco等人(2019)的工作重点,作者确定了一些可以从传感器数据中提取的推论。根据作者的说法,健身追踪器成为网络罪犯的一个有吸引力的兴趣来源,他们的攻击可能会获得用户的生物特征数据,从而实现身份盗窃、位置信息(这是一个主要的隐私威胁)或可用于推断用户活动的加速度计数据。随后,作者建议在设计健身追踪器和可穿戴设备的早期考虑隐私要求,需要进一步的研究。
上述方法的局限性在于,尽管它们表明可以从健身追踪器数据中推断出一些可能对用户隐私构成威胁的推断,但这些工作的目的都不是通知用户并提高用户的意识,这就是我们的工作与他们的不同之处。
目录
摘要 1 介绍 2 背景 3.研究问题 4 健身追踪器中的隐私政策 5 从健身追踪器数据可能推断 6 正在研究的健身追踪器场景 7 实现 8 用户e 估值 9 讨论与限制 10 结论 数据可用性 笔记 参考文献 作者信息 道德声明 搜索 导航 #####3.研究问题
在这项工作中,我们的目标是提供一种工具,让用户意识到可能存在的隐私风险,并从他们的健身追踪器数据中提取出关于他们的推断,这样他们就可以设置他们的用户隐私偏好,这样他们的个人隐私就可以得到保护,并根据他们的个人数据提供个性化的服务。为了完成这项任务,我们定义了以下研究问题。
为了回答这个问题,我们使用了我们为这项工作所做的文献综述的结果,并结合了我们之前在该领域的研究,我们列出了在使用健身追踪器时对用户隐私构成威胁的可能推论。我们还试图找出从本研究中收集的特定健身追踪器的数据中可以得出哪些推论。
为了回答这个研究问题,我们针对健身追踪器用户进行了一份在线调查问卷,以了解:(i)他们在使用设备时对隐私的担忧;(ii)他们对健身追踪器收集了哪些数据以及这些数据是如何被使用和共享的认识;(iii)他们对健身追踪器数据隐私风险的认识。
为了回答这个问题,我们为同一组健身追踪器用户提供了来自三个健身追踪器品牌(Fitbit、Garmin和小米)的大量数据集。用户被要求为每个健身追踪器品牌使用一个数据集,以便与PrivacyEnhAction应用程序交互并查看分析结果。之后,他们需要完成一份关于该应用的评估问卷,并回答与RQ2中使用的问卷类似的问题,以了解他们对推理的认识是否有所提高。
4 健身追踪器中的隐私政策
健身追踪器帮助用户跟踪自己的健康状况,让他们能够指定自己想要记录的内容,比如体重、运动量、一天走的步数、走路的距离、睡觉的时间和时间,以及心率。这些存储的信息对于用户来说是清晰的,因为这些是他们可以通过配置文件仪表板看到的数据。然而,跟踪器还会积累用户可能不知道的用户信息,比如他们醒来的时间、睡觉的时间、他们的位置、时区、IP地址等。尽管健身追踪器的隐私政策通常声明不会与第三方共享数据,但情况并非总是如此,因为持续的用户跟踪和数据收集使健身追踪器公司有机会在第三方销售的帮助下利用用户数据(Challa et al. 2017)。
市场上有大量的商业健身追踪器,来自不同的制造商,其指示性列表见表2。为了这项工作的目的,在回顾了现有文献后,我们选择使用Fitbit和Garmin健身追踪器,其中Fitbit和Garmin设备被确定为最受欢迎的设备(Tedesco et al. 2019)。此外,Fitbit Surge和Garmin foreerner似乎嵌入了最多的传感器,即PPG、GPS、陀螺仪、磁力计和气压计或高度计(Henriksen等人,2018),这意味着这些设备收集了更多的用户数据。我们还选择将小米健身追踪器纳入我们的研究,因为小米连续两年(2015年和2016年)出现在销售前五名的供应商中(Henriksen et al. 2018),而且由于我们的预算有限,它们的成本很低。
但是,在这项研究中使用的健身追踪器的隐私政策是如何说明数据共享的呢?在本节中,我们将回顾Fitbit、Garmin和小米健身追踪器如何在其隐私政策中解决数据共享问题。
在审查中,我们使用了Perez等人(2018)所做的工作,其中作者对制造商提供的与数据收集、数据所有权、数据修改、数据安全、外部数据共享、政策变更以及针对六种物联网设备和系统(包括Fitbit设备)的特定受众的政策相关的隐私实践进行了分析。基于此分析,我们采用了一种方法来收集有关数据收集、数据共享、数据接收方、隐私政策变更以及重组/合并/转售情况下的数据处理的必要信息,这些都是我们研究中感兴趣的领域。隐私政策审查的摘要见表3。
4.1 Fitbit关于数据共享的隐私政策
Fitbit的隐私政策指出:“我们从不出售用户的个人信息。我们不会分享您的个人信息,除非在下述有限的情况下。”脚注3所列情况如下:(i)当用户同意使用Fitbit社区功能(如论坛、挑战或社交工具)或指示Fitbit与第三方共享其数据时,例如,当用户允许第三方应用程序访问其帐户时,或在选择参加员工健康计划时允许其雇主访问时,(ii)进行外部处理时,为符合Fitbit政策和(iii)出于法律原因或防止伤害而代表Fitbit处理用户数据的合作伙伴。
尽管Fitbit的隐私政策声明“我们从不出售你的个人数据”,但它后来也声明,用户数据被用于营销。根据Fitbit发言人的说法,这意味着用户数据仅用于宣传他们自己的产品(McGowan 2021)。在合并、收购或出售资产的情况下,Fitbit隐私政策告知用户,将采取适当措施保护个人信息的机密性,并在将任何个人信息转移到新实体之前通知受影响的用户。
“常识隐私计划”(Common Sense Privacy Program)是一个评估旨在保护儿童和学生隐私的流行儿童应用和服务的计划,根据该计划,Fitbit健身追踪器不符合该组织在隐私和安全实践方面的建议。这背后的一些论点是,除其他外,跟踪器收集个人身份信息(PII),数据收集或使用是否受设备要求的约束尚不清楚,跟踪器收集地理位置和生物特征或健康数据,以及第三方收集用户个人信息。
4.2 Garmin关于数据共享的隐私政策
Garmin隐私政策列出了用户个人数据的可能接收方,包括用户要求Garmin与其共享数据的各种第三方应用程序、平台或服务提供商。在这些情况下,第三方对用户个人资料的处理是该第三方的责任,并警告用户应仔细查看第三方的隐私政策。
此外,Garmin的隐私政策声明:“为了提高Garmin和我们的客户提供的内容或功能的质量,我们不时以去识别和汇总的方式与公司共享或出售活动数据,以及与其他第三方共享或出售活动数据用于研究或其他目的。”脚注5关于任何重组、合并或出售的可能性,嘉明私隐政策澄清,嘉明可将用户的个人资料转移给联属公司、附属公司或第三方,但任何该等实体在未事先通知用户并取得用户同意的情况下,不得处理本私隐政策所述以外的个人资料。
常识隐私计划仅对Garmin Vivofit Jr.进行了评估,该特定设备不符合该组织关于隐私和安全实践的建议,原因包括收集PII,用户信息可能被转移到第三方用于广告和营销或其他目的。
4.3 小米关于数据共享的隐私政策
小米的隐私政策指出:“我们不向第三方出售任何个人信息。我们有时会与第三方分享您的个人信息(如下所述),以提供或改进我们的服务,包括根据您的要求提供服务。如果您不再希望允许我们共享此信息,请通过http://k1.fpubli.cc/file/upload/202308/31/tsuxlhaczmf.supspan >Footnote 6与我们联系。第三方列表包括小米生态系统公司(独立实体)、其他第三方服务提供商和业务合作伙伴(可能拥有自己的子处理器)以及小米可能以汇总形式与之共享信息的其他第三方。特别是:“为了帮助我们向您提供本隐私政策中所述的服务,我们可能会在必要时与我们的第三方服务提供商和业务合作伙伴共享您的个人信息。这包括我们的交付服务提供商、数据中心、数据存储设施、客户服务提供商和营销服务提供商以及其他业务合作伙伴。这些第三方可能代表小米或出于本隐私政策....的一个或多个目的处理您的个人信息在某些情况下,第三方服务提供者可能有自己的子处理器。为了提供绩效评估、分析和其他业务服务,我们还可能以汇总形式与第三方共享信息(非个人信息)。”隐私政策的一个令人担忧的方面是,小米没有解释在合并、收购或出售的情况下,用户的个人信息将处于什么状态,因为唯一的澄清是,用户将被通知。
根据Mozilla基金会的说法,小米的Mi Fit智能手环不符合他们的最低安全标准,因为他们没有对如何处理安全漏洞做出回应。最重要的是,小米一直在秘密收集其产品用户的个人数据,因此受到抨击,Mozilla基金会警告用户不要佩戴这些健身手环。脚注8
5 从健身追踪器数据可能推断
由于大多数用户没有意识到健身追踪器收集的数据的程度,这使得他们更难理解这些数据可以揭示比他们想象的更多的关于他们的信息。本节旨在回答研究问题:RQ1从健身追踪器收集的数据中可以得出什么推论?为了回答这个问题,我们根据我们所做的文献综述,得出了在使用健身追踪器时可能对用户隐私构成威胁的一系列推论,如表4所示。
活动数据:健身追踪器记录用户每天走的步数,作为他们活动水平的衡量标准。活动可以使用表5中的步骤指数进行分类,该指数由Tudor和Basset提出,用于描述基于计步器读数的成年人的身体活动(Tudor- locke和Bassett 2004)。没有或缺乏体育活动是不健康的根源(Vuori 2004),因此,了解这类信息可能是可能出现健康问题的迹象。每日步行步数等信息可能潜在地反映人们稳定的生活方式和习惯,或者某人的全因死亡风险是低还是高(Saint-Maurice et al. 2020)。低水平的日常活动可能表明使用者可能患有健康问题。感兴趣的第三方(如保险公司)可以利用这些信息,根据确定的行为(例如,用户没有积极或健康的生活方式)提高健康保险费。
活动数据也可以用来推断宗教信仰。这尤其适用于正统犹太教的情况,因为在星期六,信徒根据他们的宗教信仰进行休息活动来纪念这一天。尽管对大多数人来说,周六是休息日和休闲日,但如果从健身追踪器的数据中观察到,用户通常在大多数日子都非常活跃,但在周六却不是,那么这可以被视为一个迹象,而不是证明,这个人可能是犹太人(Cook 2021)。宗教信仰也可以通过一个人早上醒来的时间来推断,因为穆斯林在斋月期间醒得更早(Velykoivanenko et al. 2021)。宗教或哲学信仰被视为敏感的个人数据,如果被第三方(例如潜在雇主)获得,可能会以歧视性的方式对用户使用。
VO2Max数据:许多健身追踪设备收集用户的VO2Max(有氧健身水平)值。这项测量被认为是心血管健康的最佳指标。随着时间的推移,监测最大摄氧量可以帮助确定一个人是在变得更健康还是在失去健康。该领域的研究表明,较低的心脏健康水平与心血管疾病有关,而较高的心脏健康水平与许多健康优势相关(Fernström et al. 2017;Högström et al. 2016)。因此,VO2Max的下降或增加可以作为用户整体健康状况的指标。
心率数据:由健身追踪设备收集的心率数据非常重要,包含了关于我们身体的宝贵信息。根据欧洲数据保护机构的说法,心率信息构成健康数据的一部分,而根据《通用数据保护条例》,"与健康有关的个人数据应包括与数据主体健康状况有关的所有数据,这些数据应揭示与数据主体过去、当前或未来的身体或精神健康状况有关的信息"。脚注9因此,包括心率测量在内的健康数据被视为一类特殊的个人数据。
对心率测量的洞察可以帮助观察和了解一个人的健康水平,也可以识别可能的健康问题。静息心率的值,即当人坐着,平静,放松,没有生病时,在每分钟60到100次之间变化;因此,静息心率超过每分钟100次被认为是高的,而心率低于每分钟60次被认为是低的。静息心率低于正常范围可能有很多原因。对于运动员或健康的年轻人来说,这是一种正常情况,也可能是服用特定药物的副作用,或者是由心动过缓等健康状况引起的(Jones and Seladi-Schulman 2021;Michael Mangrum and DiMarco 2000)。为此,静息心率低可能表明使用者是运动员,她可能患有心动过缓,或者在读数时正在服药。
心率升高可能是由于健康状况、读数时的锻炼或大量饮酒造成的,因此,从这些数据中可以提取出关于用户的推论是,用户可能患有心脏病或可能是酗酒者(Cooney等人,2010;Alhalabi et al. 2017)。如果第三方掌握了这些数据,用户可能会面临歧视或更高的保费。
位置数据:位置数据可以揭示个人的移动模式;当与健身活动信息相结合时,它可能会揭示一个人经常锻炼的区域,甚至是那个人的家庭或工作地址(Pan 2016)。此外,用户的健身活动可以揭示他们的行为模式,包括他们通常不在家的时间。隐私风险在于,如果这些信息落入恶意的第三方手中,那么用户的个人或家庭安全可能会受到威胁。GDPR承认位置数据作为可识别信息的独特地位,将其作为第4条中“个人数据”定义的一部分。在没有位置隐私保护的情况下,攻击者可以利用这一漏洞进行各种攻击。这些攻击可能包括:(一)在用户附近向用户发布不受欢迎的产品广告;(二)在位置数据可用于推断健康状况、个人习惯或职业职责等其他敏感信息的情况下,对用户进行人身攻击和骚扰或分析和跟踪;(三)政治、宗教、性迫害和歧视,一个人的位置被用来限制他或她的自由(Cremonini等,2013年);(iv)根据用户不在家的时间计划闯入;(v)跟踪。
睡眠数据:睡眠跟踪是大多数健身追踪器品牌都支持的功能,通过使用心率传感器和加速度计来监测运动,可以自动检测睡眠。科学早就认识到睡眠对身体健康的重要性。睡眠时间少于6小时的人患高血压的风险是睡眠时间较长的人的三倍,而睡眠时间少于4小时的女性死于心脏病的风险是睡眠时间较长的女性的两倍(Nagai et al. 2010)。此外,研究表明,缺乏高质量的睡眠与糖尿病、肥胖和癌症有关,更不用说心理健康和记忆力恶化了。相反,睡眠过多也与健康问题有关。由于睡眠对人们的繁荣和身心健康至关重要,睡眠不足和睡眠质量差已被证明与健康问题、认知功能下降、心情不好和生产力下降有关(Chang et al. 2018)。
此外,从健身追踪器收集的数据中提取用户的睡眠模式可以用于用户分析。当与心率或兴趣等其他数据结合并关联时,营销公司或制药公司可能会利用这些用户资料进行有针对性的广告投放(bourbureau 2020)。用户的人身安全也可能处于危险之中,因为通过跟踪睡眠模式,可以获得用户通常睡眠最深和最浅的信息,因为一些健身追踪器会收集有关睡眠阶段的信息。推断的起床时间可能会被第三方使用,比如营销公司,用户可能会成为不想要的广告的目标,因为人们在早上接近他们醒来的时间有更好的工作记忆可访问性(Valdez 2019)。此外,可以推断出的浅睡眠,深度睡眠和快速眼动睡眠阶段的平均百分比可以进一步揭示用户的专注能力,情绪,记忆,使用可能的药物如抗抑郁药,焦虑,抑郁等,同时可以得出结论,睡眠不足的人也更容易犯错误和遗漏,然后可能被当前或潜在的雇主歧视。
6 正在研究的健身追踪器场景
在确定了可以从健身追踪器的数据中提取出哪些可能的推论之后,下一步就是找出从本研究中具体的健身追踪器收集的数据中可以得出哪些推论。我们还描述了我们在本研究中使用的方法,以便收集,检查和分析健身追踪器场景中的数据,遵循我们在之前的工作中提出的方法(Kounoudes et al. 2021),调整以适应当前研究的需求,这可以应用于其他物联网场景,只需稍加修改。
6.1 数据收集流程
在本节中,我们将提供有关数据收集过程的详细信息,包括我们如何收集参与者以及我们用于数据收集的机制。
但是参与招聘
我们通过向塞浦路斯大学的SEIT实验室成员发送电子邮件邀请来招募参与者,其中两位作者是该实验室的成员。总共有5人做出了回应,他们适合参加这项研究,这意味着他们年满18岁,没有被诊断出患有任何慢性疾病。由于需要更多的参与者,研究人员招募了符合标准的作者的家人和朋友。所有参加者均已知情同意提交个人资料。参与者的详细信息见表6。在数据收集期开始之前,与参与者召开会议,告知他们需要从他们那里得到什么,帮助他们通过在他们的手机上安装所需的应用程序来设置必要的环境,并为设备创建个人帐户。
6.1.2 数据收集机制
为了收集数据,我们获得了一个Fitbit Surge健身追踪器,五个小米Mi Smart Band 4C设备和两个Garmin智能手表,分别分配给8名参与者,他们被要求每天24小时佩戴它们,持续2个月。由于我们的实验需要更多的数据,我们探索了各种在线存储库,如Zenodo和Kaggle,以找到更多的健身追踪器数据集。由于所涉及数据的敏感性,找到合适的公共数据集并不是一件容易的事。但我们还是找到了一小部分适合我们实验的健身追踪器数据集,详见表7。
6.2 数据处理和清洗
在本节中,我们将提供有关如何处理和清理可用数据集的信息,以便为数据分析的下一步做好准备。
6.2.1 Fitbit数据集
在第一个实验中,我们使用了一名参与者拥有的Fitbit Surge设备,我们还使用了Zenodo存储库中提供的公共数据集“众包Fitbit数据集”(Furberg et al. 2016)。该数据集是由30名符合条件的Fitbit用户收集的,他们参加了亚马逊土耳其机械的调查,提交了以分钟为单位的体力活动、心率和睡眠监测数据。在这个数据集中,不同类型的数据总共存储在18个文件中,每个文件包含来自不同用户的合并数据。为了在每个用户的单独集合中为我们的实验导出合适的数据,我们通过根据对应于唯一用户的导出会话ID解析每个文件来手动处理数据集。按照这个程序,我们获得了一些用户数据集,包括日常身体活动数据、心率和睡眠监测数据。每个数据集代表一个唯一的用户,由三个.csv格式的文件组成。数据处理还需要删除包含缺失值或空值的任何记录,并删除已识别的任何异常值。
6.2.2 Garmin的数据集
在这个实验中,两名志愿者被分配佩戴Garmin智能手表2个月。然后,每个志愿者的数据通过Garmin Connect使用请求数据导出选项导出。导出的数据集由Javascript Object Notation格式(JSON)的许多文件组成,然后使用JSON到CSV转换工具将其转换为CSV格式。手工检查文件内容有助于确定哪些具体数据对数据分析有用。这个过程导致在这个阶段在每个数据集中获取两个文件,第一个包含一般的活动数据,如活动名称、活动类型、时间戳、持续时间、距离、卡路里、startLongitude、startLatitude、avgHr、maxHr、vO2MaxValue等,第二个包含睡眠数据。同样,数据处理需要删除包含缺失值或空值的任何记录,并删除已识别的任何离群值。
6.2.3 小米的数据集
在这个实验中,我们获得了5个小米智能手环4C设备,分配给5个参与者,让他们在2个月的时间里24小时佩戴。当数据收集周期结束时,每个参与者的数据都通过米Fit账户的“导出数据”选项导出。收到的数据集由若干文件夹组成,其中有CSV格式的数据,这些文件夹的内容是手工检查的,以便评估哪些数据适合进行分析。这种方法导致每个数据集中包含四个文件,包括活动数据、心率数据、睡眠数据和用户信息。所有带有空值或缺少数据的记录都从文件中删除。
6.3 数据分析技术
为了分析我们的数据,我们使用统计分析和描述性分析技术来评估和理解可用的数据。使用我们拥有的健身追踪器数据集,我们执行探索性数据分析(EDA),旨在通过汇总统计和图形表示来识别数据上的模式或异常,目的是确定任何特定数据点或它们的组合是否有助于得出一个或多个指定推论。EDA是一种在数据集上使用数据可视化来确定数据关系的方法,旨在找到可以揭示数据中隐藏信息的模式(Rahmany et al. 2020)。相关性分析是一种EDA技术,用于测量两个变量之间的线性关系的强度(Sarstedt和Mooi 2019),用于评估变量之间的关系,因为变量之间的任何潜在联系都可以从数据中提取有用的信息。
6.4 健身追踪器的推理识别研究
根据现有数据,并根据上一节的分析,我们将根据表4定义的推论列表确定可以提取哪些推论。必须指出的是,本研究中确定的推论只是指示,不能用作验证或证据。例如,如果可用的用户静息心率数据可以得出女性用户可能怀孕的结论,这种推断并不能证明特定用户确实怀孕了,而只是表明用户可能怀孕了。
6.4.1 Fitbit推理检测分析
从Fitbit心率数据推断:Fitbit心率数据包含5秒间隔的心率测量。根据表4,通过心率测量,我们可以尝试推断:(a)怀孕的可能性,(b)使用者是否有一般的健康问题,(c)酗酒,或(d)使用者是否在服药。为此目的采用了下面所述的程序。
为了推断怀孕的可能性,关于用户性别的信息是必要的。由于这条信息不包括在可用的Fitbit数据集中,我们没有试图从其他数据中提取这一见解,例如静息心率。
静息心率升高或降低有助于推断(b)、(c)和(d)。通过分析现有数据集,没有给出具体活动和活动时间的信息,可以从进一步的分析中排除。然后决定利用可用的睡眠数据。在这种程度上,心率数据与睡眠数据相结合,将睡眠时间与相应的心率值相匹配,从而提取用户的休息时间。利用新的组合数据,在连续值超过每分钟100次的情况下创建心率测量组,并对数据应用一种方法,将每组最小和最大时间戳之间的时间加起来,以找出心率升高持续的时间长度。从这些数据中可以观察到,当心率长时间升高时,可以推断出用户可能患有健康问题,因为心率在休息时间(特别是睡眠时间)升高。同样的方法也用于发现用户心率低的时间段(低于每分钟60次),如果有很多这样的时间段,那么可以推断用户可能患有心动过缓或可能正在接受药物治疗。
使用者滥用酒精的可能性可以通过综合使用现有心率数据和睡眠数据来推断,但不包括在睡眠范围内的心率测量值。剩余的心率数据被利用,当连续值超过每分钟100次时,创建心率测量组,并应用与之前类似的方法,将每组的最小和最大时间戳之间的时间加起来,以找到心率升高持续的时间长度。特别是,如果这些时间段的开始和结束时间遵循相同的趋势,例如,在午夜酒吧关门的时候,这可能表明用户可能是一个酗酒者。
Fitbit活动数据推断:从Fitbit的日常活动数据中,我们可以估计出用户的活动水平。为了将用户的活动水平与表5中的索引相匹配,我们继续查找Total Steps的变量趋向于聚集的值。根据这个值,我们可以推断用户的活动水平,从而推断用户是否过着健康的生活方式。我们使用可用的总步数数据进行的另一个推断是宗教。在此基础上,我们计算出每天的平均步数,并将其与周六的平均步数进行比较。如果这两个值之间的差异意味着周六的活动异常少,那么我们就有了一个迹象(而不是证据),这个人可能是一个守规矩的犹太人。
从Fitbit睡眠数据推断:通过手表或健身设备背面的加速度计和LED, Fitbit可以检测用户何时睡觉,以及他或她处于睡眠的哪个阶段。为了从可用的Fitbit睡眠数据中获得见解,我们计算了睡眠数据集中每个日历日的睡眠开始和结束时间。我们还汇总了每天的总睡眠时间,以及轻度睡眠、深度睡眠和快速眼动睡眠阶段的总分钟数,然后对所有这些变量倾向于聚集的值进行估计。我们将工作日和周末的观察结果分开计算,因为通常用户之间可能有不同的习惯。按照这个过程,我们可以大致计算出用户在一周和周末的睡眠时间,用户醒来和入睡的时间,以及他在浅睡、深睡和快速眼动阶段的睡眠比例。利用这些信息,我们可以了解用户是否有足够的睡眠和她的睡眠模式。
6.4.2 Garmin推理检测分析
从Garmin活动数据推断:Garmin活动数据包含有关用户活动的详细信息,例如跑步和骑自行车。使用这些数据,我们能够提取有关用户最频繁活动的见解,然后,利用有关该活动的地理坐标(纬度和经度)的可用信息,我们应用反向地理编码过程,以便找到用户最经常活动发生的地方。
Garmin的活动数据还包含VO2max测量值,我们利用这些数据来确定特定用户的健康水平是提高了还是降低了。根据这些发现,可以推断用户是否是运动员,以及她的整体健康状况,因为VO2max值的变化被广泛用作健康指标。
从Garmin睡眠数据推断:许多Garmin设备都有一个光学心率传感器,利用高级睡眠监测(ASM)功能,用户可以在睡觉时戴着手表跟踪他们的睡眠统计数据。高级的睡眠跟踪功能可以识别用户入睡和醒来的时间,以及识别整个晚上发生的睡眠阶段。睡眠阶段包括浅睡眠、深度睡眠和快速眼动睡眠,这些睡眠阶段是由心率、心率变异性、呼吸频率、身体运动和其他测量结果决定的。
在对现有Garmin睡眠数据的分析中,我们首先计算数据集中每晚的总睡眠时间,然后确定用户每周和周末睡眠习惯的规律性。我们还汇总了每晚轻度睡眠、深度睡眠和快速眼动睡眠阶段的总分钟数,以及每晚清醒的总分钟数,然后对所有这些变量趋于聚集的值进行估计。我们将工作日和周末的观察结果分开计算,因为通常用户在工作日和周末可能有不同的习惯。
按照这个过程,我们可以推断出用户在工作日和周末大约睡了多少小时,以及用户睡觉和醒来的时间。与之前类似,这些信息可以揭示用户是否经历睡眠不足等睡眠问题,如果这些信息与第三方(如当前或潜在雇主)共享,那么用户可能会面临不公平的解雇或就业歧视。根据推断出的浅睡眠、深度睡眠和快速眼动睡眠阶段的平均百分比,我们可以得出关于用户专注能力、情绪或记忆的结论,用户可能正在服用抗抑郁药等药物,她可能患有焦虑或抑郁等疾病。
6.4.3 米拟合推理检测分析
从Mi Fit活动数据推断:Mi Fit健身追踪器会跟踪步行或跑步等活动,以及所走的步数等。使用可用的Mi Fit活动数据,利用每日步数来估计用户的活动水平。对数据进行分析,然后确定步长变量趋向聚类的值。根据该值和表5中的活动指标,可以判断用户的活动水平,从而判断用户是否过着健康的生活方式。
在本场景中,每日总步数被用于第6.4.1节中讨论的宗教推断,我们采用相同的方法来计算平均每日步数,然后将该值与周六的平均步数进行比较。如果这两个值之间的差异意味着周六的活动异常少,那么这个人很可能是一个守规矩的犹太人。
从小米Fit心率数据推断:小米小米手环根据用户设定的定期间隔收集心率测量值。我们遵循与第6.4.1节中Fitbit心率数据分析相同的程序,我们设法推断用户是否患有一般健康问题,酗酒以及用户是否正在接受药物治疗。在小米数据集中有更多的用户信息,包括性别细节,因此,我们试图使用这些数据来推断怀孕的可能性。静息心率测量可以结合性别来推断怀孕的可能性。考虑到静息心率在怀孕期间会增加30-50%,以满足婴儿成长的需要(Maganti et al. 2010;Hunter and Robson 1992),我们利用了小米手环数据中可用的个人用户信息,包括用户性别和出生日期,以推断怀孕的可能性。我们将可用的睡眠、用户和心率数据结合起来,以隔离静息心率测量数据,并在此基础上进行测试,以检查这些值是否在增加30-50%的范围内,这表明可能怀孕。有关某人的信息(如怀孕)可能会泄露有关该人健康的信息,并在GDPR中被归类为特殊类别数据。为了达到这个目的,如果这类信息是由第三方获得的,它就可以被用来歧视那个人。
从小米Fit睡眠数据推断:小米Fit手环使用嵌入式传感器,如加速度计、陀螺仪和PPG(心率监测器),通过跟踪身体运动和心率来监测用户睡眠。手环还可以判断使用者是处于浅睡眠阶段、深度睡眠阶段还是快速眼动睡眠阶段。我们采用了与分析Garmin睡眠数据相同的过程,我们设法推断出用户在工作日和周末的睡眠时间,以及用户在工作日和周末通常睡觉和醒来的时间。与Fitbit和Garmin的场景类似,我们提取的信息可以揭示用户是否遇到睡眠问题,比如睡眠不足或失眠。如果这些信息与第三方共享,例如用户当前的雇主或潜在的雇主,那么用户可能会面临不公平的解雇或就业歧视。在我们的分析中,我们还计算了用户在轻度睡眠阶段、深度睡眠阶段和快速眼动睡眠阶段的睡眠百分比,这些信息可以用来得出用户全天集中注意力的能力、她的记忆或情绪的结论。这些信息还可以表明使用者可能正在服用抗抑郁药等药物,她可能患有焦虑或抑郁。
下载原文档:https://link.springer.com/content/pdf/10.1007/s11257-022-09353-8.pdf文章链接:http://m.900614.com/news/show-94940.html