泄露的Yandex代码打开了令人毛骨悚然的在线广告黑匣子

时尚美容作者 / 花爷 / 2025-01-26 07:36
"
      如果你住在俄罗斯,就无法避开Yandex。这家经常被称为“俄罗斯的谷歌”的科技巨头是数百万人日常生活的一部分。它主

  

  

  如果你住在俄罗斯,就无法避开Yandex。这家经常被称为“俄罗斯的谷歌”的科技巨头是数百万人日常生活的一部分。它主导着在线搜索、叫车服务和音乐流媒体,而它的地图、支付、电子邮件和许多其他服务也很受欢迎。但与所有科技巨头一样,Yandex无处不在也有一个缺点:它可能会吞噬大量数据。

  今年1月,Yandex遭遇了难以想象的事情。在为数不多的几家知名公司中,它成为了最新一家源代码泄露的公司。黑客网站BreachForums的一位匿名用户公开分享了一份可下载的45g的Yandex代码缓存。据称,这些数据来自一名心怀不满的员工,不包括任何用户数据,但为了解其应用程序和服务的运营提供了无与伦比的视角。Yandex的搜索引擎、地图、人工智能语音助手、出租车服务、电子邮件应用程序和云服务都被公开了。

  泄露的代码还来自Yandex的两个关键系统:一个是它的网络分析服务,它捕捉人们如何浏览的细节;另一个是它强大的行为分析工具,它帮助运行它的广告服务,赚取数百万美元。这种广告系统支撑着现代网络经济的大部分,谷歌、Facebook和成千上万的广告商都依赖于类似的技术。但这些系统主要是黑洞。

  现在,网络安全公司Confiant的隐私工程师凯利·麦克雷(Kaileigh McCrea)对这两项服务的源代码进行了深入分析,从而揭示了这些系统的工作原理。conconant的调查结果显示,Yandex的技术收集了大量关于人们的数据,当这些数据与公司掌握的所有信息“匹配和分析”时,这些数据可以用来揭示人们的兴趣。

  麦克雷说,Yandex的代码显示了该公司如何为住在一起的人创建家庭档案,并预测人们的具体兴趣。她说,从隐私的角度来看,她的发现“令人深感不安”。“这个洋葱有很多令人毛骨悚然的层次,”她说。调查结果还显示,Yandex拥有一种技术,可以与俄罗斯政府支持的电信公司俄罗斯电信(Rostelecom)共享一些有限的信息。

  Yandex的首席隐私官伊万?切列夫科(Ivan Cherevko)在详细回答《连线》(WIRED)的问题时表示,这些“代码片段”已经过时,与目前使用的版本不同,而且一些源代码“从未在实际操作中使用过”。他说:“Yandex使用用户数据只是为了创建新服务和改进现有服务,”而且“未经用户同意,它从不出售用户数据或向第三方披露数据。”

  然而,这一分析正值这家俄罗斯科技巨头正在经历重大变革之际。在俄罗斯于2022年2月全面入侵乌克兰之后,Yandex将其总部位于荷兰的母公司从俄罗斯业务中剥离出来。分析人士认为,此举可能会使俄罗斯的Yandex与克里姆林宫的联系更加紧密,数据面临风险。

  数字版权非营利组织Access Now的技术法律顾问纳塔莉亚?克拉皮瓦(Natalia Krapiva)表示:“他们一直在努力保持一个更加独立、更西化的公司形象,不时抗议一些压制性的法律和命令,帮助吸引外国投资和商业交易。”但实际上,Yandex一直在失去独立性,屈服于俄罗斯政府的要求。公司的未来是不确定的,但公司在俄罗斯的部分很可能会失去剩下的一点独立性。”

  数据收集

  Yandex的泄密是巨大的。45 GB的源代码几乎涵盖了Yandex的所有主要服务,让人们得以一窥其数千名软件工程师的工作。根据数据中包含的时间戳,这些代码似乎可以追溯到2022年7月左右,并且主要使用流行的编程语言。它是用英语和俄语写的,但也包括种族主义辱骂。(今年1月泄露时,Yandex表示,这是“非常无礼的,完全不可接受的”,并详细说明了部分代码在某些方面违反了公司的政策。)

  McCrea手动检查了代码的两个部分:Yandex Metrica和Crypta。该公司的Metrica相当于谷歌分析(Google Analytics),通过AppMetrica将代码放在参与的网站和应用程序中,可以跟踪访问者,包括每次鼠标移动。去年,被嵌入50个国家的4万多款应用程序的AppMetrica,在被报道其向俄罗斯发回的数据规模后,引起了美国立法者的国家安全担忧。

  麦克雷说,这些数据被拉入Crypta。该工具分析人们的在线行为,最终向他们展示他们感兴趣的东西的广告。根据该公司的网站,该公司分析了300多个“因素”,机器学习算法根据人们的兴趣对他们进行分组。麦克雷表示:“Yandex的每一款应用或服务都在以这样或那样的形式将这些广告细分的数据汇集到Crypta中。

  当人们使用Yandex的服务时,它会交出一些收集到的数据,比如分享自己的位置,以便在地图上显示自己的位置。其他信息自动收集。总的来说,该公司可以收集有关某人的设备、位置、搜索历史、家庭位置、工作位置、音乐收听和电影观看历史、电子邮件数据等信息。

  源代码显示AppMetrica收集人们精确位置的数据,包括他们的高度、方向和他们可能行进的速度。McCrea质疑这对广告有多大用处。它还能获取人们正在连接的Wi-Fi网络的名称。研究人员说,这被输入到Crypta, Wi-Fi网络名称与一个人的Yandex整体ID相关联。有时,它的系统会尝试将多个不同的id链接在一起。

  2019年离开公司的前Yandex工程师兼副首席技术官格里戈里·巴库诺夫(Grigory Bakunov)说:“Yandex通过Metrica拥有的数据量如此之大,甚至无法想象。”“这足以对用户进行任何分组或细分。”由Crypta创建的细分似乎是高度具体的,并显示了我们在线生活的数据在汇总时是多么强大。有针对使用Yandex的Alice智能音箱的用户的广告细分,“电影爱好者”可以根据他们最喜欢的类型进行分组,有笔记本电脑用户,“在地图上搜索Radisson”的人,以及表现出长期兴趣的手机游戏玩家。

  麦克雷说,有些类别比其他类别更引人注目。她说,“吸烟者”部分似乎跟踪购买电子烟等与吸烟有关的物品的人。而“夏季居民”可能是指拥有度假屋的人,并使用位置数据来确定这一点。还有一个“旅行者”部分,可以使用位置数据来跟踪他们是否从正常位置旅行到另一个位置——包括国际和国内领域。代码的一部分是从邮件应用程序中提取数据,包括“登机牌”和“酒店”等字段。

  麦克雷说,对于在线广告来说,其中一些信息“听起来并不奇怪”。但对她来说,最大的问题是,创建个性化广告是否足以成为收集“这种侵入性信息”的充分理由。行为广告长期以来一直在网络上跟随人们,公司以令人毛骨悚然的方式收集人们的数据。监管机构未能控制住这个问题,而其他人则建议应该禁止。麦克雷说:“当你想到你还能做些什么,如果你能做出这样的计算,这有点令人毛骨悚然,尤其是在俄罗斯。”她表示,为那些想要离开俄罗斯的军龄男性设立细分市场并非不合理。

  Yandex的切列夫科表示,按兴趣对用户进行分组是一种“行业标准做法”,广告商不可能确定具体的用户。切列夫科说,信息收集可以让人们看到特定的广告:“园艺产品给对避暑别墅感兴趣的用户,汽车设备给去加油站的用户。”切列夫科说,Crypta分析一个人的在线行为,并“计算出”他们属于某个特定群体的“概率”。

  Cherevko声称:“对于Crypta,每个用户都代表一组标识符,系统无法将他们与现实世界中的自然人联系起来。”“这种集合只是概率性的。”他补充说,Crypta无法访问人们的电子邮件,并表示代码中有关登机牌和酒店的邮件数据是一个“实验”。切列夫科说,Crypta“只从邮件中收到有关该类别的去识别信息”,这种方法自2019年以来就没有使用过。他补充说,Yandex会在14天后删除AppMetrica收集的“用户地理位置信息”。

  虽然泄露的源代码提供了Yandex系统如何运行的详细视图,但它并不是全貌。俄罗斯数据科学家和人工智能研究员阿图尔?哈丘扬(Artur Hachuyan)创办了自己的公司,从事与Crypta类似的分析工作。他表示,在检查Yandex合作伙伴的代码或对数据源或外部数据库的引用时,他没有发现任何预先训练过的机器学习模型。例如,我们也不清楚代码的哪些部分没有被使用。

  麦克雷的分析显示,Yandex为人们分配家庭id。研究人员说,密码中的细节包括一个家庭的人口数量、性别,以及是否有老人或儿童。切列夫科说,人们的位置数据被用来将他们分组为家庭,如果他们的IP地址“相交”,他们就可以被包括在内。他说,这些分组是用于广告的。“如果我们假设家里有老年人,那么我们可以邀请广告商向他们展示无障碍环境的住宅小区。”

  该代码还展示了Yandex如何将来自多个服务的数据组合在一起。麦克雷说,在一个复杂的过程中,一个成年人的搜索数据可能会从Yandex的搜索工具AppMetrica和该公司的出租车应用程序中提取出来,以预测他们家里是否有孩子。一些规定对儿童的年龄进行了分类,包括13岁以上和13岁以下。(Yandex的切列夫科说,人们可以叫有儿童座位的出租车,这表明他们可能“对有孩子的人可能感兴趣的特定内容感兴趣”。)

  Crypta代码中的一个元素指示了如何将所有这些数据拉到一起。存在一个用户界面,作为某人的个人资料:它显示婚姻状况、他们的预期收入、他们是否有孩子,以及三种兴趣——包括广泛的主题,如电器、食品、衣服和休息。切列夫科说,这是一个“Yandex内部工具”,员工可以看到Crypta的算法是如何对他们进行分类的,他们只能访问自己的信息。他表示:“我们没有遇到任何与访问权限滥用有关的事件。”

  政府的影响

  Yandex正在经历一场分手。2022年11月,该公司总部位于荷兰的母公司Yandex NV宣布,在俄罗斯入侵乌克兰之后,它将从俄罗斯业务中分离出来。在国际上,这家将更名的公司计划开发自动驾驶技术和云计算,同时将自己从俄罗斯的搜索、广告和其他服务中剥离出来。许多俄罗斯商人都与潜在的出售联系在一起。(7月底,Yandex NV表示,计划在今年晚些时候向股东提出重组方案。)

  在分离的过程中,俄罗斯一直在试图巩固其对互联网的控制,并加强审查。一系列新法律要求该国更多的公司和政府服务机构使用本土技术。例如,本周,芬兰和挪威的数据监管机构阻止了Yandex的国际出租车应用程序向俄罗斯发送数据,因为一项将于9月生效的新法律将允许联邦安全局(FSB)访问出租车数据。

  这些国有化的努力,加上Yandex计划中的所有权变更,让人担心克里姆林宫可能很快就能使用该公司收集的数据。俄罗斯数字版权组织Roskomsvoboda的首席技术官、技术开发组织Privacy Accelerator的创始人斯坦尼斯拉夫·沙基洛夫(Stanislav Shakirov)表示,Yandex一直试图抵制政府对数据的要求,事实证明,它比其他公司做得更好。(今年6月,该公司因未向俄罗斯安全部门提供数据而被罚款200万卢布(合2.4万美元)。)然而,沙基洛夫说,他认为情况正在改变。沙基洛夫说:“我倾向于认为,Yandex将被国有化,因此,管理和政策将发生变化。”“因此,用户数据将面临比现在大得多的威胁。”

  Yandex前工程师巴库诺夫在《连线》杂志的要求下审查了麦克雷的一些研究结果,他说,他对未来数据被滥用的可能性感到害怕。他说,看起来俄罗斯是一个“失败国家”的“新一代”,并强调了它可能如何使用技术。“Yandex是这些技术的重要组成部分,”他说。“很多年前,当我们创建这家公司时,没有人会这么想。”该公司的隐私主管Cherevko表示,在重组过程中,“公司的控制权仍将掌握在管理层手中。”其管理层根据其“核心原则”做出决策。

  但泄露的代码显示,在一个小例子中,Yandex可能已经与一家与俄罗斯政府有关联的公司共享了有限的信息。在Crypta内部有五个“匹配器”,它们将指纹识别事件与电信公司同步,包括国家支持的Rostelecom。麦克雷说,这表明俄罗斯政府的部分部门可以访问指纹识别事件。“令人震惊的是它的存在,”麦克雷说。“里面没有什么可怕的东西。(切列夫科说,该工具用于提高广告质量,帮助提高准确性,并识别试图进行欺诈的骗子。)

  麦克雷说,总的来说,无论公司发生了什么,都有关于收集过多数据的教训,以及随着时间的推移,当环境发生变化时,这些数据可能会发生什么。“没有什么是永远无害的,”她说。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读