网络社会年会

第九届网络社会年会 | 朱飞达:当人工智能遇上Web3:共筑可持续数字经济

When AI Meets Web3: for Sustainable Digital Economy

年会九演讲视频

文/朱飞达
翻译/田沛松
校对编辑/朱飞达、叶云鹤、郑叶颖


首先,我要感谢黄教授组织了这次精彩的论坛,也感谢怿斯对我的邀请。

现在,我的脑海中仍然充满了刚才听到的精彩概念、想法和对话。前一位演讲者已经为我关于数据货币(data currency)的话题做了很好的铺垫,比如提到不同社群之间对话的互联缺失。我认为这次论坛的美妙之处在于能够汇聚来自不同领域的人。我自己来自计算机科学领域,而在这里,我遇到了来自人类学、社会科学和媒体艺术的学者。我们真的很需要这样的跨领域交流,所以我觉得这是一个非常宝贵的机会。不过,我有些惊讶我们没有安排小组讨论环节,那会是一种更有趣的对话和讨论形式。下次我们可以考虑设置小组讨论环节。明年,如果能在新加坡共同组织这个论坛,我会非常欢迎大家前来。

现在回到我们的话题,我想谈谈作为可持续数字经济的Web3。这涉及另一个关键词——人工智能(AI)。AI对我们至关重要,而有趣的是,这两个词如今引发了诸多困惑。当人们谈论人工智能时,如果你问他们人工智能究竟是什么,你往往会得到极端的答案。但正如我们所知,我们甚至不确定是否已经实现了真正的人工智能,即所谓的通用人工智能(Artificial General Intelligence, AGI)。对于普通人来说,如果通过计算机获取几乎一切信息,这本身已经令人困惑;更糟糕的是,如果你问人们Web3是什么,很多人可能会误以为这只是区块链的一种时髦说法。他们认为区块链等于加密货币,加密货币等于ICO1,而ICO又等于欺诈,因此这几乎意味着人们认为Web3等于欺诈。但实际上并非如此。

今天,尽管我只有不到一个小时的时间,我还是想分享一下我对这一领域的看法。我认为Web3和AI是完美的组合,它们之间并非总是相互排斥。相反,在很多时候,它们能够携手合作,共同创造可持续的数字经济。

截屏2024-12-01 15.40.29

在过去的几年里,人工智能取得了巨大的成就。我想快速回顾一下其主要特征,并探讨为什么这一波人工智能能够再次带来如此多的惊喜。首先,正如我们所知,这些成就主要归功于大数据、大模型以及强大的计算能力。今天,前面的演讲者提到一个问题:如今我们几乎已经耗尽了所有可用的数据。下一步的挑战是,如果我们找不到优质资源来提供新的数据,那么我们现在使用的这些所谓的大模型所能达到的效果将是有限的。因此,下一步该行业的重点将是:如何提取出目前仍存在于我们大脑中的知识。这些知识并非某一领域的专业知识,而是关于这些领域的经验教训,它们仍然深藏于我们的头脑之中。现在,一些好的想法包括开发工具和平台,让我们能够自然地从大脑中提取知识,并将其转化为可用的新数据。

第二点是,将处理单一类型数据的算法工具整合在一起,实现多模态、异质性统一(multi-modal, heterogeneity unified)2。回顾人工智能的历史,我们曾为不同领域开发过算法。然而,我们为处理文本而设计的算法,无法处理多媒体或图像;如果我们为数值数据开发了一种算法,那么它对处理网络数据无能为力。如今,AI面临的挑战在于如何通过代币(token)的概念来统一各种数据集。这非常重要,现在我们真正具备跨平台能力,能够处理所有数据,并通过同一个模型统一代币,从而应对各种需求。稍后,我们将再次沿着这一思路探讨为什么代币如此重要,以及它是如何在数据经济中捕捉价值的。因为代币本身是“空”的,这意味着它可以捕捉任何东西。这听起来有点哲学意味——“空”意味着它可以成为任何东西。

第三点是人机交互方式的突破(breakthrough in human-computer-interface)。如果你回顾历史,回到计算机真正流行的时代。在我学习计算机时,从MS-DOS到Windows系统的转变是第一次重大飞跃。当时,人们惊叹道:“哇!我们可以直接通过拖放操作来完成任务,而不是输入命令行。”第二次突破是在人机交互方面,当你需要进行网页搜索时,可以选择使用谷歌搜索,而不是在索引或门户网页(如雅虎黄页)上浏览互联网。第三次突破是GPT的出现3,它真正使计算机能够以最自然、符合人类交流习惯的方式与我们互动。如果让我预测,我会说下一次突破将是当我们真正拥有神经链接时,我们可能会用思想来控制计算机或设备,但这并不是我们今天要讨论的重点。

截屏2024-12-01 21.43.20

我想谈这样一个事实:鉴于上述这些原因,人工智能不断引发讨论热潮。然而,随着人工智能变得越来越强大,我们看到了许多问题,人工智能治理也变得愈发紧迫。当然,这绝不是我们目前面临问题的详尽清单(见上图)。正如前面的演讲者所说,我们不应过于悲观。我们确实有很多理由保持乐观,并且可以提出一些好想法。由于时间有限,我们无法深入探讨每一个话题。我在大学里教授人工智能治理时,每个主题我们实际上都花了一周时间来讨论,例如隐私问题(privacy & security)。

第二个要点——交易的透明性和可验证性(the transparency and verifiability of transaction)。如今,每当我们使用ChatGPT时,人们其实并不清楚它究竟是如何保存我们的数据的。去年,当Sam Altman(即OpenAI首席执行官)来到我们校园时,我问他GPT如何存储用户数据、数据会跨会话保存多久,他给出的回答并不令人信服。因为我们确实看到了一些实例,似乎可以感觉到数据以本不该被保存的方式保存。所以,使用这种大型模型的一个问题是:它集中了计算能力,而我们正在贡献数据。因此,我们确实需要能够验证这些数据。就像在区块链中常说的那样:“不要信任,但要验证”。

此外,公平性和算法偏见问题(fairness & algorithmic bias)也在过去五年里引发广泛讨论。这是因为计算机人工智能正在为我们生活中许多重要事务做出决策,而我们开始质疑这些决策是否真正公平,是否存在偏见。一个非常有趣的例子是,前段时间在美国,一个面部识别算法引发了争议。人们发现,该系统在识别高加索人种的面部时表现极其优异,但在识别非裔美国人的面部时却表现极差。正如我们所知,这在美国是一个极为重要的问题。因此,人们开始调查究竟是什么导致这一问题——他们想知道这是由于系统性算法偏见,还是其他原因所致。最终,调查发现问题并非出在算法本身,因为算法并没有针对任何特定群体。真正的问题在于训练数据:当时用于训练模型的大多是高加索人的面部图像,而非裔美国人的面部图像数量极少。这就是为什么算法最终表现出了这样的偏差。

这进而引发了关于当今数据溯源和模型可问责性(the provenance of data and accountability of model )的讨论。鉴于人工智能在我们的生活中的重要性,一旦出现问题,我们需要能够追溯数据在整个生命周期中的每一个使用环节。这就是我们所说的数据显著性(data prominence)。不幸的是,在现在的商业环境中,很少有企业在维护数据问题上做了适当的工作。正因如此,几周前新加坡政府出台了一项法律,规定新加坡的每个企业都必须有一个新的职位——数据治理官(data governance officer),以确保有人负责整个企业中的数据管理工作。虽然这一举措现在还处于初期阶段,且执行细节尚待明确,但至少政府已经意识到我们必须这样做。所谓的责任模型(accountability model)就是要求我们参与共同治理,因为我们需要能够决定谁将为这些问题负责。

接下来的两个问题是,大模型的民主化和去中心化(the democratization and decentralization of large models),以及数据、模型和计算能力贡献的公平利润分配(the fair profit allocation for contribution of data, model and computational power)。这实际上是我们今天真正想要讨论的两个主要内容。当我们审视现今的大语言模型时,可以发现它是非常中心化的:整个人类的人工智能只掌握在少数几家公司手中。这非常不利于国家安全,并可能带来很多其他问题。因此,在学术界,我们正在研究如何将大模型的计算去中心化。由于只有少数几家公司有能力负担数十万张GPU卡,然而,如果我们看向大学、数据中心和国家机构,它们各自可能拥有数百张GPU卡。当我们把各方的计算能力汇聚起来时,或许就能实现更多可能。

但随之而来的问题是,我们该如何分配利润?如果要维持系统的运行,我们必须确保每个人都得到公平的回报。这也引出了最后一个问题,即利润分配。举一个例子,未来商业竞争不再仅仅是商业模式的竞争,因为99%的公司会意识到他们将基于GPT能力构建自己的系统。但最终,最重要的是通过业务流程积累的专有数据资产。

假设有五家医院,每家医院都掌握着关于某种疾病的部分数据。但遗憾的是,单凭任何一家医院的数据量都无法训练出一个用于健康领域的GPT模型。然而,如果将这些分散的数据汇总起来,就有可能训练出一个表现卓越的健康GPT模型。假设这五家医院成功地合并了数据,并训练出了这样一个高效的模型,而且该模型创造了可观的收益,比如100万美元。那么,我们马上就会遇到一个棘手的问题:该如何在这五家贡献数据的合作伙伴之间分配这100万美元呢?显然,我们不能仅仅依据数据量的多少来分配收益。例如,如果你贡献了一千条数据记录,而我只贡献了五百条,这是否意味着你应该获得我两倍的收益呢?我可能会争辩说,我的数据在决定模型的关键决策边界等方面发挥了更为重要的作用。因此,我们必须找到一种方法来准确评估每家医院的数据对模型性能的实际贡献。这无疑是一个亟待解决的新问题,我们称之为“数据审计”。其核心思想是,我们是否能够真正衡量出一条数据为模型带来了多少增益,这在未来至关重要。

截屏2024-12-01 22.46.57

所有这些问题促使我们从一个全新的视角去展望未来,其中一个核心特征便是高度合作。我们观察到,计算的趋势正变得越来越分散:如今我们所拥有的所有边缘计算(edge computing)设备,包括手表、手机以及笔记本电脑等,都已具备强大的计算能力4。与此同时,存储成本也不断降低,而 4G、5G 乃至未来的 6G 技术让通信变得更加便捷。因此,从逻辑上推断,这些趋势共同指向了一个结论:未来的竞争将越来越分散。

然而,我们必须明确,去中心化并不意味着孤立。每个人都意识到,我们需要合作。那么,合作的具体模式是什么呢?我列出了三种模式,虽然不想深入讨论,但希望能涵盖一些基本要点。其中,最令人兴奋的模式是,当多个业务实体存在时,它们之间能够实现有效的协调。通常而言,这种协调是集中的。例如,银行和信用部门通过协调各自贡献的欺诈数据,共同训练一个关于欺诈检测的模型,这就是我们现在广泛使用的联合学习。但我认为,未来最具潜力的模式将是无中心协调。一旦存在主导方,很可能会导致许多企业不愿加入。因此,未来最重要的问题是:多个业务实体在保持分散的同时,如何实现有效的协调,这正是最后一个模型(即 Multiple Businesses, Decentralized Coordination)所探讨的。此外,我们还必须真正考虑数据完整性,研究共识协议和治理问题。

截屏2024-12-01 23.29.19
截屏2024-12-01 23.49.15

我们的目标是实现协作式智能交易。那么,目前的现状如何呢?让我们花一分钟时间来审视一下当前的数据生态系统及其瓶颈。首先,让我们聚焦于生态系统中的各方,包括个人、企业和政府。上图中的每个箭头显示了数据是如何在不同主体之间流动的。这里列举了一些我们都很熟悉的问题。例如,当个人数据流向企业时,我们面临着不公平的价值分配机制,个人对数据的控制能力很薄弱。如今,加入某个平台或许轻而易举,但想要退出却非常困难,而且你可能无法从平台中彻底删除数据。即便你删除了,也无法确保数据被永久删除。隐私权方面的问题更是屡见不鲜,几乎每个领域都或多或少存在这样的问题。其次,如果我们从数据生命周期的角度来看,为了从数据中提取价值,原始数据需要经过模型处理后才能最终投入到应用程序中。但在这个过程中,谁拥有这些数据呢?

作为个人用户,我们拥有自己的产品数据,但并不拥有模型。模型通常归数据科学家和大学教授所有,他们通过撰写论文来分享算法,但往往缺乏真实的数据。在我攻读博士学位期间,我最常使用的数据集是DBLP数据集,它基本上是一个引文数据集5。我选择它并不是因为它多么令人兴奋,而是因为它是一个免费且对所有人开放可用的数据资源。因此,我们非常渴望获得高质量的数据集。

另一方面,对于我个人而言,把时间投入到设计应用程序中并不容易。通常,我会安排博士生去公司实习,而应用程序的所有权归公司所有。然而,由于监管或其他诸多因素,公司可能没有优质的数据来源。例如,新加坡有 PDPA(个人数据保护法),欧洲有GDPR(通用数据保护条例),而中国也曾经历过数据管理混乱的阶段,现在正逐渐走向规范化。此外,公司还需要投入大量资金来获取最新的模型,尤其是现在大部分公司都依赖于GPT。所有这些因素共同构成了一个非常孤立且不连贯的局面。

截屏2024-12-01 23.53.48

这将我们引向Web3。Web3是什么?如今,Web3不仅仅是一种技术,而关乎更深层次的理念。当我们审视数据、智能、算力和应用这四个要素时,都需要在开放、去中心但协作的环境中予以考虑。我们想要处理价值的生产、分配、流通和交换问题。为了实现这一目标,我们实际上需要在不同领域进行颠覆性变革,包括技术基建、商业模式、法律治理以及社会经济。而当我们将所有这些变革整合在一起时,实际上就是Web3。

这是一个非常全面的构想,包含两个核心要素:一是协作智能(Collaborative Intelligence),负责生成所有数据;二是代币化经济(Tokenized Economy)。现在,我想再次强调为什么代币在这个构想中如此重要。正如我之前所说,当前数字经济最大的问题是什么?如果我们仅仅把数据当作信息库,或者单纯将其视为模型的输入,那么现有的技术已经足够,人工智能完全可以模拟这些过程。然而,如果我们希望通过模型获取价值,并将其转化为一种资产类别,进而分配、交易这些资产并促使它们流通,那么情况就不同了。所有这些过程都不是通过人工完成的,而是通过自动化的算法和智能合约来实现。因此,我们必须首先将一切转化为可以被算法计算的对象。所以,代币的真正目的其实是让事物变得可计算。只有这样,代币才有意义。因为代币本身并无内在价值,它只是其他事物的数据表征。我们之所以需要这种数据表征,是为了保护底层资产与代币之间的绑定关系,从而使代币成为计算的对象。通过这种方式,我们可以通过捕捉到的价值来推动整个数字经济的发展。

截屏2024-12-02 00.06.40

不知道大家是否看过上面这张在网上非常受欢迎的图片?我想从数据智能的角度来探讨它背后的问题,并回顾一下从Web1.0到Web2.0,再到Web3.0的发展历程。首先,Web1.0 时代实际上是在讨论互联网的起源,这可以追溯到1995 年左右。互联网的出现,本质上是打破了物理世界的边界。举个例子,如果我想读一本在纽约的书,过去我只能亲自去取或者等待邮寄。但有了互联网之后,人们意识到,我们可以把事物数字化放到网上,这样全世界的人都能访问它。这就是大数据浪潮的第一个推动力,它将数十亿人的信息转移到了网上。遗憾的是,在Web1.0时代,大多数用户只是被动地接收信息,所以我们称它为“全球图书馆”。在这个图书馆里,用户只能被动地读取信息,只有互联网的“读取权限”,数据流动是单向且静态的。尽管如此,所有人都承认互联网已经为全球经济带来了巨大的推动力。这是第一个阶段。

经过十年的发展,到了2004年、2005年左右,我们迎来了所谓的Web2.0时代。正是在这一时期,人们意识到,互联网不再仅仅是阅读的平台,我们还可以在上面写内容,与世界各地的人们分享关于自己的一切。这是一个重大的转变,因为它催生了一个新词汇——用户生成内容(UGC)。自此以后,每个人都认为自己成了宇宙的中心,疯狂地分享关于自己的生活点滴。这一变化是对大数据发展的第二次大推动。回想起我在2000年初攻读博士时,虽然我们也研究庞大的数据,如数据研发网络和卫星数据等,但这些数据与人们的日常生活相去甚远。这就是Web1.0时代的数据对后来的商业产生的价值相对有限的原因。然而,在Web2.0时代,每个人都在生产关于自己及其生活的数据,商业智能因此应运而生。企业开始意识到,这些数据可以用来分析客户、获得客户、进行风险管理等。所以,大数据在Web2.0之后变得异常宝贵。我们把这个时代称为“全球发布者”(Global Publisher)时代,因为从那时起,数据流不再是单向且静态的,而是实现了双向互动。

二十年过去了,现在的年轻一代不再对在网上分享内容感到兴奋,而是视其为理所当然。他们开始质疑其他事物,尽管我们把所有内容放在网上,但它们却与自己关系不大,于是开始质疑自己究竟能从中获得什么。这些大公司从网络数据中获利,而作为内容贡献者的我们却似乎一无所获。这种身份层面的脱节以及由此产生的所有数据,引发了一系列问题,包括知识产权和利润分配。所以Web3.0着眼于如何把数据所有权还给人们,即数据主权(data sovereignty)的概念。这也解释了为何我们把Web3.0称为数据银行。从图书馆到出版社,虽然其中并未明确涉及金融概念,但银行固有地承载着这种价值概念。因此,从Web3.0开始,我们不仅仅将数据视为信息位(information bits),而是真正开始把它看作是一种资产。这意味着,我们不仅能够读和写,而且真正拥有了由自己生产的内容。

在此,我依然想进一步区分Web3与Web3.0。很多人认为“Web3”是“Web3.0”的简称,但实际上这种理解并不准确。Web3.0是一个学术概念。十多年前,一些教授提出了语义网(Semantic Web)的概念。其核心思想是:我们能否将互联网组织成类似关系型数据库的形式。例如,当我们查询某个事物时,呈现的不再是一堆松散连接的网页,而是像维基百科一样,以语义化的方式系统地组织和描述该事物的所有信息。这是一个非常好的想法,如果互联网能够以这种方式被组织起来,那才是真正的Web3.0。

但这仍然只是一个想法,或许永远不会实现。问题在于缺乏动力:作为一家公司,我为什么要这么做?为什么要将互联网转变为一个数据库?诚然,这是一个非常出色的构想,但目前人们所讨论的Web3.0,其核心更多地聚焦于信息的组织,这与Web3完全不同,Web3涉及的是数据的所有权、主权以及数据资产的税收问题。因此,我们实际上是在探讨 Web3而不是Web3.0。

截屏2024-12-02 03.06.57

经过上述讨论,我们发现所有关于Web3的本质讨论最终都建立在,通过可计算性将唯一性数据与其用户紧密绑定的基础之上。几百年来,我们一直无法解决如何紧密关联两个实体的问题。要证明两者之间的特定关联并非易事。例如,我该如何证明我拥有这部手机?或许可以说,只要我抓住它,它就是我的。或者我可以出示去年购买它的证据。但如今,任何证据都可能被轻易复制或失效。因此,如何证明两个事物是独一无二且安全绑定的,仍然是一个巨大的挑战。只有当我们拥有了这一整套技术集群时,才能够独立于任何第三方,仅基于数学原理来证明两件事物的绑定关系。

这非常重要,因为基于这种独特的绑定关系,它可以转化为所有权的证明,并且能够增强归属权。在这一切背后,数据绑定是核心所在。所有Web3应用最终都离不开不同身份数据的绑定。如果你将社交数据绑定到身份上,你就会关注所有社交文件;如果你关注游戏数据绑定,你就会查看游戏文件6。因此,你只是在用不同的数据来描述身份。此外,当我们谈论这些数据时,我认为Web3最大的潜力并不在于处理现实世界的资产,因为最近真实世界资产(RWA)的概念面临了诸多挑战。相反,Web3的真正力量在于建立所有这些虚拟事物——那些我们长期以来都知道是有价值的,但却无法将其转化为资产的东西。比如影响力、人气、数据、社交网络、信用、群体智慧以及诸如此类的事物——这些才是未来。

截屏2024-12-02 03.20.28

这不是一个关于技术的演讲,但我仍然想分享一个技术方面的观点。当我们想要实现这种经济形态时,技术方面最核心的要素会是什么?我认为有两个支柱:信任(trust)和激励(incentive),它们是实现这一目标的基础。

关于信任,这涉及分散的信任机制及其可能性。虽然我们没有时间在这里详细说明,但本质上这是关于建立我们对过去以及未来的信任的问题。对过去的信任,意味着我们能否就历史事件达成共识,这需要我们以正确的方式建构证据,并以中立的方式存储证明。我们意识到,非对称加密(asymmetric encryption)、共识协议(consensus protocol)、分布式账本技术 (distributed ledger technology)等技术有助于我们建立对过去的信任。对未来的信任,则关乎我们能否确保既定事件能够如期发生。在现实生活中,很多问题来自于我们不能执行合同,或协议无法兑现。对未来的信任依赖于基于开放代码的透明度,以及智能合约等工具,确保在条件满足时,相关事件能够自动触发并执行。

当我们谈论信任时,还需要考虑一个关于公平的问题,其中AI和数据定价尤为关键,这一话题在过去的三到五年里已经获得了大量关注。如何为数据定价是一个复杂且必须解决的难题,否则便无法实现可持续的数据交换。此外,随着数据和人工智能成为资产,人们可能会质疑未经授权的数据使用。在法律程序中,我们需要使用算法来判断某个算法是否使用了特定数据集进行训练,即数据审计。目前,我们正与毕马威会计师事务所(KPMG)合作,共同研究这一问题。

截屏2024-12-02 03.21.50

另一个是激励,这是一个相对新兴且研究投资较少的领域。我们需要考虑不同的代币化资产方式,包括同质化代币(fungible token)和非同质化代币(non-fungible token)。昨天Tom已经对此进行了讨论。对此,我有诸多案例用以回应代币经济设计(tokenomics design)的重要性。我们目睹了众多失败的案例,其根源在于对代币经济设计的忽视。更重要的是,工程师往往不熟悉代币经济设计,因此,与经济学家的合作显得尤为重要。我们正在使用的技术都需要有人设计,例如,许多计算机工程师使用经济学图书馆、市场设计机制、代币设计以及博弈论等工具,来对特定事物进行设计和治理。此外,还有很多案例,比如目前我们在新加坡管理大学开展的研究项目,专注于治理机制。我们选取了过去四年里的1,000个引发疑惑的案例,深入探究了人们投票行为、投票动机,以及投票时所处的经济状况和面临的利益冲突。这些在传统金融市场中很难调查。

然后是互操作性(interoperability)。在之前的演讲中,有人询问Web2游戏和Web3游戏之间有什么区别,我想补充的是,对于Web3游戏而言,互操作性非常重要。在Web3游戏中,如果你在一分钟之内获得武器或皮肤,便可以在另一个D5项目7中使用该武器和皮肤来下注,并获得稳定币。该稳定币可以立即使用另一个D5来提供流动性,你可以用它来购买其他资产。

因此,在一分钟内,这件游戏皮肤就有可能变成一种能为你带来月收入的资产。这种机制在传统金融市场中从未实现过,它在人类历史上是前所未有的。这也构成了所有逻辑的基础:去中心化金融(DeFi)在最初几年的发展实际上为这些游戏,特别是Web3游戏开发铺平了道路。同样,安全的资产管理至关重要,因为如果没有安全性,我们就无法谈论上述所有内容。

截屏2024-12-02 04.08.38

我想快速通过一些例子展示上述理念是如何进行实际应用的。第一个例子是在线信任与安全(online trust & safety),这是新加坡政府投资的一个2,000万美元的项目。该项目使用免费技术来保护网络安全。随着在视频中检测虚假图像变得越来越困难,追踪恶意行为者似乎变成了一场旷日持久的较量,而且往往以失败告终。原因在于存在一种名为生成对抗网络(Generative Adversarial Network, GAN)的技术——如果你有一个更好的算法来进行监测,相同的算法就会生成更好的虚假网络,所以这是一场永远不会赢的比赛。

截屏2024-12-02 04.39.53

因此我们必须从源头入手,建立“信任设计”预防框架(“trust-by-design” prevention framework)。为此,我们通过可信的网络建立可信的来源,并发布可信的内容。一个早期案例是内容来源与真实性联盟(Coalition for Content Provenance and Authenticity, C2PA)在这个联盟中,所有媒介世代(media generations)都会在他们创作和传播的内容上附上数字签名。目前,我们正在与C2PA合作,扩大这一框架的覆盖范围,以涵盖所有内容生产,至少在新加坡是如此。

截屏2024-12-02 04.52.25

第二个例子与个人数据相关。我之所以首先进入这一领域,是因为我一直专注于数据和人工智能的研究。在新加坡,人们在处理个人数据时往往不够重视,认为有《个人数据保护法》(PDPA)作为约束,违规者将面临高达100万美元的罚款,因此无需过多担忧。然而,这种心态也导致了新加坡缺乏大数据公司,几乎没有人具备处理数据的专业能力。这种情况使得新加坡的各类业务在全球竞争中处于劣势地位。

我们深知,必须有效使用数据并建立一个平台,让那些愿意贡献数据的人和希望利用数据的企业可以通过一种透明、互惠互利的方式共享数据。这就是我们正在努力的事情。大约在十年前,我提出了“个人数据银行”(personal data bank)的想法。当时,世界经济论坛(World Economic Forum)发布了一份精彩的白皮书,标题为《个人数据:一种新资产类别的出现》(Personal Data: The Emergence of a New Asset Class),该白皮书的整体观点是,未来我们的数据如同储蓄在银行里的资产,你可以用这些数据来赚取利息,也可以用这些数据来存取、借贷等。在过去几年里,我们致力于一个名为Symphony的项目,旨在将数据提供者、数据消费者以及模型开发者连接到同一个平台上。在这个平台上,每个人都可以贡献自己所拥有的资源,并按贡献比例获得相应的回报,而所有的贡献都将通过区块链技术进行计算和记录。

截屏2024-12-02 05.06.44

我通过一个实例来说明这个平台将如何有助于构建数据经济。我相信,你们很多人都在使用一些应用程序来记录每天的步数,就像我们使用智能手表一样。如果你去找这个应用程序的所有者,告诉他们你的数据是资产,能从中获利,他们可能会认为这是无稽之谈。因为这些数据看似微不足道,人们往往从有限的视角看待自身生活,难以想象这些数据能转化为货币价值。

然而,一旦这些数据被纳入全球生态系统,情况就截然不同了。例如,你每日的步数可能与来自另外十个数据源的信息相结合,如我观看电视体育节目的时长、在超市的购物清单等。当这些数据被整合并经过模型训练后,就能形成诸如“有趣运动”的标签。未来,当保险公司试图为我的人寿保险定价时,他们可能会使用这个标签。如果保险公司愿意为此支付十美元,那么即使是这一小块数据,也可能为标签的整体价值贡献5%。由此可见,即使我们仅从个人有限的视角贡献数据,但通过数据的整合、定价机制的建立以及数据的审计,这些数据就能真正转化为资产。这个例子充分展示了这样一个平台的价值所在。

截屏2024-12-02 05.22.44

另外,Web3的其他一些应用程序可能与本论坛主题更为相关。例如,我们看到Web3在科学领域的广泛应用,即DeSci(去中心化科学)。在制药设计领域,开展药物试验通常非常昂贵。如今,人们正在利用这些Web3协议推动科学和药物开发。

截屏2024-12-02 05.24.28

昨天我们还看到了关于绿色经济的项目,探讨了如何处理碳足迹等问题。正如我前面提到的,我们已经见证了一些出色的项目,它们正在取得良好的进展。

截屏2024-12-02 05.33.09

上图是一张人们试图去想象未来我们与人工智能之间可能建立何种关系的图片。在这类构想中,人工智能可能扮演动物园管理员、看门人,甚至是最理想的“仁慈独裁者”角色。但本质上,我们可以提出一些关键问题:如何与人工智能共存?这便是对齐问题(alignment problem)——如何确保人工智能与我们的利益保持一致。在对齐问题中,最大的难题是:在当今的政治格局下,人工智能究竟与谁对齐?是美国、中国,还是亚太地区?对我来说,这几乎无解。

至于智能的定义,则是我们在初步探讨时遇到的一个基本问题。目前,我们所有的观点均围绕人类中心展开。我们常用图灵测试来判断一个人工智能的优劣,这显然是个高度人类中心化的视角。我们认为,达到人类智能水平即可称为人工智能。这一看法并不仅限于我个人,众多科学家都在争论:当前的人工智能不过是伪人工智能,因为它们并不具备人类的思维方式。然而,人工智能有可能以完全不同的方式进化。因此,一个更深层次的问题是:意识究竟能否被计算?

截屏2024-12-02 05.40.53
截屏2024-12-02 05.49.10

最后,让我们来浏览一些广为人知的项目,我认为它可以被看作是人性的证明。通过这些项目,我们或许能开发出一个新方案,用以诠释何为真正的人类。即使是像NFT这样概念,也与每个人息息相关。在我看来,深入思考后你会发现,这几乎标志着人类的进步。因为我以数字形式绘制了5,000个数字艺术作品,并通过归档将这些努力具象化,这成为了对“我”存在的证明。

编者注释

  1. 首次代币发行(Initial Coin Offering),多用于加密货币众筹融资。 ↩︎
  2. 多模态(multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。 ↩︎
  3. 基于转换器的生成式预训练模型(Generative Pre-trained Transformer),一种大语言模型。 ↩︎
  4. 边缘计算(edge computing)是一种分布式计算架构,它将计算能力和数据存储推向网络的边缘,即靠近数据源或用户的地方,而不是集中于云端或数据中心。这样可以减少延迟、提高响应速度,并减轻核心网络的负担。手机、手表和笔记本电脑等设备具备上述特征。 ↩︎
  5. DBLP(DataBase systems and Logic Programming)是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。 ↩︎
  6. 这里的文件指与特定身份绑定相关的数据集合或信息记录。社交文件:指的是与社交身份绑定的各类数据,例如社交媒体上的用户信息、互动记录、好友列表、个人资料等。这些数据被“绑定”到一个身份上,形成了一个关于该身份的“文件”。游戏文件:指的是与游戏身份绑定的数据,例如游戏角色的属性、成就、装备、游戏进度等。这些数据同样被“绑定”到一个身份上,形成了一个关于该身份的“文件”。 ↩︎
  7. D5 是指一种去中心化自治组织(DAO)的结构,主要专注于为其他项目提供咨询服务。它通常由数据科学家和工程师组成,通过有机的方式开展业务。这种结构强调去中心化和自治性,旨在通过社区协作推动项目发展。 ↩︎

问答讨论

Q1:经济学家可能会说经济就像某种自然存在物,但作为人类学家或社会学家,我们更倾向于认为经济是一种社会建构。因此,当您提到人工智能需要代币时,我觉得这非常有趣。这似乎意味着,人们不能仅仅创造技术,创造人工智能的人还必须同时构建与之相适应的经济体系。在Web3的世界里,数据作为资产通常被视为一种积极的转变,因为在Web2时代,这些数据属于平台,而现在我们正在收回它们。然而,真正共产主义的思考方式是,数据根本不应该成为一种资产,而应该像氧气一样,为所有人共享。这种对资本化的抵制也存在于其他社会商品中。以献血为例,在一些国家,献血是有报酬的,但在另一些国家,人们则反对将血液作为一种资产。因此,我有两个问题:第一,人们是否正在创造一种与人工智能相匹配的经济?第二,这种经济的限度是什么?

A1:对于第一个问题,我认为我们需要深入理解事物的本质。当我们触及Web3的核心时,我们会思考究竟是什么让它如此与众不同。我们会发现,它就像数学一样,仿佛是上帝创造的——算法通过密钥为正确数据记录提供了唯一的绑定,这种结合构成了终极的核心,其他一切都建立在这一基础之上。因此,我认为基于技术的身份定义是这种经济的基础。

关于第二个问题,我同意你的看法,我们目前仍处于非常早期的阶段。我们可以讨论哪些数据应该被视为资产,哪些不应该。然而,当我们讨论金融包容性时,人们通常对自己的数据信息一无所知。例如,在新加坡,许多老年人一无所有,百病缠身,但他们的身体数据对许多医院和研究机构来说却相当宝贵。如果他们可以通过贡献自己的数据来换取一些医疗保险和服务,这又有何不可呢?这正是我们希望通过数据实现的真正的金融普惠:一方面利用技术保护个人数据,另一方面为那些希望贡献数据的人提供一个平台。

Q2:朱教授,我有一个很基础的问题。您多次提到数字资产,但数字资产似乎并没有一个非常通用的定义。那么,您能否为我们提供一些关于不同资产类型定义的看法?在传统金融领域,资产的定义非常明确,通常被视为价值、控制权和权利三个要素的集合。但在数字资产中,价值应该如何定义呢?这又关系到数据定价的问题——我们如何为数据或由人工智能生成的内容定价?而所有这些问题都涉及一个核心:如何定义权利?

A2:在当今的法律框架下,数据所有权的定义仍是开放的。例如,我从星巴克买了一杯咖啡,相关的数据似乎应该是共同拥有的——我可以分享这些数据,星巴克也可以使用它。但在其他一些平台上,用户可能在未仔细阅读的情况下就签署了用户协议。比如在X.com或Twitter上,Twitter正在明码标价出售用户的数据,而用户自己却无法在其他任何地方出售这些数据。因此,数据权利应当被明确,并且用户应当能够掌控这些权利。目前,我们正在探索开发技术工具,以帮助人们真正掌控并有效利用自己的数据。

Q3: 非常感谢您的演讲。我想知道,数据所有权的想法是否能成为解决一些问题的切入点,比如Payal之前提到的全球北方与南方的差异,以及乐观与悲观的对立?或者数据所有权的出现只是在重复现状——比如穷人,只是维持他们目前的困境,如果必要,他们甚至可以出售器官。在未来,他们是否也会被迫出售自己的数据?

A3:感谢您的提问,这正是我寻找合作伙伴的原因,以确保我们能够利用技术真正帮助人们。我们希望通过正确使用技术来确保人们的数据得到妥善处理,而不是因错误使用而造成伤害。但正如你所知,目前技术的权力高度集中。因此,重要的是,我们的研究需要在权力逐渐分散的背景下展开。过去,许多事情都被某个中心节点垄断,但随着我们每个人能够进行更多的计算,我们可以探索更分散的技术使用方式。在未来,我们希望通过技术支持赋予个体自主权,同时考虑协作治理。


讲者介绍

朱飞达
ZHU Feida

简介:朱飞达教授于2009年获得伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学博士学位,目前担任新加坡管理大学(SMU)计算与信息系统学院的终身讲席教授及副院长。他的研究兴趣包括人工智能与协同智能、区块链、数据资产与人工智能治理,并重点研究这些技术在商业、金融和消费创新方面的应用。他曾是中国平安保险集团顶峰大数据分析实验室和星展银行-新管大生命数据分析实验室的创始主任。朱教授也是SYMPHONY的创始人和首席科学家。SYMPHONY是一个基于Web3的区块链协议,旨在通过民主化和协同化的数据智能以及设计隐私来推动数据驱动经济的发展。他在包括国际数据工程大会(ICDE)、国际超大型数据库会议(VLDB)、特殊兴趣组数据管理会议(SIGMOD)、国际知识发现与数据挖掘会议(KDD)、万维网大会(WWW)、机器学习研究杂志(JMLR)、数据库系统事务杂志(TODS)、知识与数据工程期刊(TKDE)等在内的国际顶级期刊和会议上发表了100余篇同行评审论文。他在大规模频繁模式挖掘方面的工作获得了2007年IEEE国际数据工程大会(ICDE’07)和2007年亚太知识发现与数据挖掘大会(PAKDD’07)的最佳学生论文奖。他还获得了第21届数据库系统高级应用国际会议(DASFAA’16)的最佳论文奖和第17届万维网信息管理国际会议(WAIM’16)的最佳演示论文奖。朱教授荣获2019年亚太知识发现与数据挖掘大会(PAKDD)青年事业奖,并担任2024年数据库系统高级应用国际会议(DASFAA)的程序共同主席、2018年IEEE国际数据挖掘大会(ICDM’18)和2021年国际知识发现与数据挖掘会议(ACM KDD’21)的大会共同主席。