开云「中国」官方网站

KAIYUN杨光:Web3世界中数据确权算法透明生产力大释放讲堂163-3①|开云
KAIYUN杨光:Web3世界中数据确权算法透明生产力大释放讲堂163-3①
栏目:行业动态 发布时间:2023-09-24 03:50:07
 KAIYUNKAIYUN【导读】9月16日下午,文汇讲堂“数字强国系列”第三期暨163-3期《Web3:下一代互联网的生产力与生产关系变革》在上报大厦43楼融媒创新空间成功举办。上海树图区块链研究院研究总监杨光博士主讲,上海交大计算机科学与工程学系郁昱教授应邀担任对线位现场听友获赠NFT数字徽章。  本系列讲座由文汇报与上海树图区块链研究院联合主办。上报集团融媒创新空间运营团队提供本次讲座技术

  KAIYUNKAIYUN【导读】9月16日下午,文汇讲堂“数字强国系列”第三期暨163-3期《Web3:下一代互联网的生产力与生产关系变革》在上报大厦43楼融媒创新空间成功举办。上海树图区块链研究院研究总监杨光博士主讲,上海交大计算机科学与工程学系郁昱教授应邀担任对线位现场听友获赠NFT数字徽章。

  本系列讲座由文汇报与上海树图区块链研究院联合主办。上报集团融媒创新空间运营团队提供本次讲座技术支持。

  相信很多人都想像过未来的互联网、数字世界会是什么形态。2021年3月 “元宇宙”概念被正式关注并掀起热潮;2023年6月,苹果公司发布了重磅产品——MR头显设备Vision Pro,让刚降温的元宇宙热度再度燃起,业界普遍认为这个硬件将成为未来元宇宙的入口。2022年下半年到2023年上半年,AIGC(人工智能自动生成内容技术)火爆,AI绘图软件如Stable Diffusion、MidJourney、DALL-E等,能依据指令快速生成图片,自动编码插件Github Copilot,可给出示例代码和建议。它们本质上都体现了大模型带来的数字生产力的飞速提升。

  但随之而来的是,新的生产范式带来的版权争议直接限制了应用场景的推广。数字领域生产力发展已经超出了当前生产关系的水平,它们之间的割裂迫切需要新的技术去破解,此时曾经以区块链技术做底层支撑的Web3显示出技术优势,在这个层面上,我们今天再来讨论Web3这个新方式支撑的下一代互联网。

  AI代码生成软件问世之后,很快被人质疑代码,因为在某些任务上生成的代码和开源的代码非常雷同,使得该软件目前很难大规模商用。绘画也有版权争议,因为版权保护画作的具体内容,而无法保护绘画的风格。AI学习人类的风格这件事很难评判,但这样的软件会因为遭到而无法商用。

  为什么数字世界里的生产会有如此多的版权问题?这就要从整个数字世界新的生产范式说起。以典型大模型生产流程为例,最开始要有原始数据,要对原始数据有标注,从标注好的数据应用各种算法去进行人工智能的学习、训练,生成模型,再把模型做成产品,做成产品以后,通过给这个模型下达一些指令,给它一些引导,模型会生成我们想要的内容。比如命令Stable Diffusion生成某个主题的图片,它生成一个图片结果,这个结果有可能被用于训练下一轮的模型。

  在整个生产流程中,谁受益最多?一是科技公司,他们负责做人工智能的算法研究,提供了产品,对外提供服务可以收费;二是直接使用这个模型的用户,因为只有当模型可为用户产生价值的时候,用户才愿为此付费。但其他参与者,例如提供数据的人、提供标注的人,他们就很难从大模型的盛筵中分享到合理的收益。举个例子,如果ChatGPT提供服务赚到许多钱,Open AI公司会有收益,直接使用这个模型的用户会收到一部分收益,但是提供这些训练数据的人很难得到收益。

  当我们把生产流程套用到现在比较熟悉的流程上来看,前面的数据和标注都是整个生产过程中的原材料,算法和模型属于生产中的工具或者机器的角色。调用模型的用户更像是生产活动的管理者,比如一个公司的高管或者一个机器的操作者,他想做什么产品,就会去操作机器产出最后的产品。在这个过程中,提供原材料的一方,石油也好,铁矿石也好,提供了它是有收益的。但在数字世界里,产出的结果对于原材料而言,并没有给他们一个很合理的收益分配,所以才会有诸多侵权质疑。

  为什么新的生产方式会有这些问题呢?这和数据与算法自身的特点有关。从技术上来说,大模型AIGC先进的生产力创造的价值和原材料、原始数据之间的因果关系比较难以量化。可以说整个数据集创造了整个价值,但是具体到某一次使用、某一次调用,用了哪些数据、那些数据权重是多少,有没有因果关系?这件事很难说清。

  即便有了量化关系,把钱分配给众多提供数据的参与者也很困难。现实世界中的原料供应商数量相对还是比较有限的,例如大飞机这样一个非常复杂的产品,它的供应商总共也就是几万个的数量级。但大模型动辄运用几十亿、上百亿甚至上千亿数据,比如ChatGPT训练出来的结果,保守估计使用了1亿人、甚至10亿人创造的数据。

  即使科技公司主观上愿意将大模型的收益公平分配给提供数据的人,但在现有的技术上也很难实现,因为不知道该分给谁多少钱。在没有理顺收益分配关系的情况下,谈AI对于生产力的提升,一定会有人认为在整个链条中受到了不公平对待。比如实际上提供原创内容人,他们会认为自己被AI剽窃了。这些困境都和数字主权的缺失有关。

  目前,数字主权在很大程度上存在一些缺失,一方面,很多数据是互联网平台垄断公司所控制,导致数据可能存在泄露的风险,有时会侵犯用户个人的隐私。

  另一方面,在数据主权不确定时,会出现版权讹诈的风险。微博上曾有一热搜,某摄影师将自己拍摄的照片发布在自己的公众号上,某天收到律师函,称其侵权要支付版权费并赔偿。这件事中间涉及到多层版权代理问题,关键是很难验证。

  更有甚者,打车平台或外卖平台通常都会给顾客发推送,平台算法会告诉顾客某样产品要花多少钱,但同样的打车行程或同样的外卖,会因为所用手机较高端较贵,平台所给报价就高一些,反之报价就会低一些,这就是所谓的大数据杀熟。通过大数据对个人过往行为做分析,判断这个人对价格是否敏感,然后让付费能力更强、对价格不敏感的人多掏点钱,让价格敏感的人少掏点钱。这件事就很不公平,是对公平交易权的侵犯。

  现在个人的数据都在平台公司,推荐算法也在明面上运行,推荐算法到底是怎样生成推荐结果的?如何计算价格的?这一过程又不是特别透明,这个时候技术公司也很难办,它想表明自己的算法是完全公平的,但是如何证明算法的公平性?这也是Web2.0 的技术很难解决的一个问题。

  第一,在数据方面要对数据做确权,确定每一段数据属于谁,如果这个数据涉及到其他权益,也要确定来源。确权之后,再谈收益分配,有一个主体接收收益,即便是一个虚拟账户、虚拟积分也可以。这样才知道这个收益该分配给谁。

  第二,算法需要有可理解的透明性。如果算法是一个黑盒子,中间产生了什么,完全无法让他人信服。为此需要让整个算法实现透明性,并且模型要具有可解释性,最终才能保护所有参与者的知情权以及在参与中的平等地位。平等地位是指让参与者知道使用者利益数据做了什么事,产生了什么效果。

  综上所述,如何建立新型生产关系?需要用到数字主权。数字主权指个人或者组织对数字身份、数据、算法的所有权、控制权和管理权。数字身份就是对数据做确权时要有一个确权主体或权益载体,数据是整个数字世界生产的原材料,算法是生产的过程。需要从身份、原材料、过程都有一个明确的权属和关系以后,才能实现整个生产过程利益的合理分配。

  要解决数据与算法带来的问题,最终还是要靠技术的发展。2023年6月,上海市科委发布《上海市“元宇宙”关键技术攻关行动方案(2023-2025)》,沉浸式技术和Web3技术成为两个主攻方向。前者是能够构建三维虚拟互联网空间的技术;后者是保护数字主权所需用到的技术。

  如果把元宇宙看成未来数字世界发展的方向,那么这个方向有两个维度。一是生产力维度,包括人工智能、大数据、云计算、扩展现实等技术, 这些技术提升的是数字世界的生产力,让计算机处理信息的能力更强、效率更高。二是数字世界生产关系的变化维度。Web1.0、Web2.0再到Web3,是按照生产关系划分而非单纯生产力的变化。Web2.0的典型特征就是用户可以参与,没有用户参与,再好的硬件和网络设备,也只能做出 Web1.0 的应用。若想达到Web3的时代,还需将数字资产、数字身份,以及整个生产关系进一步理顺,让数据和价值归属到个人,不受平台掌控。

  Web3与以前到底有什么不一样?让我们回到科幻小说(“元宇宙”就是从科幻小说《雪崩》开始的)《三体》。书中提出了“透明思维”概念,每个三体人的想法都会广播出去,不需要任何编码、语言,三体人之间就能够接收并感知其他三体人的想法。这种交互方式达到的效果就是三体人之间完全公开透明,互相没有隐私且互相信任,这种非常高效的协同组合在一起形成一个所谓的“人列计算机”,就像计算机里的元件一样。

  这个概念后来被认为反映了区块链的理念。《三体》一书创作时间早于比特币,但有一些相似理念。可能两者受到共同源头的影响。

  那么地球人能否用这种思维去构建一个互相信任的系统?答案是可以,这就是所谓的共识机制。要达到的目标是让系统中的所有节点达成一致共识。传统的分布式系统,主要研究如何让同属于一个机构的机器保持一致。这些机器之间是可以互相信任的,运行的算法都是已知的,就像思维互相透明的三体人一样。这个时候只需要考虑有机器宕机的情况,也即故障容错(CFT)。

  而现在这些机器从三体人变成了地球人,思维不再透明,也就是说,这些电脑被不同单位、不同组织控制,上面运行什么程序,是否被修改过,已经无法完全信任。被修改过的程序可以向别人撒谎,这种情况下能否实现一个系统,且让大家还对这个系统的最终状态达成一个共识,即形成所谓拜占廷容错的共识?

  对此,区块链技术可以做到。其根本思想是,在看到他人告诉我的结果之后,要通过自己的验证才能相信。区块链里有一个说法“Don’t Trust,Verify!”,中文可以译为“不信为信”,即我不相信其他人,亦不需要考虑这个人是谁,他说的事情必须经过我自己的逻辑、技术的方式验证通过才能相信,最终目的是希望达到我对整个系统的高度信任。

  区块链中有一个很重要的概念是抗碰撞的哈希函数。效果是,任何一个数据无论多长,无论是图片还是视频,经过运算可以得到一个固定长度的输出。这个输出就叫做哈希值,可以把它理解为原始文件的数字指纹,每个文件的指纹都是不同的,就像现实中每个人的指纹不会相同一样(数学上有可能相同,但是现实中两个文件的哈希值相同的概率极低,可以忽略不计)。区块链的可验证性,最基础的就是通过哈希函数、通过数字指纹来实现。

  在区块链的数据库,它的结构和之前数据库最大的区别是,每一块数据要对前面的数据块做一个哈希运算,得到的指纹放在这个数据块里,下一块数据又把这块的指纹放进去,形成所谓的区块链。如果篡改了一小部分数据,局部变化会影响到后续所有的区块,它的指纹就会改变,为了维持所有数据块之间的链状关系、维持其合理性,所有区块都要一起修改。

  对区块链的数据库来说,技术上并不是无法修改,只是无法暗自修改一小块数据。要修改就要把从修改的这块数据之后的所有内容都修改,这种改动很难逃过他人的观测。

  哈希函数起到的作用就像现实中的骑缝章,在数据世界里,所有数据都可以盖上“骑缝章”以保证数据不可篡改性。

  第一代是比较简单的加密、解密。加密和解密的密钥一样,都可以确保信息保密性和完整性。第二代是数字签名用到的非对称公钥,加密和解密的密钥不同。打个简单的比方,第一代的对称加密有点像带锁的盒子,没有钥匙的人无法打开,而有钥匙的人都可以打开,但如有改动我们无法知道具体哪一个带有钥匙的人所为。第二代的非对称加密像一个印章,在文件上盖戳,其他人知道是我盖的戳、我认可的文件,因为这个戳无法伪造。

  第三代密码学技术保护的是计算过程的隐私性和正确性。就像监督员的角色,可以监督你是否按照所有的规定进行操作,但它又会对其看到的内容进行保密,只告诉别人你做的事情合规、正确、流程完整。有点像现实中的监督机制。

  不同的技术实现功能也有差异,存在许多应用场景。例如,第三代密码学最早的技术被认为是安全多方计算。其源自姚期智先生于1982年提出的“百万富翁问题”,即两个有钱人想比富又不想透露具体财产,怎么办?姚先生表示,这件事可以通过密码学的技术得到解决。这其实就是比较数字大小,在此基础上可以做出很多更复杂的应用。

  比如可以设计一个用于选举的应用,每个人投票后对他人保密,但又可以保证最终得到的结果是根据投票的情况计算出来的。或像电子拍卖一样,每个人可以分别出价,按照拍卖程序计算,最后得出谁的出价最高,获得拍品。但其他人并不知道别人的报价与最后的成交价。

  密码学技术上还有一个非常有趣的零知识证明,指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。比如,证明者向他人证明这个数独是有解的,最简单的方式是什么?就是证明者填好后告诉他人,他人验证填好的数独确实是正确的,就知道这个数独是有解的。但在许多场合,这样的验证方式是不可接受的,因为有些商品在使用后就不再具备可销售性。零知识证明可以解决这个问题,也可以证明许多别的问题,比如证明一个方程是否有解,一个数字签名是否是本人生成的。

  同态加密技术是指先加密后计算和先计算后加密,最后得到的结果相同。同态计算的情况下,明文计算与密文计算的结果是相对应的,把密文进行解密就可以得到真正的明文结果。在这个过程中,计算者看到的所有东西都是密文,同时计算者又可以把很繁重的工作完成,最后得到一个结果,但可以把结果给别人,付款方会认为该结果是有用的。现在新技术在得出结果时,会向他人证明,该结果确实是经过这些计算生成的,而非凭空编造的。

  举一个很简单的例子,比如明文数据就是(x,y),加密后得到(gx,gy),从一个乘方还原回原来的数去求对数,计算成本会非常高。密码学实际上会用一些更复杂的数学结构,比如椭圆曲线群,在上面求对数的难度更高。从(x,y)计算x+y,得到这个结果很简单。gx和gy做同态加法,同态加法在密文域上可以当成乘法,可以计算出gx+y,x+y和gx+y就是明文和密文的对应关系。但是从密文很难直接推导出明文是什么,除非有密钥可以解密。同态加密解决的事就是,让别人帮我完成许多计算任务,但我又不想让别人知道计算的内容是什么,这是很有趣的技术。如果加法和乘法都可以做,也被称之为全同态加密。

  如果要给三体人做一个敏感问题调查问卷,比如询问他们有没有作弊过?这件事他们无法撒谎,但又属于敏感问题,他们只能不回答。这就是差分隐私技术,现在很多互联网公司已经在使用了。例如,一共有64%的人曾经作弊,这不叫做隐私,具体到某个人曾经作弊过,这就是隐私了。

  如何解决?让这些人先随机扔个硬币,以此决定此人是否回答这个问题,还是再扔一个硬币回答一个随机的答案。根据这个结果可以很容易地推测,里面有一部分人是我们刻意引入的噪声干扰,把最终的统计结果做个简单处理,就可以知道真实的统计结果是怎样的。对应到每个人回答的问题和每个人的真实情况,并没有必然因果关系,这可以很好地保护隐私。

  到Web3时代,最核心的是基于区块链技术的一个中立的计算平台,不受任何机构和组织控制,密码学技术可让别人验证其上处理信息的过程都正确、合规。此时才可放心地把数字身份、数字权益、所有权等的许多内容放在Web3的世界里实现。

  凡是数字世界里需要信任的地方都可以用Web3来解决处理。比如非金融场景中比较典型的场景就是NFT数字藏品,在国内比较多;现实世界有物流、安防监控和各种手段进行信息存证,未来发生纠纷时,数字世界的存证留痕会成为证据。典型案例是,在电商平台下单采购,电商平台删掉了这笔订单,区块链存证是可以为购买者找回公道的。

  还可实施数字化契约来实现信任问题,例如资金池的风险众所周知。一般我们会把资金托管给有资质、可信赖的人,像保险、信托或者版权代理等可信的中介,这个中介出售的就是合规性和信任度。这种信任在一些比较简单的场合可以被Web3技术直接替代,这个过程是公开透明的,且成本和风险都很低。

  更进一步说,你想用数据和别人做一些交换或者帮别人做一些算力交易,目前是比较困难的,但在Web3平台加上一些密码学技术,在未来也有望解决。

  尽管Web3发展也会面临很多挑战,诸如技术发展、法律合规,以及教育普及等,但其未来发展趋势就是让信任变得更广泛,信任的程度变得更强;让处理能力变得更强,用更好的机器、更少的人来实现。相信,下一代互联网世界会变得更公平、更透明、更好地释放数字技术的新生产力。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  占据40%市场份额!比亚迪在东南亚市场销量飙升,击败特斯拉【附比亚迪企业分析】

  11-0、11-0,3-0横扫日本张本智和,王楚钦梁靖崑率队勇夺2连胜

  iPhone 15/15 Plus首发体验:Pro级实力认证,加量不加价

  生产一架歼20只需8天?央视高调曝光生产线岁时觉得自己一事无成,决定创办小米