《科技之巅2》 推荐序一 把握未来的产业动态和科技趋势 中国科技领域目前流行一个词——黑科技。它的原意是指非人类目前知识和科学水平可以得到的技术或产品。如果以这个标准来要求,黑科技只存在于科幻之中。但是,今天它的含义已经降低到了代表当前最高科技成就的产品。当然这些产品不仅科技含量高,还会对社会进步产生巨大的推动作用。至于哪些技术和产品可以算黑科技,哪些不过是旧酒瓶装新酒,这得由权威性的机构和专家来评估。《麻省理工科技评论》自然算得上是这样一个机构,它每年会评选出代表当今最高科技成就、商业潜力广泛、能够极大改变人类生活的10大全球突破性科技成就,并且编纂成《科技之巅》系列图书。这件事,他们已经做了很多年,而近年来,由于中国人对科技的兴趣不断增加,全民创业创新的热情高涨,因此大家开始了对《麻省理工科技评论》评选出的年度10大科技的关注。 对于这些技术,我一般建议关注以下两个方面。 一方面是技术本身和实现方法。《麻省理工科技评论》评选的这些全球突破性技术,大部分是将科学和技术合二为一的,而不单纯是技术在工程上的实现或应用。另一方面,对它们的了解可以帮助我们理解今天科技发展的有效途径,即如何采用已有的科学成就来做一件影响未来的事情,同时如何根据应用的需求补充所需要的科学研究。比如对基因编辑技术和纳米材料结构的研究就很难说清楚是属于科学的范畴,还是属于工程技术的范畴。它们依靠科学和技术相互影响,渐进迭代往前发展,这是当今最新科技发展的新趋势。 了解每年最新的科技成就有助于我们把握未来产业的动态和科技发展趋势。通常来讲,预测未来是一件非常难的事情,如果你看看那些大的跨国公司两年前对今天所做出的预测,就能发现一大半是不准确的,而对10年以上的预测,各个公司更是错得离谱。预测不准确有很多原因,如下所示。 认识的局限性导致过高或者过低估计了一些困难,前几年对虚拟现实(vr)技术的判断就明显过于乐观了,而10年前对智能手机的预测又明显悲观了。 行业的快速变迁使得很多原本以为有意义的事情变得不再需要了,比如高密度磁存储技术。 意想不到的一项技术突破导致其他领域产生了根本性的改变,比如大数据和人工智能对医疗行业的影响就是如此。 所幸的是,《麻省理工科技评论》做出的判断还是比较准确的。根据我对它过去8年每年评选的科技成就的追踪,大约有一半变成了改变世界的产品,或者至少在今天依然按照预想的进步速度在往前推进,比如可回收式火箭、基因编辑、google深度学习等。对于这些技术的了解可以让我们的工作更加具有明确的方向。不过《麻省理工科技评论》看好的另一半技术后来则被证明是不可行的,比如google为全球提供wi-fi服务的气球、magic leap公司的虚拟现实(vr)+增强现实(ar)技术。对于这些技术的了解,可以看出在技术发展和工程实现上的一些误区,避免我们自己再犯同样的错误。 2017年,《麻省理工科技评论》列举了10大全球突破性技术:强化学习、360°自拍、基因疗法2.0、太阳能热光伏电池、细胞图谱、自动驾驶货车、刷脸支付、实用型量子计算机、治愈瘫痪、僵尸物联网。我个人比较看好的是刷脸支付、基因疗法2.0、强化学习、治愈瘫痪、细胞图谱和自动驾驶汽车这六项。这不仅因为它们的技术相对成熟,更因为它们对世界的影响力巨大。至于我说得对不对,在5~10年后可以验证。大家不妨也对这10大技术做一个了解,并做一个判断,回过头来,看看自己的判断力,在这个过程中,我们的认知将得到提高。 吴军 著名学者,投资人,人工智能、语音识别和互联网搜索专家 2017年5月 推荐序二 深科技的史诗 经济学的一些基本假设是值得怀疑的。稀缺是经济学的基本假设之一。经济学认为资源是稀缺的,所以我们才要优化配置资源,才有供给曲线。但实际情况是,几十亿年来地球的物质资源不增不减,而人类的财富、生活却越来越丰富。在物质并没有增多的前提下,是什么驱动了增长?什么是真正稀缺的? 答案是深科技(deep tech)!是深科技把几十亿年都没有价值的“沙子”变成了今天十分珍贵的“半导体材料”,是深科技把有害的“大肠杆菌”变成了今天效率最高的“合成化合物工厂”,是深科技把普洒世界的阳光变成了永不枯竭的“光能”。什么是深科技?我对其的定义是需求驱动的以基础科学突破为依托的解决产业问题的科技体系! 我把深科技分为平台型科技和专用型科技两种。 平台型科技:往往是划时代的通用技术,它的出现会按照“创新扩散曲线”改变众多行业,比如18世纪的蒸汽机、19世纪的电力、20世纪的互联网、21世纪的人工智能和基因测序等。 专用型科技:指某一行业的特定技术。比如今天的合成生物学技术、化合物半导体技术、无人驾驶汽车、软硬件数据深度融合技术等。 麻省理工学院(mit)作为全球最顶尖的理工科大学,一向注重基础研究并以解决实际问题为导向,其多元交叉的院系设置和学科设置充分体现了其解决产业问题的良苦用心。每年美国高校科技创业中拿到a轮投资并制造出产品的“有效比率”约为20%,而麻省理工学院却能达到50%! 我们在麻省理工学院设立了“源创力孵化器(crii)”,以每年孵化60个深科技项目的速度验证了以上数据。 《麻省理工科技评论》作为世界上最权威的科技媒体之一,其评选的“10大全球突破性技术”是每年深科技创新的典型代表。这个榜单涵盖了未来5年内的科技价值创造趋势,是企业和投资者不能忽略的内容。 我无须在此评论每个入选技术,因为本书中的各位专家对各个技术有详细的解读和评论。这里,我想表述三个观点。 一、全球8个深科技地理位置和科技创新链条的重构 世界深科技的分布是环大西洋和环太平洋展开的。这和2017年的“10大全球突破性技术”领先公司的分布是一致的。科特勒咨询集团(kmg)在2016年针对人工智能、基因测序、合成生物学、医疗技术、新材料以及下一代计算6个领域的深度技术和顶级人才进行了统计。我们发现,32%的全球化合物半导体的科技专利和创业公司汇集在美国太平洋地区,而美国西海岸已经是世界级的基因测序(ngs)和合成生物学产业的集群,有接近一半的全球相关专利和顶级人才汇聚于此。在全球人工智能的专利和数学顶级人才中,更有超过40%的人才都在泛大西洋沿岸,如美国波士顿、英国和法国,其中法国的数学技术和英国的无人驾驶车底层技术、后量子时代的“格密码”技术更是领先于全球,那里有最好的专家和最贵的人才(2016年,牛津大学人工智能博士生的毕业起薪为300万英镑/年)。当我们聚焦医疗技术的时候,从大西洋沿岸到德国的黑森林地区,欧洲的7大“医谷”涵盖了2016年全球医疗技术和器械申报的55%,深科技和深科技人才高度集群化。我们确定了8个“世界深科技集群”,这些集群占全球6大新兴技术专利和应用科研转化数量的75%以上。 故事并没有讲完,如果我们再在这个“深科技地图”上加上一层“产业地图”,你就会发现一个巨大的反差——产业中心和技术中心的分离!在很多行业都会出现这种状况,美国原创的深度技术,大规模产业化却发生在中国,比如无线充电产业、化合物半导体产业、新能源车产业、显示产业等。深科技的价值实现往往是跨区域的,深科技的市场价值创造需要不同的市场环境和产业生态。例如,美国麻省理工学院拥有全球最顶尖的光学材料技术和人才,在新型光学材料领域也有很多专利。但是,当麻省理工学院的创业公司在做量子点光学材料的时候,它们碰到了问题:美国没有制作该材料的公司而且购买该材料的客户也不在美国!整个大屏幕显示产业的制造技术和终端客户已经几乎被亚洲的企业垄断!因此,这家麻省理工学院的创业公司最终把总部设在了中国,贴近客户的应用研发、生产、营销全部在中国,而基础研发留在了麻省理工学院。 在我们进行全球科技产业战略咨询和科技投资的过程中看到的这种例子有很多。深科技的地理分布和科技产业的地理分布并不总是重合的,这是全球流动性增加和全球化分工的一个必然结果。其根本原因在于:在亚洲特别是中国市场,在需求高端化和传统科技发达国家制造业能力虚无化的背景下,需求驱动的深度科技产业化正大规模地向中国转移!这也是我要谈的第二个观点。 二、中国在全球科技产业中的新角色:高端需求引领全球深科技产业发展 知识到财富的转化过程一直在演变。从知识创造端到需求实现端,全球深科技创新链条一直在演变的过程中。300年前,知识创造稀缺但需求巨大,现在则是知识创造端呈现爆炸性增长,而全球需求端增长缓慢,甚至美国经济学家提出了“需求已死”的观点。以前,深科技创新链各个环节的工作需要不同的创新组织完成,现在则是一个创新组织就能承担深科技创新链的全部工作环节(如苹果公司和华大基因公司)。这使得需求作用能够直达科技创新链的源头,并导致需求端在深科技创新链上的重要性日益增强。 中国需求日趋高端化。经过30年的经济发展,以深圳、上海、杭州为代表的城市对技术产品的需求逐步进化到足以拉动人工智能、基因测序、新能源等新一轮通用性技术的大规模应用创新。中国对新型技术产品需求的高级化和多元化已经超越发达国家,正在成为国际化科技创新的“力量中心”。 中国正在吸引全球8大科技创新节点资源的汇聚。中国有深圳这样的产业配套完备和个性化定制能力极强的城市,且深圳在国际科技创新链中的作用正日益凸显。最近5年,仅深圳一个城市就吸引了2000多个来自波士顿、牛津、硅谷、慕尼黑、特拉维夫等地的国际级科技公司及人才到深圳创办企业或设立卓越中心、孵化器,而且这在中国城市中并非绝无仅有的现象。这一现象背后的逻辑说明中国的发展路径是从最早的全球低成本加工中心,到世界增值制造工厂,再到今天的正在成为全球科技产业的中心。中国在国际科技创新格局中的角色的重要变化为我们带来了无限机遇。企业和政府需要更大的规划和载体将中国的优势放大,实现国际范围内新一轮创新资源的聚合。 三、中国如何行动:国际深度科技社会实验区和离岸科技创新中心 中国应鼓励深圳等领先城市在建设国际化创新城市方面实现跨越。关键是利用产业生态优势演绎好市场需求带动的故事,从根本上改变中国在国际创新格局中的角色,实现从制造者到重要创造者的角色转变。 2016年10月,我在深圳向李克强总理汇报了离岸创新和国际技术实验室的核心思路:通过人大立法,在特定区域设立以深科技创新为主要内容的实验区。利用深圳在需求端的特殊优势构建国际新技术、新产品的体验中心,重点解决国际范围内的颠覆式创新产品的社会实验瓶颈,进而带动源头型深科技和人才围绕技术特区大规模聚集,使技术特区成为国际协同创新的重要平台,聚合全球的创新资源,实现打造国际化创新城市的战略目标。 中国的领先城市需要构架两个关键平台。 (一)国际深度科技社会实验室 目前,如无人驾驶汽车、机器人、新一代计算、超材料、肿瘤免疫治疗、合成生物产业等颠覆式创新产品要实现大规模应用,都需要一个真实的社会实验场景,以形成相应的社会管理规范和法规体系,同时利用需求端反馈,完善产品。一些生命健康技术也需要小范围的社会实验来改进技术、实现应用。这些工作在传统的科技发达国家完成颇有困难,但中国的领先城市却可以建立这样一个特色小镇或区域。2016年,我们联合深圳前沿产业基金、源创力和招商局集团漳州公司共同发起的厦门湾“无人驾驶汽车新技术社会实验室(小镇)”获得了来自有“无人汽车行业斯坦福”之称的美国密歇根大学mcity以及包括福特、特斯拉、谷歌等近60个会员车企的积极响应,足以说明需求所在。 (二)离岸科技创新中心 如前文所述,深科技的源头创新集中在8个“深科技集群”,这些集群占全球6大新兴技术专利和应用科研转化数量的75%以上。我们如果想获得深科技和顶级人才,就必须深入这些集群,在这些集群中设立“国际离岸创新中心”,让这些顶尖人才不用离开本地就可以参与中国产业链的创新,在加速阶段再进入中国落地。这些离岸创新中心将扮演“研究院+孵化器”的角色,下载“大脑”,就近转化人才。中国科协和深圳市已经率先行动,2017年,深圳市支持了以源创力(cri)为代表的10家机构在海外设立“国际离岸创新中心”,其分布在牛津、柏林、斯德哥尔摩、波士顿、硅谷等地。 各位亲爱的读者,无数的研究和案例已经证明:真正推动社会和人类进步的是永不停步的“变革和创新”。科学技术是人类文明的瑰宝,也是一部人类不断求新求变的万年史诗!正如现代营销学之父——菲利普·科特勒博士所说:“如果5年内你还在按照一样的方式做着一样的生意,那么你就快要关门大吉了!” 拥抱技术,用自己的努力和天赋去改变世界吧!永远有一个未来在等着你去创造,永远有一个承诺等着你去实现! 祝阅读愉悦! 曹虎 博士 科特勒咨询集团(kmg)中国区总裁 2017年4月4日,深圳小径湾 推荐序三 科技盘点,未来的预案 《麻省理工科技评论》的10大突破性技术已经评了17年。每年10项,迄今也已经盘点了100多项科技突破。2001年刚经历20世纪末的互联网泡沫破灭,2017年则正好见证了2016年人工智能的狂飙突进。每年入选的项目连缀在一起,就构成了近20年科技突破的具象图景。我们从上一本书《科技之巅:<麻省理工科技评论>50大全球突破性技术深度剖析》中可以看到2012到2016的共50项突破性技术,像基因技术和新能源每年都入选,从2013年开始,人工智能&机器人也开始每期必有。这也恰好是塑造未来社会的几项关键科技。 2016年的畅销书《未来简史》将这几年的热点词——“人工智能”“大数据”等嵌入到了人类历史中,给出了一些历史命运层面的抽象,有追捧,也有争议。但是这本书把科技对于人类的宏观影响重新呈现在忙于世务的大众面前,也让人重新审视科技的两面性:水亦载舟,亦能覆舟。科技可以成为人类器官的延伸,扩大人类的认知和活动范围,释放巨大的能量,创造巨大的财富;它也可以替代人类本身,将人类的认知和活动缩减到基础水平,让人类变成机器控制的寄生虫,并最后被机器奴役。 人与科技的关系从来都不是单向的,我们往往只注意到人对科技的利用,却忽视了科技对人的改造。我采访过的凯文·凯利在《失控》和《科技想要什么》里把科技比作一种生命体,它与人类是一种共生关系,二者在交互影响中不断演进,最终实现碳基生命和硅基生命的融合,创造出全新的文明。这看似是一个天马行空的狂想,但细品起来,也不失其现实性。随着“10大突破性技术”中的机械器官、基因改造、微型机器人、神经芯片一个个步入大众生活,可不就是碳基生命一点点被硅基化吗?也许,人机融合的那一天,比我们想象的还要近。 最近一部经典动画电影的真人版《攻壳机动队》,又一次掀起了对于人类与人工智能的微妙分野的思考。这部赛博朋克的电影,讲述了人被“义体化”改造后,徘徊在“人”与“非人”间的困惑。如果人是一种灵肉结合,那完全机械化制造的身体还是原来那个“我”吗?如果人只是自我意识,身体无关紧要,那还有什么能限制“我”跳脱躯体的束缚,彻底融入网络,从而实现生命的完全虚拟化?到那个时候,真人的意识和人工智能的意识,在同样没有躯体的情况下,二者还能划出严格的区别吗?这已经涉及了对于生命的本质思考。现在我们的自我认知,还处在几个世纪以来科学给我们塑造的框架中。可以说,这个自我认知正处在一个革命的前夜。一旦科技突破了关键的几个坎,人类必将面临巨大的自我质疑和认知混乱。 这还只是科技突破影响人类社会的其中一个因素。如果基因工程也如同现在这样,每年都出现实质性的技术或认知进展,在不久的未来,我们就将拥有“上帝之手”,可以依据自己的需要改造遗传信息,那时,生命的尊严将进一步被质疑。任何可被改造的东西,都会自动丧失其神圣性,也将刺激狂人的出现。谁来保证出于良善的基因改造,不会被扭曲成唯利是图的商业工具和突破底线的社会实验?届时,同样也会出现无尽的伦理论战。 最后,随着人类的扩张,获得新能源和太空拓殖的欲望不断增强,相应的技术也不断进步。天才的技术人员正在一步步把科幻小说变为现实。手握特斯拉、太阳城和space x的马斯克,只是他们的一个代表。到了全世界面临能源替代的那一刻,现有的政经格局都将全部重建;而人类大规模进入太空的时刻,也将带来完全不同于现有秩序的太空秩序。我们,不管是科研人员还是企业家,甚至是普通的大众观察者,在为这些即将面临的“立法”事业做好准备了吗? 科技突破是艰难的,既需要皓首穷经的耐心,也需要光彩夺目的天分。但是更艰难的,是针对科技突破对于人类的影响做好政治、经济、社会等全方面的调整跟进,因为这需要的是从顶层设计到大众认同的复杂工程。对科技的期望总是让人充满阳光,但是科技的后果却并非阳光普照。当我们处在科学革命的大潮中,往往过于乐观和热忱;等到变革席卷了我们,才有人开始反思科技的两面性,意识到其他方面的滞后所带来的头重脚轻的危险。很多时候,对于科技突破的颂扬往往出自对科技的一知半解。所以我们要时刻留心自己叶公好龙的心理,真正去理解科技的影响,将每年的科技盘点作为未来预案的素材。 因为历史,总是在于事无补时,才给我们最深刻的启示。 余晨 易宝支付联合创始人、总裁 2017年4月24日 推荐序四 技术将重塑我们的行业 从2001年起,《麻省理工科技评论》都会评选出当年的“10大全球突破性技术”榜单。我们认为这些技术将革新整个行业,改变相关领域甚至是当今社会的本质,它们所带来的影响是有目共睹的。 那么,我们更倾向于选择哪些技术呢?答案是能够跨学科、跨产业应用的技术。我们非常关心某个领域的发展是否并如何推动其他领域的进步,比如人工智能,这项技术已经成为自动驾驶汽车发展的关键点。 我们欣赏那些充满抱负的解决方案,比如谷歌将互联网推广到全世界的计划。我们赞美那些精确且充满爆发力的技术,比如科学家们使用crispr为两只猕猴进行基因编辑,这项技术的巨大潜力让我们叹为观止。 今年的10项突破性技术将一如既往地反映这种喜好。值得高兴的是,我们还能与《麻省理工科技评论》的中国独家运营方“deep tech深科技”一道将这个榜单带到中国大陆。 在2017年的榜单中,“强化学习”介绍了一种雄心勃勃的人工智能技术:计算机不断地重复某些动作,直到可以顺畅地完成某一目标,最后,整个系统可以思考设计出达到目标的最佳方法。 强化学习实际上并不新鲜,早在1951年,人工智能先驱marvin minsky就提出过这种方法,遗憾的是它并未奏效。但是,在2016年3月,alpha go这种使用强化学习进行训练的人工智能打败了围棋高手李世石…… 这一功绩非同凡响,因为无懈可击的围棋程序几乎是不存在的……alpha go不仅仅能够了解围棋本身的奥秘,它的走法甚至让顶尖棋手们也摸不着头脑。 目前,uber、open ai和deep mind等公司都在探索强化学习,希望能够加快无人驾驶和可抓取机器人的研发。 还有一项技术则是神经科学与电子科学跨学科融合的产物,可以用以治愈瘫痪。该技术介绍了法国神经科学家grégoire courtine如何为半瘫痪猕猴安装颅内记录装置,然后在其局部断裂的脊髓周围缝合电极,大脑和脊髓通过这些电子设备实现了无线连接。最终,系统读取到猕猴的试图移动的信息,然后立即将其以生物电信号的形式传输到脊柱,“突然,猕猴的腿可以延伸并弯曲,而且可以蹒跚前行”。 此前,曾有研究者通过大脑植入式装置实现了对机器手臂控制,而这一次,通过人脑信息读取技术和电子元件的无线连接,研究人员正在开发“神经旁路”,这让残疾人能够再次控制四肢。 以上只是2017年20大技术的两项,事实上,榜单中的每一项技术都有令人印象深刻的应用场景。 在过去一年对这些技术进行追踪时,我们深刻认识到,这些技术的影响力将来源于它们是否能解决当前人类面临的最重大挑战。我相信,这些技术将重塑我们的行业,也将在中国经济发展中起到重要作用。 杰森·庞廷(janson pontin) 《麻省理工科技评论》总编辑兼出版人 麻省理工企业论坛(mit enterprise forum)主席 2017年4月 推荐序五 全球科技发展的赋能器 通过不断发明工具,人类在不均匀地进化。语言汇聚原始部落,马鞍马蹬成就欧亚帝国,“人造种子”引发人口爆炸,蒸汽机创造工业文明,大规模集成电路激活数字经济,人工智能供养人类……人类一直都不是“万物之灵”,而是大自然最好的学生,研发新技术创造工具,甚至创造更聪明的老师(如谷歌围棋老师alpha go)。弱小的人类创造各种先进的工具,驯服其他物种,开采地球资源,繁衍生息。 每一个时代都会出现一种取之不竭、用之不尽的通用型创新技术,使人类社会升维到一个完全陌生的“未来世界”,农民成为工业时代的“难民”,工人成为信息时代的“难民”,公司白领是否会成为人工智能时代的“难民”?这个问题蕴藏着有趣的思考,科技一直在探索复杂事物背后的本质规律,而规律即是在不同起始条件下可供计算的方法——“算法”。所以英国mathematica软件创始人史蒂芬·沃尔夫勒姆指出“宇宙的本质是计算”(宇宙是元胞自动机),万物皆有逻辑,万事皆可计算,只是现在各行各业受限于冯·诺依曼架构的计算速度与人脑思考的容量瓶颈,所以按照历史规律,人类正在发明新一代工具——“机器智能引擎”,以蕴含机器学习能力的“智能计算体”感知、认知世界,并加速推动所有科学研发、商业转型,云计算、量子计算提升计算速度。机器智能扩大了人类智商与智慧容量,每一代新技术工具都是人类“利己”的选择,而机器智能引起的部分企业员工阶段性转岗、失业,则是以“信息难民”的“过渡性不适应”,换来人类整体的全局利益最大化。 工业革命是用机器来生产机器,智能革命是用人工智能来制造人工智能、机器智能的“福特生产线”将快速组装出大批量低成本的适用于各种场景的人工智能机器人。机器人的“心脏”就是专业人工智能处理器,如视频识别芯片、语音识别芯片、自动驾驶芯片等。工业机器智能体、农业机器智能体、金融机器智能体、生活服务机器智能体无处不在,试想20年后的“双11”购物节,不再是20亿人在抢购、秒杀,而是数百亿台机器智能体学习主人的喜好,自动在线上比价、砍价、支付,并在线下自动送货、维修、投诉。机器销售机器、机器维修机器、机器改进机器,自我学习型的机器智能将解放人类的体力和脑力。 机器智能是“工具之王”,像蒸汽机、发电机、计算机一样改变人类社会的各个方面。超级机器智能体能够“镜像”般模拟真实地球的运转,不断在线自我改造的智能算法即成为这个“赛博地球”的虚拟物理法则,进而仿真模拟、分析决策人类真实世界中的城市规划、交通调度、生活起居,以及大国之间的贸易冲突、战争攻伐、物资调配,避免无谓的生产浪费、物资调动、战争牺牲。机器智能成为人脑的“最强外挂”,国家与国家的竞争、企业与企业的竞争、人与人的竞争都是“人机智能混合体”之间的竞争。机器智能是人类发明史上最强大的工具,擅用机器智能者兴,不懂机器智能者将快速衰落。 机器智能工具终将人人普及。当每一代新技术工具刚出现时,总在不断完善,首先被财力雄厚的全球科研机构与国防科工机构使用,随后是具有创新意识的政府、企业,最后才是社会大众,集成电路、互联网都印证了这一点。然而这一阶段略有不同,万物互联时代任凭机器智能应用天然诞生在公共云上或云边缘,每一个机器终端都将遍布“原生互联网智能服务”,像offce软件一样简单的机器智能工具将真正降低入门使用的门槛。横亘在产业互联网与消费互联网之间的行业壁垒终会消失,互联网企业与国家科研机构合作研发机器智能的核心技术,并被政府、企业广泛应用在新能源、新制造、新金融、新零售、新技术等领域中。比如“僵尸物联网”中全球174亿台物联终端的攻防都融入了机器学习技术;中国企业“协鑫光伏”采用工业数据智能提升太阳能硅片的切片良品率,降低新能源的成本;淘宝天猫“双11”促销中1207亿件交易商品全部采用“强化学习”技术设定电商网页上的搜索推荐排序;特斯拉、谷歌、沃尔沃等自动驾驶汽车采用云上训练机器智能、端上应用智能驾驶的方式,行驶5127公里无需人工干预,中国杭州的城市级红绿灯、摄像头都已由“城市大脑”掌控,车辆通行速度最高提升11%;中国1.5亿名消费者在日常消费中使用支付宝的“刷脸支付”,采用机器智能持续优化人脸识别技术;360°自拍在云端拼接、渲染、分发、浏览;华大基因等众多生命科学机构利用普惠云计算资源提供基因大数据分析服务和基因应用市场。当前,所有的突破性技术都离不开云端数据智能。 现在的“云网端”是第一代互联网基础设施,其容量是为70亿人上网而建设准备的。而机器智能物联网由成百上千亿台智能体组成,包括自动驾驶汽车、无人机、无人船、数字机床、聊天机器人、新闻机器人、导购机器人、ar眼镜、智能摄像头、智能音箱、智能路网等。天然具有的o2o属性,超高频机器智能间的互动流量将导致机器智能物联网全面升级至第二代物联网基础设施。 机器智能是全球科技发展的赋能器,而其基础是计算能力。以阿里云为代表的云计算产业,是中国科技实力换道超车的主阵地,美国科研、国防、大学、制造企业在云上研究测试、生产合作:美国nasa用云平台支撑“好奇”号火星车星际工程;ge以predix工业云平台为全球工业企业分析生产大数据、监控设备故障;谷歌云上的tensor flow开发平台汇聚了全球最多的机器智能研究机构与开发者,不断研发各行业人工智能应用产品。以云计算探索机器智能,是中国各行业的科技加速器。通过在芯片、云基础设施、开放平台、行业应用领域的长期投入,由国家承担基础研发,激活产业应用转化,抢占全球制高点,不仅是中美和欧洲国家商业重新繁荣的“催化剂”,更是国家走向兴盛的“杀手锏”。 衷心祝愿本书的所有读者能够不断学习,成长为新一代机器智能的能工巧匠! 田丰 阿里云研究中心主任 2017年3月15日于北京 前言 fire and footprints 火光与脚印 人类发展经历了漫长时期。最重要的进化,是学会使用工具,有了“技术”。 没有工具,人类就是一个脆弱的物种,没有任何人可以手无寸铁地面对自然。技术伴随人类成长,从野蛮走向文明。人类历史就是一部技术史。 几十万年前,地球上有多种猿人,都是非洲丛林中的普通种群,以啃食野果为生。但是,其中一种猿人,也许是基因突变,也许是偶尔使然,学会了以锋利的石块采割果实,捕猎动物,剥制兽皮。这一“技术”的获得,让它从其他猿人和动物中分离出来,人类学家称它为“智人”(homo sapiens)。人类历史由此开始,史称“旧石器时代”。 石器之外,智人还学会了取火。火对于古人类犹如电对于现代人。火能煮熟食物,以前无法吃的块茎、种子、皮肉可以成为熟食。食物的改善让人类大脑进一步发育,加快了进化。火提供温暖,让人类在冰河时期未遭灭绝。火提供照明,夜幕降临也能活动,并能进入洞穴等黑暗场所。火能击退野兽,还能将茂密的丛林烧成食物满地的原野。 语言是取火之外的又一重大技术。语言从唱鸣喊叫进化而来,最初的语言是少数惊叹词和名词,慢慢发展到表达行动和关系。语言让人类得以交换、传递思想,集结同类,人类成为社会性动物,发展出社会组织(氏族、部落)。 约12000年前,以制陶器技术为标志,新石器时代开始。制陶技术属于“火化技术”,后来发展出冶金技术,用天然粗铜冷加工制作了很多有用的工具。新石器时代房屋建造已经使用灰泥和砂浆,利用土料土坯和石块建造房屋。新石器时代晚期,有了专职的陶匠、编织匠、泥水匠、工具制作匠。人们观察天空,判断方向、季节和收割时间。约10 000 年前,他们掌握了野生植物的生长规律,开始播种、耕作,人类从食物采集转至食物生产,发展出农业和牧业技术。编织技术出现,剪羊毛,种植亚麻和棉花,纺线,织布。人类开始过着定居的生活,开始了较完备的食物生产和生活方式。 约6000年前,以青铜器(铜锡合金)的出现为标志,人类进入“青铜器时代”,直至公元初年。较之石器,金属工具有更大的优点。金属制造涉及采矿、冶炼、锻造和铸造等复杂技术,需要熔炉风箱。金银加工、面包酿酒技术也随后出现。动物被用来牵引和运输,出现了车、船。依靠新的灌溉技术和农业技术,生产力提高,人口增加,国家开始出现。 为了分配剩余产品,需要把口头的和定量的信息记录下来,出现了书写和计算。由“结绳记事”进化到文字,出现楔形文字、象形文字、拼音文字。书写替代了身传口授,其后渐渐产生出有文学价值的成分。计算是随同书写一起发展起来的技术,用于计数、交换、记账。天文学、占星术、气象学和法术伴随历法出现,历法不仅用于农业,也用于仪式活动和经济活动,如确定签约和履约的日期。天文学、占星术、巫术用于预测庄稼收成、军事行动或皇帝的未来。医术也发展起来,皇家有专职御医,他们积累解剖学和草药的经验和知识。 青铜器时代后期,出现了埃及、华夏、印度、希腊、罗马等古文明。强盛的罗马帝国横跨地中海、欧洲和近东。 古罗马人是古代最伟大的工程师。罗马文明就是技术的文明。技术铸就了所向无敌的罗马军团和四通八达的道路网、供水系统。罗马政体民主、法律完备,是保证帝国机器运转的极重要的社会技术。公元前100年罗马人发明了水泥。这项关键技术改变了建筑工程和人居面貌。水泥支撑了罗马帝国的扩张。到处都有技术和工程活动。工程师得到社会的认可,有的人还得到过国家工程领域的最高地位,如罗马的维特鲁维(vitruvius i )曾担任罗马皇帝奥古斯都的建筑师。 约公元前600—前300年,史称古希腊时代。希腊人的心智中萌生了一种奇特的崭新的精神力量,开始了发现世界和认识自然的观察和思索,对象包括天体、地震、雷电、疾病、死亡、人类知识的本性等。科学,又称为自然哲学,由此滥觞发源。 希腊海岸曲折,山岳嶙峋,寒风凛冽,生存条件并非优越,却孕育了一个活力充溢的民族,建造起先进的文明。没有哪个古代社会像古希腊一样涌现过那么多的贤哲,在远古建立过那么良好的政体。完善的民主制度释放出自由空气,赋予希腊人思索的闲暇和乐趣。能理性地探讨社会制度,也就能理性地探究自然原理。科学在希腊诞生,绝非偶然。 希腊米利都的泰勒斯(thales of mliletus,公元前625—前545年)也许是世界上第一位科学家。他发现了静电,用三角形原理测量海上船只的距离,提出尼罗河水每年的泛滥是地中海季风引起,大地像船浮在水上,地震是浮托大地的水在做某种运动引起,水是孕育生命的万物之源。他的观点也许是幼稚的,方法却是“科学”的:采用理性思考的方式,没有涉及神或超自然的东西。别忘了当时是巫术和迷信盛行的蒙昧时代。泰勒斯及其追随者都是有神论者,他告诫人们“神无处不在”,例如,磁石就有“灵魂”。泰勒斯却让自然界脱离神性,把自然当作研究目标,理性思考,提出解释。 希腊不断涌现科学家。毕达哥拉斯(pythagoras,公元前580—前500年),证明了毕达哥拉斯定理(勾股定理)。恩培多克勒(empedocles,公元前495—前435年),提出月亮由反射而发光,日食由月亮的位置居间所引起。德谟克利特(democritus,公元前460—前370年表),提出万物由原子构成。欧几里得(euclid,公元前330—前275年),总结了平面几何五大公理,编著流传千古的《几何原本》。阿基米德(archimedes,公元前287—前212年),提出浮力定律,算出球面积、球体积、抛物线、椭圆面积,研究出螺旋形曲线(“阿基米德螺线”)的性质。发明了“阿基米德螺旋提水器”,成为后来的螺旋推进器的先祖。他研究螺丝、滑车、杠杆、齿轮等机械原理,提出“杠杆原理”和“力矩”的观念,曾说“给我一个支点,我就能撬起整个地球”。设计、制造了举重滑轮、灌地机、扬水机等多种器械。为抗击罗马军队的入侵,他制造抛石机、发射机等武器,最后死于罗马士兵的剑下。 这些科学开拓者要么自己拥有资产,要么以担任私人教师、医师为主,并不存在“科学家”这一职业(“科学家”这一名词直到两千多年后的1840年才出现)。苹果掉落在地上,星星为什么悬在空中?古希腊人探索科学完全发自对自然奥秘的兴趣或精神追求,形成了亚里士多德的纯科学传统。 亚里士多德(aristotle,公元前384—前322年)与柏拉图(to,公元前428—前347年)、苏格拉底(socrates,公元前469—前399年)并称为西方哲学奠基人。苏格拉底年轻时喜欢自然哲学,但哲学的偏好使他放弃了自然研究,专注于思考人的体验和美好生活。苏格拉底后来被雅典法庭以侮辱雅典神和腐蚀青年思想之罪名判处死刑,他本可以逃亡,却认为逃亡会破坏法律的权威,自愿饮毒汁而死。他的衣钵传给柏拉图。柏拉图建立了一所私人学校(柏拉图学园,存在800年之久),传授和研究哲学、科学。学园大门上方有一条箴言:“不懂几何学者莫入”。亚里士多德、欧几里得是其中的学生。 柏拉图死后,亚里士多德在爱琴海各地游历,被召为王子的家庭教师,王子就是后来的亚历山大大帝。如同所有的希腊科学家一样,亚里士多德不接受国家当局的监督,与当权者无任何从属关系。他的讲书院设在雅典郊区的一处园林里。他的纯科学研究涉及逻辑学、物理学、宇宙学、心理学、博物学、解剖学、形而上学、伦理学、美学,既是希腊启蒙的巅峰,也是其后两千年学问的源头。他塑造了中世纪的学术思想,影响力延及文艺复兴时期。他观察自由落体运动,提出“物体下落的快慢与重量成正比”。他研究力学问题,认为“凡运动的事物必然都有推动者在推着它运动”,因而“必然存在第一推动者”,即存在超自然的神力。地上世界由土、水、气、火四大元素组成。白色是一种纯净光,其他颜色是因为某种原因而发生变化的不纯净光。他对五百多种不同的植物动物进行了分类,对五十多种动物进行了解剖研究,是生物学分门别类第一人,也是著述多种动物生活史的第一人。他的显著特点是寻根问底:为什么有机体从一个受精卵发育成完整的成体?为什么生物界中目的导向的活动和行为如此之多?他认为仅仅构成躯体的原材料并不具备发展成复杂有机体的能力。必然有某种额外的东西存在,他称之为eidos,这个词的意思和现代生物学家的“遗传程序”颇为相近。亚里士多德坚信世界基本完美无缺而排除了进化的观点。 他专注于科学,却远离技术,认为科学活动不应考虑功利、应用。在追随亚里士多德的历代科学家看来,他代表了科学的本质和纯粹——对自然界以及人类在其中地位的一种非功利的、理性的探索,纯粹为真理而思考。 亚里斯多德的科学方法论,被奉为经典影响了两千年。科学清高脱俗,不触及实际问题,更不说去解决实际问题。不仅如此,从柏拉图开始就形成了一种轻视体力劳动的风气,排斥科学的任何实际的或经济上的应用,使理论与实践分离。 罗马与希腊相反,工程技术欣欣向荣,科学却不景气。罗马人不重视——实际是蔑视——科学理论和希腊学问。他们全力以赴地解决衣食住行、军事征战的技术问题,不需要对日月星辰这些司空见惯的现象寻求解释。 公元476年,罗马帝国灭亡,被蛮族文化取代,大部份罗马文明被破坏,欧洲进入黑暗的“中世纪”(公元476—公元1453年)。罗马先进的知识和技术,包括水泥制造技术,都失传了。在其后的1200年里,欧洲人不得不依赖落后的沙土黏合材料建造房屋,直至1568年法国工程师德洛尔姆(philibertdel’orme,1514—1570年)重新发现罗马的水泥配方。 在此后的一千多年里,中国成为技术输出的中心,向欧亚大陆输送了众多发明,如印刷术、造纸术、火药、罗盘、船尾舵、铸铁、瓷器、方板链、轮式研磨机、水力研磨机、冶金鼓风机、叶片式旋转风选机、拉式纺机、手摇纺丝机械、独轮车、航海运输、胸带挽具、轭、石弓、风筝、螺旋桨 、深钻孔法、悬架、平面拱桥、铁索桥、运河船闸闸门、航海制图法,等等。英国哲学家法兰西斯培根(francis bacon,1561—1626年)写道:“我们应该注意到这些发明的力量、功效和结果。印刷术、火药、指南针这三大发明在文学、战争、航海方面改变了整个世界的许多事物的面貌和状态,并由此引起了无数变化,以致似乎没有任何帝国、任何派别、任何星球,能比这些技术发明对人类事务产生更大的动力和影响。” 所谓物极必反,中世纪的“黑暗”促成了欧洲的一系列技术创新,包括农业技术、军事技术及风力水力技术,一跃成为一种生机勃勃的具有侵略性的高度文明。 欧洲水源丰沛,农田不需要灌溉,但土壤板实,必须深耕。欧洲农业革命的两大技术创新,一是采用重犁深耕。重犁配有铁铧,安装在轮子上,由8头犍牛牵引,从深处翻起土壤;二是用马代替牛作为挽畜,马拉得更快,更有耐力。欧洲传统用牛,其颈上挽具只适合牛的短颈,不适合马。中国人的胸带挽具传入欧洲,这种像项圈一样的挽具将着力点移到马的肩部,不会压迫气管,使马的牵引力增加了四五倍。欧洲从此改用马作畜力,重犁获得普遍推广,由二田轮作改进为三田轮作,提高了生产力。马替代牛,提高了效率,扩大了人的活动范围,使社会更加丰富多彩。 技术促成中世纪欧洲崛起的不止是农业。马镫改变了欧洲的军事技术。骑士是欧洲封建制度的代表形象,全身披挂甲胄,威风凛凛跨骑在用盔甲防护的战马上。但欧洲没有马镫。骑士双脚悬空骑在高头大马上,无法坐稳,一旦临敌,往往得滚身下马,步行迎战。马镫由中国传入,它没有运动部件,虽然简单,却可以让骑手稳坐马背,作战不会摔下来。一位骑手配备了马镫,就构成一个稳固的整体,可快速驰骋,产生强大的冲力,形成所谓的“骑兵冲刺”。欧洲的骑兵简直就是中世纪的“坦克”。骑兵冲刺这种新型战争技术使骑士成为职业军人,由贵族领主供养,由此产生了封建关系。这种区域性封建关系自由分散,不需要专制社会那样的中央政府管理。 在发生这些变化的同时,欧洲的工程师们发明了新机械,找到了新能源,最突出的是改进和完善了水车、风车和其他机械,利用风力驱动风车,利用潮汐驱动水轮。欧洲各地都有丰满的小河,到处都能看到水车运转。水车推动着各种各样的机器,如锯木机、磨面机和锻打机等。机械的使用节省了劳力,奴隶制度随之消失。 中国人9世纪发明了火药,13世纪传到欧洲,14世纪初欧洲人造出火炮。到1500年,欧洲制造枪炮成为十分普遍的技术。16世纪滑膛枪出现。在火炮、滑膛枪面前,弓箭、大刀、骑兵、长枪退出战场。“火药革命”削弱了骑士和封建领主的军事作用,取而代之的是用火药装备的陆军、海军。葡萄牙人发明了风力驱动的多桅帆船,取代老式的有桨划船,装上火炮,成为炮舰,最终产生了全球性影响,为重商主义和殖民主义开辟了道路。 技术的发展在欧洲产生如此巨大的影响,科学在其中并没起什么作用。重大的发明如火药和罗盘在中国发明。当时在自然哲学中无任何知识可用于研制兵器。航海属于技艺,不属于科学。炮兵、铸造匠、铁匠、造船工程师和航海家在进行发明创造的时候,靠的是代代相传的经验、技艺。以造船为例,船帆和索具不好用,就改进;炮舷窗不灵活,就尝试安装灵活机动的炮车。技术是逐步改进完善的,经验是实践积累的。技术和工业仍同古罗马时代一样,与科学没有联系,既没向科学贡献什么,也没从科学得到什么。 欧洲人认识到自然界有取之不尽的资源,应开发利用,于是独创了一种研究学问的机构——大学(universitas) 。但早期的大学没有把科学和技术作为追求目标,主要培养牧师、医生、律师。自然科学设在文学院,主要课程是逻辑学。亚里士多德的逻辑和分析方法是研究任何问题的唯一概念工具,学者们按照神学观点来解释世界,地球是宇宙的中心,太阳照亮了星星。直到哥白尼、伽利略出现。1543年,波兰科学家哥白尼(nikj kopernik, 1473—1543年)出版了他的《天体运行论》,推翻了地心说,提出日心说,开始了科学革命(至牛顿时期完成),让人类由中世纪的观点走出,从一个封闭的世界走向一个无限的宇宙。1616年宗教裁判所判定哥白尼学术为异端邪说。 意大利科学家伽利略(galileo galilei,1564—1642年)研究了斜面、惯性和抛物线运动。在已有望远镜的基础上,制成了放大30倍的望远镜,指向天空,搜寻天上世界,发现了月球的山脉,木星的卫星,太阳的黑子,银河由星星组成,验证了哥白尼学说。1632年伽利略出版《关于托勒密和哥白尼两大世界体系的对话》,1633年被宗教裁判所判定为“最可疑的异教徒”,遭终身监禁并被迫在大庭广众下认罪。70岁的伽利略已是半盲,作为囚徒,又写出了一本科学杰作《关于两种科学的对话》,阐述了两项重要发现:受力悬臂的数学分析及自由落体运动,后者推翻了亚里士多德的“越重的物体下落得越快”的两千年定论,现代科学开始。 伽利略逝世同年,牛顿(isaac newton,1642—1727年)出生。1665年,牛顿因为躲避黑死病,离开剑桥回家乡隐居18个月,这18个月是科学史上的幸运期,牛顿酝酿了一生主要的科学成果:微积分,色彩理论,运动定律,万有引力,几个数学杂项定理。但他不喜欢撰写和公布自己的学问,直到因为与皇家学会发生龃龉,在埃德蒙·哈雷(edmond halley,1656—1742年)的劝说下,才于1687年出版了《自然哲学的数学原理》,阐述了万有引力和三大运动定律,展示了地面物体与天体的运动都遵循着相同的自然定律,奠定了此后三个世纪里物理学和天文学的基础。借助牛顿定律正确算出彗星回归的哈雷用诗句赞道:“在理性光芒的照耀下,愚昧无知的乌云,终将被科学驱散。” 科学当时仍属哲学范畴。《自然哲学的数学原理》充满了哲学意蕴,读过此书的人脑海中都会浮现出一个宇宙形象:一部神奇而完美有序的机器,行星转动如同钟表的指针一样,由一些永恒而完美的定律支配,机器后面隐约可见上帝的身影。美国开国元勋制订宪法时不忘牛顿体系,称:“牛顿发现的定律,使宇宙变得有序,我们会制订一部法律,使社会变得有序。” 牛顿证明了科学原理的真实性,证明了世界是按人类能够发现的机理运行的。把科学应用于社会的舆论开始出现,人们期待科学造福人类。甚至牛顿在论述流体力学时也轻描淡写了一句“我想这个命题或许在造船时有用”。视科学为有用知识的弗朗西斯培根对此作了理论提升,提出“知识就是力量”。 但是,也仅此而已。牛顿力学三百年后才被用于航天发射和登月飞行,当时只能作为知识储存在书本里。16世纪和17世纪的欧洲,在科学革命的同时并未发生技术革命或工业革命。印刷机、大炮、炮舰一类的发明未借助科学。除了绘图学,没有任何一项科学的成果在近代早期的经济、医学、军事领域产生过较大的影响。即使是伽利略的抛物线研究,显然在大炮和弹道学方面会有潜在价值,可事实上,在伽利略之前,欧洲的大炮已有三百年的历史,在没有任何科学或理论的情况下,凭着实践经验,大炮技术已发展得相当完备了,炮兵学校有全套教程,包括射程表等技术指南。毋宁说是炮兵技术影响了伽利略的抛物线研究,而不是伽利略的科学影响了当时的炮兵技术。 当时航海技术中最大的“经度难题”,也不是靠科学解决。由于无法测量船只所在的经度,欧洲人的海上活动受到限制,只能傍海岸航行。包括伽利略在内的很多天文学家尝试过解决办法,未能成功。1714年,英国国会以2万英镑悬赏“确定轮船经度的方法”,要求仪器在海上航行每日误差不超过2.8秒。1716年法国政府也推出类似的巨额奖金。最后的解决者,不是科学家,而是匠人。英国钟表匠哈里森(john harrison,1693—1776年)先后做出4个海上计时仪,其3号钟使用双金属条感应温度,弥补温度变化(今天依然在用),装上平衡齿轮(滚动轴承和螺旋仪的前身)防止晃动,抵消船上的颠簸和晃荡,比任何陆地上的钟表都精确,每日误差不到2秒,45天的航行结束,准确地预测了船只的位置,符合领奖条件,但英国国会拒绝履约。哈里森继续改进,4号钟用发条替代钟锤,进行了两次从英格兰到西印度群岛的航海实验,3个多月误差不超过5秒,相当于将航天探测器降落在海王星上,降落点误差只有几英尺。国会还想耍赖,但航海界认定4号钟比皇家天文台的航海图优越得多。哈里森在83岁生日那天得到了奖金。 17世纪是实验科学兴起和传播的时期。吉尔伯特(gilber,1544—1603年)用磁体作实验,伽利略让不同球体在斜面滚下,托里拆利(evangelista torricelli,1608—1647年)用装有水银的管子发现了空气压力原理,哈维(william harvey,1578—1657年)解剖过无数尸体和活体以了解心脏的作用,胡克(robert hooke,1635—1703年)通过测试弹簧获得胡克定律,牛顿让光束通过透镜和棱镜研究光的组成。实验成为检验理论或猜想的一种方便且必须的工具。科学家依靠仪器,同一时代的科学更多地靠技术帮助,却很少给技术以帮助。以望远镜为例,天文学家一直在使用技术上不断改进的望远镜,得出许多惊人的发现。第一架望远镜是荷兰眼镜匠利汉斯·伯希(hans lippershey,1570—1619年)发明的。高倍望远镜光束穿过透镜后会产生色散、球面像差和畸变。解决方案还是来自技术领域,依靠玻璃制造工艺解决的。用几种折射率不同的玻璃互相补偿制成复合透镜,这已经是1730年以后的事情了。 18世纪初,牛顿、伽利略等科学巨人引领的科学革命归于沉寂,欧洲仍然是一片农业社会景象。90%的人住在乡村,从事农业。即使城市居民,能够见到的制成品要么是农田的产物,要么是能工巧匠的制品。能源不过是动物或人类的肌肉力量,加上木材、风力、水力而已。 18世纪60年代,瓦特(james watt,1736—1819年)在纽科门(thomas neen,1663—1729年)发明的基础上改良蒸汽机。煤在蒸汽机中燃烧,提供动力,引发第一次工业革命(18世纪60年代—19世纪初),人类进入“蒸汽时代”。蒸汽机加快了新能源(煤)的开采和使用(此前动力和热力来源,包括炼铁,主要靠燃烧木材)。尽管中国的铁匠11世纪就发明了用煤做燃料的熔炼方法,英国直到1709年由亚伯拉罕达比(abraham darby,1676—1717年)发明了焦炭,才不再依靠森林提供燃料。炼铁局面改观,世界进入铁器和机器时代。英国发明家理查德·特里维西克(richard trevithick,1771—1833年)的高压蒸汽机用于铁路,1814年第一台蒸汽机车出现,1830年迎来铁路时代。1886年,德国工程师卡尔本茨(karl friedrich benz,1844—1929年)制造出世界上第一辆汽车。这一系列技术革命引起了从手工劳动向动力机器和工厂化生产的飞跃。 18世纪之前,人不知工厂为何物,商品都是手工、家庭、作坊制造的。工业革命后出现的工厂发展出高度集中的规模生产,标准化部件的制造制度(源于英国,在美国得到更广泛的应用)被亨利福特(henry ford,1863—1947年)在汽车工业中发展成生产流水线,大大提高了生产力。 构成18世纪工业革命基础的所有技术,仍然是工程师、技师、工匠做出来的,几乎没有或根本没有科学理论的贡献。科学家仍沿袭亚里士多德的传统,追求知识和精神上的满足,不考虑理论的应用。技术行家们也未吸取科学的营养,如同古罗马的工程师,追求实用,实践出真知,对理论不感兴趣。科学与技术各行其道,直到19世纪后期。 在技术独步天下的时代,英国率先颁行专利法,保护技术垄断。18世纪80年代,法国化学家贝托莱(c.l.berthollet,1748—1822年)发现漂白织物的氯化方法。因蒸汽机而富裕的瓦特,其岳父是个漂白剂制造商,瓦特想由他们三人共同申请专利,获取厚利。贝托莱拒绝道:“一个人爱科学,就不需要财富。”他以纯科学态度进行研究并发表了结果。这件事显示了18世界以后技术与科学的一个区别:科学是发表、共享,寻求知识和真理;技术是垄断、功利,寻求实用和价值。仍以瓦特为例,他并非蒸汽机的发明人,只是改良人,但他首先申请了专利,并想方设法延长专利保护期。英国当时的大政治家爱德蒙布克(edmund burke, 1729—1797年)在国会上雄辩经济自由,反对制造不必要的垄断,但瓦特的合作伙伴太强大,简单的原则无法打败他。专利获批后,瓦特的主要精力就不再是蒸汽机技术的改进,而是借助法律打压其他发明者和改良者。蒸汽机在英国的真正普及和重大改进实际是在瓦特专利期满之后。 科学史和技术史都证明了同样或类似的发现发明可以在不同区域、由不同的人在不同时间作出。牛顿和莱布尼茨分别发明微积分,达尔文和华莱士分别发现进化论,就是有力的证明。自然规律、原理就在那里,它们迟早会在某处或某时被某人发现或利用。蒸汽机如果不是瓦特改进,也会有别人改进。但专利法的逻辑却是:某种发明或点子只能是最先申请专利的人想到,别人想到就是剽窃;最初的发明不许别人改进,否则就是侵权。这与科学背道而驰。 科学与技术的这一分野,导致了人们对科学和技术的不同观感。一个重大的科学发现,几乎全人类为之庆贺;一项重大技术的出现,人们首先想到的是又一个商业机会、盈利模式。正如美国科学家特莱菲尔(james trefil,1938年至今)所谓的特莱菲尔定律(trefilw)所说:“每当有人发现自然的原理,其他人很快就会跟从研究,并找出如何从中牟利的方法。”我们看到十几岁的孩子因为下载歌曲而被追诉“音乐盗版”,看到非洲艾滋病人因为无力支付专利持有者的高价药物而死亡,也看到泰国政府宁愿侵犯知识产权也支持仿制药物,以挽救人的性命。专利制度从产生之日起就饱受争议。但这是另一话题,不表。 历史进入19世纪。1821年,英国科学家迈克尔·法拉第(michael faraday,1791—1867年)发现了电磁感应,奠定了电磁学基础。1870年,麦克斯韦(james clerk maxwell,1831—1879年)总结出电磁理论方程(麦克斯韦方程),统一了电、磁、光学原理。化学、热力学等领域也产生了将煤气、汽油和柴油的热能转化机械动力的理论。第二次工业革命(19世纪70年代—20世纪初)兴起。1866年,德国的西门子(e.w.von siemens,1816—1892看)制成了发电机。1873年,比利时的格拉姆(gramme, 1826—1901年)发明了电动机,电灯、电车、电话、电报、电影放映机也随之出现。以煤气和汽油为燃料的内燃机、柴油机也先后问世,内燃汽车、远洋轮船、飞机相继出现。人类社会初具现代化雏形,进入电气化时代。 与第一次工业革命迥然不同的是,第二次工业革命的所有新技术、新发明都建立在科学理论的基础之上。技术与科学泾渭分明、各行其道的历史,至此终结。此后,科学引领技术,成为文明的引导力量,带动人类社会突飞猛进。 此后的20世纪,科学可谓群星灿烂。普朗克(max nck,1858—1947年)的方程式,爱因斯坦的相对论,薛定谔(erwin schr?dinger,1887—1961年)和狄拉克(paul dirac,1902—1984年)的量子力学,魏格纳(alfred lothar wegener,1880—1930年)的大陆漂移学说,摩尔根(thomas hunt morgan,1866—1945年)的遗传变异理论,哈勃(edwin p.hubble,1889—1953年)的宇宙膨胀说,海森堡(werner karl heisenberg,1901—1976年)的不确定性原理,克里克(francis harry pton crick,1916—2005年)和沃森(james dewey watson,1928年至今)的dna结构,冯·诺依曼(john von neumann,1903—1957年)和图灵(n mathison turing,1912—1954年)的计算机理论,计算机无限地扩大了人的脑力,航天技术将人类送上太空和月球,哈勃望远镜在600千米的太空观察到130亿光年外的原始星系。人类对世界有了全新的认识,也有了前所未有的强大手段。 这种强大手段,首先展现在战争上。20世纪的两次世界大战,伤亡人数超过1.2亿。参战双方都从实验室源源不断推出新式武器:战机、坦克、潜艇、毒气、原子弹。16世纪,列昂纳多·达芬奇(leonardo da vinci,1452—1519年)就构思过“可以水下航行的船”,却被视为“邪恶”“非绅士风度”而被摒弃。但第一次世界大战时期的1914年9月22日,德国u-9号潜艇一个小时内就击沉3艘英国巡洋舰。第一次世界大战期间,各国潜艇共击沉192艘战舰,5000余艘商船。第二次世界大战更被称为物理学家的战争,图灵的密码机破解了德国“英格玛”的密码系统,帮助盟军制服了德国潜艇,雷达帮助英国皇家空军赢得了不列颠之战,原子弹结束了二次世界大战。 历史上,帝国的兴起都不会依靠巫术般的科技,也很少有战略家想到要制造或扩大科技的差距。19世纪前,军事的优势主要在于人力、后勤和组织。但20世纪以后,特别是原子弹的威力,唤起了各国政府对科学和技术的重视,揭开了科技发展的新一页。强大的武器需要精确的制导技术,推动了计算机、电子技术的发展,人类步入数字时代。集成电路、微处理器和互联网普及到每个家庭和个人,科技进入了一个更广阔的空间——商业应用。 政治和商业的卷入,重新塑造了科学和技术本身。亚里斯多德开创的纯粹科学越来越稀有,科学和技术越来越受政治和资本的支配,没有明确应用前景或商业价值的科学和技术难以获得资本的支持。科学家不再是希腊先贤那样的自由个体,而是研究机构或组织的的雇员,按主管者规划的“专业”方向探索。许多科学研究和技术发展,都是军事所发起。 20世纪奠定基础的数字技术,在21世纪大放异彩。无处不在的网络将地球变成了一个天涯咫尺的村落,机器人不仅进入了生产流水线,更进入了“专业工作”领域。人工智能获得自我学习能力,展示了无可限量的前景。 20世纪前,人们或许还能把技术和科学区分开来,机器由工程师或技术人员制造。但在数字时代,技术和科学相互依存,相互促进:没有科学就产生不出新技术;而产生不出新技术,科学研究也就失去了意义。科学和技术实际上以“流水线”模式衔接推进——基础研究发现原理、规律,打开视野和思路;应用研究探索其技术或商业的可行性;技术开发(r&d)把成果制成有用的产品。 21世纪,人类生活的各个方面,已没有科学和技术尚未进入的领域。今天的任何商品,都是科学和技术结合的产物。以无处不在的手机为例,方寸之间,集人类数千年科学和技术成果之大成,数百位科学家、发明家薪火相传,才带来今天这种执世界于掌心的智能设备。每次打开手机,都使用物理、化学、光学、电磁学、计算机、互联网、无线电、通信、量子力学、相对论的原理。科学与技术水乳交融,巧夺天成。 回顾历史,技术胼手胝足、劳苦功高地扶持人类十多万年。三千年前,科学涓涓细流,滥觞发源。在技术与科学分离的时期,从石器时代到电气时代,人类走了十万年;从泰勒斯的静电到法拉第的电磁感应,科学走了二千五百年。自从技术与科学结合,从法拉第揭幕的电气时代,到今日的数字时代,还不到二百年。近半个世纪来,奠定数字时代基础的集成电路元器件数量每12个月就翻一番,性能提升一倍。21世纪,仅仅几年时间,移动网络、大数据就统治了世界,人工智能已开始侵蚀人类的地位。科技进程日益加速,对人类的影响日甚一日。 “科技之巅”书系之宗旨,就是逐年记录这一伟大进程,通过年度重大突破性技术,镂刻科技创新的火光与脚印,激发读者的灵感与雄心。 书系第一册已于2016年出版,收录2012—2016年度“50大全球突破性技术”。本书是第二册,收录2017年度“10大全球突破性技术”。 美国开国元勋约翰·亚当斯(john adams, 1735—1826年)说:“我们这一代人必须研究政治和军事来壮大国家,儿辈则要学习数学和工程来创造财富。这样,孙辈们才可以学习绘画、音乐和诗歌。”纵观古今,未来,在于科技。 reinforcement learning 强化学习 撰文:郭雪 突破技术 强化学习(reinforcement learning,rl)是一种人工智能方法,能使计算机在没有明确指导的情况下像人一样自主学习。 重要意义 假如机器不能自主通过环境经验磨炼技能,自动驾驶汽车以及其他自动化领域的进展速度将受到极大的限制。 技术成熟期 1~2年 主要研究者 -deep mind -科大讯飞 -mobileye -阿里巴巴 -open ai -微软亚洲研究院 -google -中科院 -uber-百度 2016年3月9日,韩国首尔的一场棋赛反响空前。从棋迷到学者,再到普通百姓,那几日的工作之余不知有多少人的计算机屏幕上都留了小窗,关注着这场比赛的动态。此战可谓现象级,它不仅吸引了全球记者的长枪短炮,也顺势成了那段时间人们茶余饭后的首要谈资。 这不是一场普通的围棋赛事,而是被贴上了“世纪大战”标签的人机智慧对决。对弈的双方,一方是人类顶级棋手李世石,另一方则是诞生于英国的人工智能程序——alpha go。五盘大战最终以执黑的李世石投子认负结束,在19路围棋盘上,alpha go以4比1的比分攻破了人类又一座引以为傲的智慧堡垒。此役过后,人们记住了这个被爱称为“阿尔法狗”的人工智能,记住了它背后的谷歌子公司deep mind,也记住了两个“新”技术——深度学习(deep learning)和强化学习(reinforcement learning)。 深度学习曾登上《麻省理工科技评论》2013年“10大全球突破性技术”榜单[1],而强化学习也入选了《麻省理工科技评论》2017年“10大全球突破性技术”[2]。本文将浅谈强化学习技术的发展史、基本原理以及实际应用。 这还要从围棋和国际象棋这两种棋说起。20年前(即1997年),虽然国际象棋程序已能逼平甚至战胜人类冠军,但当时围棋程序的水平却尚不及业余棋手的水平。这是因为,对于计算机来说,后者的复杂程度远高于前者。国际象棋的棋盘为8行8列,正式比赛的围棋盘的纵横则各有 alpha go的出现,让人不由得联想起当年的“深蓝”(deep blue)——早在1997年,这台ibm超级计算机就曾击败人类国际象棋冠军加里·卡斯帕罗夫(garry kasparov)。那么,为什么时至今日人工智能界还会为一场棋赛的胜利而大肆狂欢? 人工智能alpha go——强化学习的空前成功 19路——361个可供落子的交叉点。也就是说从状态空间的复杂度(state-spacplexity)来看,国际象棋约为1047,而围棋则高达10170。 复杂度的天壤之别,也意味着“深蓝”的制胜套路无法复制到围棋赛场。实际上,当年就曾有人质疑过“深蓝”所谓的“智能”,认为“深蓝”的胜利不过是依靠每秒可运算2亿步的“蛮力”,穷举出棋盘的可能性。像卡斯帕罗夫这样的国际象棋大师可以预测当前走棋对未来10步局面的影响,而“深蓝”却能够预估12步,从而也就握有更高的胜算(即便这样,“深蓝”也仅是以3.5:2.5险胜)。然而,即便将“深蓝”所采用的全部优化算法放到如今最高性能的计算设备上,人们也无法将围棋比赛中机器的决策用时修剪到合理的时间内。由于围棋没有能够明确计算当前棋局状况的机制,因此也难以测算某些走棋的优劣。 那么,alpha go究竟是靠什么赢得比赛的呢? 2016年1月,《自然》(nature)杂志刊发的谷歌deep mind的论文,详细解析了会下围棋的alpha go背后的技术[3]——蒙特卡洛树搜索(monte carlo tree search)及深度强化学习。 deep mind将蒙特卡洛树搜索与两个深度神经网络——价值网络(valuework)及策略网络(policywork)结合,并通过人类职业棋手的比赛数据对网络进行监督学习(supervised learning)训练。通俗地说,就是先让alpha go学会评价棋路的优劣,然后再通过不断与自己对弈进行强化学习,来提升棋艺。 让人工智能程序学会下围棋,需要解决3个问题:1下棋规则;2如何评价棋步的优劣;3如何改善棋路。第1个问题,通过为程序录入规则就可以解决(一些简单的if-then语句),主要的挑战在于后面的两个问题。对于普通人和一般棋手而言,通过增加对弈次数、学习大师的棋路,棋艺就能实现一般意义上的提升;而对于专业的围棋选手甚至围棋大师而言,下棋除了掌握一般棋路,更离不开天赋般的“灵光一现”,或者叫“直觉”。对弈李世石这样的顶尖高手,alpha go需要具备获得“灵感”的能力(因为“暴力枚举”在围棋这样量级的比赛中几乎无法实现)。 alpha go通过在有监督的情况下学习职业棋手的数百万盘对弈过程,建立了对棋局走势及棋步价值的评估体系。当棋艺提升后,deep mind又让它和稍早期版本的自己对弈,从而在不借助外力的情况下完成几百万甚至几千万次模拟,借助强化学习让alpha go“参悟”下棋的感觉,在与自己的对抗中不断成长。而在实际的比赛现场,alpha go则根据积累的经验,借助蒙特卡洛树搜索去动态寻找最优方法,如此才缔造了alpha go最终的“压倒性”胜利。 mel bochner泡泡(babble),2011年 计算机和人工智能系统难以理解语言的其中一个原因在于,词语的意思往往与语境甚至字母形态有关系。上图中,几位艺术家展示了如何通过不同的视觉线索来传达文字背后的意义 强化学习的发展史 虽然名字让人多少有些陌生(目前国内的翻译版本有“增强学习”“加强学习”等),但是强化学习实际上并不是新鲜产物。不过,近年来随着设备计算速度的提升,以及深度学习架构的兴起,强化学习才得到了真正意义上的成长。它的兴起让人们猛然觉得人工智能的未来已经指日可待。 听起来工业味十足的人工智能,与心理学等其他社会学科、科学学科都颇有渊源。虽然看起来这些学科与人工智能的关系不大,但既然名称中带有“智能”二字,就免不了要去探究“什么是人类智能”“如何判断是否具备人类智能”以及“如何通过现有的技术手段实现或模拟人类智能”。 如果说人工智能的研究发展史是全球一众学者孜孜不倦、辛勤攻克几个问题的马拉松,那么强化学习就是其中一部分学者构想出的、希望实现人工智能的一个技术手段。 实际上,从遗传算法到人工神经网络,很多人工智能方法都打上了心理学和神经科学的烙印。作为机器学习的一大分支,强化学习势必无法免俗。其实,从现代强化学习的教父级人物理查德 · 萨顿(richard sutton)的履历上,我们就可以窥见这一学科的发展脉落。现任加拿大阿尔伯塔大学计算机科学教授的萨顿,他的学术生涯伊始的选择让人有些“出乎意料”——斯坦福大学的心理系。虽然这两个学科在圈外人看来跨度极大,但是在接受人工智能媒体《机器之心》的专访时,萨顿却坦然表示,他所感兴趣的是学习的机制,是探求人类学习过程的奥秘。虽然最终的研究阵地是计算机,但心理学就像是个秘密武器,让他从中汲取了无数的灵感。 学界关于强化学习的历史有很多个版本,本文则借鉴了萨顿的著作《强化学习导论》(reinforcement learning:an introduction)中的介绍。萨顿为强化学习的发展史梳理出了3条主流脉络[4]。 按照流行程度排序,第一条发展线是源自心理学动物实验的“试错”(trial-and-error)流派,偏重学习。简单来讲,就是通过不断尝试、犯错、学习经验,再尝试,“偶然”完成目标,然后加强“成功”经验、再重复试错的过程,并不断靠近解决方案。具体的案例可以参考下文介绍的桑代克的“猫迷箱”实验。 强化学习的第二条发展线主要采用“最优控制”理论(optimalcontrol)及“动态规划”(dynamic programming),偏重“最大控制”理论。这里举一个例子来说明“最优控制”的应用——以更短的时间,开车翻越山丘。当司机驾驶汽车行驶在翻山越岭的公路上时,在什么时机踩下油门加速、加速多久,都会对最终到达目的地的时长带来影响。在这一过程中,又可能存在诸多限制条件,比如汽车有限的汽油量,无法一直加速;再如公路路况不允许超速行驶等。简而言之,“最优控制”要做的,就是在限定条件下寻求最优结果。结合“动态规划”可以降低寻找最优方案的成本——将每一次决策过程中所遇到的难题分解成子问题,并对解决方案进行存储;当下一次遇到相同的子问题时,进行检索查询而非重新计算。 第三条发展线则是时序差分法(temporal-diference method)。时序差分与过往的经验和状态有关。这一方法结合了蒙特卡洛方法和动态规划的理念[1]。之所以说时序差分法与蒙特卡洛方法类似,是因为它根据一些策略(policy)对环境进行随机取样学习。时序差分法又汲取了动态规划的精髓,在过去习得的估测结果的基础上,对未来状态进行尽可能的“拟合”[5]。 在20世纪80年代末,这3条分支逐渐汇集一处,形成了现代的强化学习。 行为心理学线:从桑代克的“猫迷箱”到明斯基的“鼠迷宫” 早在100多年前,美国行为主义心理学家爱德华 · 桑代克(edward torndike)就曾描述了由动物实验观察到的“强化学习”过程。在著名的“迷箱实验”(torndike’s puzzle box)中,桑代克将作为被试的猫关进一个名为“迷箱”的实验装置中。正是在这些暗藏机关的箱子里,一只只小猫帮助他验证了生物学习过程中的“规律性”——学习是一个渐进的过程,而非顿悟[6]。 在实验过程中,被试猫会被放入迷箱。箱子本身设有机关,只有通过触碰一个杠杆,猫才能从内部打开箱子,吃到摆在箱外的鱼。迷箱中的小猫们第一次从箱子中逃离并吃到鱼的过程,通常都需要进行很多次尝试。猫成功逃离迷箱后,又会被再一次放回箱内。这时候桑代克所要做的,则是记录猫每次逃离迷箱所用的时间。在多次尝试后,猫就“学会”了通过按压杠杆来获得最有益于它们的结果——吃到箱外的鱼。它们会接受这种行为,并在之后的实验中更迅速地按下杠杆。 桑代克将这种行为命名为“效果律”w of efect),即能够带来好结果的行为会得到重复,而结果不好的行为可能会被停止,这意同“趋利避害”,与强化学习的方法论如出一辙。 不过这种学习机制在机器上的模拟,却晚了近半个世纪。1943年,美国学者沃伦 ·麦卡洛克(warren s.mc culloch)和沃尔特·皮茨(walter pitts)在《数学生物物理学公告》上发表论文《神经活动内在思想的逻辑演算》(a logical calculusofthe ideas immanentin nervous activity),讨论简化人工神经元网络及其实现逻辑功能的机制。 这篇文章不仅推动了人工网络的研究,也给了当年还是哈佛大学学生的马文·明斯基(marvin minsky)很大的启发。根据1981年12月《纽约客》杂志上的长文《人工智能》(a.i.)[7]的记录,1950年前后,马文 · 明斯基决定和他的同学迪恩 · 埃德蒙兹(dean edmonds)合作进行人工神经网络的研发。他们借助电子管、小电机等器件打造了一台模拟人脑的机器,并将它命名为snarc(stochastic neural analog reinforcement calctor),意为“随机神经模拟强化计算器”[8]。 snarc拥有40个人造神经元,不同的神经元之间引入了大量的连接,以此模拟生物神经元在信息传输过程中的容错机制。明斯基和埃德蒙兹用snarc进行了“老鼠走迷宫”实验,模拟老鼠在迷宫中可能发生的行为。在多次随机尝试后,这些老鼠可能会在偶然情况下走出迷宫。这个成功的反馈,会“促使”老鼠们对行为产生的结果进行“思考”,继而在后续的逃离迷宫尝试中更倾向于选择会带来这些良性结果的尝试。也就是说每当模拟老鼠成功逃出虚拟迷宫时,这些突触的连接强度就会增加,老鼠也就更倾向于选择与这次成功脱逃相关的行动。 后来,人们将snarc视为全球首台神经元计算机,明斯基也被奉为人工智能之父。2016年1月26日,采用深度强化学习技术的alpha go以5 :0的战绩横扫欧洲围棋冠军樊麾,将人工智能推向了前所未有的高度。但令人扼腕痛惜的是,明斯基在2016年1月24日因脑溢血去世,未能亲眼看到他坚持了几十年的梦想终于接近现实的一天。 控制论线:最优控制及动态规划 与刚才介绍的心理学线一样,这条最优控制线同样也兴起于18、19世纪,代表人物是德国数学家卡尔 · 雅可比(carl gustav jacob jacobi)和爱尔兰数学家、物理学家及天文学家威廉·哈密顿(william rowan hamilton)。最优控制常应用于配置控制器,从而减少对动态系统的测控。 20世纪50年代,这一方法的另一重量级人物、美国应用数学家理查德·贝尔曼(richard e.bellman)提出了著名的贝尔曼方程,以及通过求解这一方程来实现最优控制的动态规划方法。1957年,他又在自己的论文[8]中首次引入了马尔可夫决策过程[2](markov decision process,后简称mdp)的概念。1960年,罗纳德·霍华德(ronald howard)为mdp设计了策略迭代算法,再次推动了这一领域的发展。后来,这些概念也成为现代强化学习理论及算法的基本元素。 除了上文提到的贡献,动态规划之父贝尔曼还指出了“维数灾难”(curse of dimensionality)——在优化问题中,当用来描述的空间维度增加时,分析过程也会遇到各种问题。这意味着在计算机应用中,随着价值方程中状态变量的数量增加,解出贝尔曼方程的耗时也会呈指数级增加。这一维数的“诅咒”,至今仍然制约着强化学习的发展和应用。 虽然这两条发展线乍看起来,心理学线偏重“学习”,优化控制线似乎更关注“强化”,不过仍然是殊途同归——很多动态规划算法都是增量、迭代、循序渐进,通过逐次“近似”得出正确的答案,这一过程与“学习”并无二致。 强化学习的原理浅谈 机器学习是人工智能的重要分支,这一领域通常会利用概率论、统计学、计算机科学等知识,从训练数据中识别特征模式、学习规律,以此对未来数据进行分类、预测。强化学习便属于机器学习的范畴。 机器学习可以分成三大类:监督学习、无监督学习(unsupervisedlearning)以及强化学习。 监督学习,是目前研究及应用最多的学习方式。顾名思义,这种方法是需要通过“监督者”预先填好标签bel)的训练数据进行学习的方式。监督学习的任务,根据目的的不同又可分为回归分析(regression)和分类(ssifcation)。简单来说,回归分析任务的输出是连续的,而分类任务的输出则是离散的。各大高校的机器学习课程中,大多采用两个简单的例子来区分这两类任务:“回归分析”的典型代表是房价预测——在这个问题中,输入数据是房子的属性值(如房子的大小、卧室数量、洗手间个数),输出数据则是房价(连续的);“分类”的代表是癌症诊断,这时输入的数据是肿瘤属性(如大小、位置),输出的数据则是良性或恶性(离散的)。 无监督学习,则无须事先为数据贴好标签。这种方式更像是聚类(clustering)的过程,即根据数据的特征,发现实例之间的相似性[10]。前任百度首席科学家、人工智能专家吴恩达(andrew ng),曾在斯坦福大学的机器学习课程中用“鸡尾酒会问题”对无监督学习的应用场景作出了解释。“鸡尾酒会问题”的实质,是从音频数据中分离出不同声音源发出的声响。假设在酒会会场中的两个不同位置各放一个麦克风,输入数据就是这些设备采集到的音频数据,这一声音分离任务之所以为“无监督”,是因为我们事先无法给每个声音打上标签。这一方法最成功的案例,可能要算谷歌脑(google brain)在无监督的情况下通过观看you tube视频截图形成“猫”的概念。 强化学习也属于机器学习,不过它与其他两种方式有着显著的区别。强化学习需要通过与“环境”的交互,逐步进行学习。然而在与环境交互的学习过程中,很难从整体上去判断过程中的每一步究竟谁对谁错。这就好比在与李世石棋赛的第二盘,alpha go第37手肩冲的一招棋,是让棋圣聂卫平也不禁“脱帽致敬”的好棋。然而纵观整场比赛,带领黑棋走向最终胜利的,究竟是这个神来之笔,还是之前的伏笔,抑或是之后看似不经意的某一步,几乎让人无法做出评断。也就是说,在这种情况下,我们这些“监督者”无法真正地对每一步、每一个情形都贴上对或错的标签。强化学习的方式,则是在每次对弈后,根据胜平负的情况给予机器代理(agent)不同程度的奖励,而机器代理要做的就是努力让自己每盘棋累积的奖励最大化。 强化学习的基础概念 虽然强化学习的训练数据并没有对应的标签,但因为机制不同,它并不能算作无监督学习的子集。无监督学习的目标是挖掘数据的潜在结构,强化学习则是通过与环境交互获得最优解的过程,这与上文提到的动态规划非常相似。 通俗来讲,在强化学习问题中,机器代理(agent)会与环境进行交互,根据当前的环境状态权衡“即时奖励”(immediate reward)以及“延迟奖励”(dyed reward),然后采取行动……依此不断地往复、试错,寻找能够最大化累积奖励信号的策略(policy)[11]。在这一过程中,机器代理的行动也会对环境造成影响。而最终,获得较高的奖励后,得到这一奖励的过程中的所有行动均会得到加强。以桑代克迷箱实验为例,猫的目标是将自己的累积奖励(快速逃离箱子获得鱼)最大化,每次成功地快速逃出而获得奖励的过程中,猫执行的所有动作都会得到强化(不仅仅是按下正确杠杆的那一步)。 强化学习可以分为基于模型(model-based)和无模型(model-free)两大类[11]。基于模型的学习认为环境有确切的模型,因此需要大量的计算进行建模,并根据模型选择最合适的策略;而无模型学习中并没有环境的显式模型,因此需要大量的经验,通过反复试验、不断试错的过程来评价行动的优劣。 基于模型的强化学习方法,通常都发展于动态规划理念。此类方法需要一个可以被规范为马尔可夫决策过程[9]的环境模型。动态规划方法通常会通过策略迭代(policy iteration)来求解最优策略,这一迭代过程可以被拆分成两大环节:策略评估(policy evaluation)和策略提升(policyimprovement)。 无模型的强化学习方法,主要包括蒙特卡洛方法和时序差分学习方法(temporal-diference learning,tdlearning)。 蒙特卡洛方法借鉴动态规划的概念,适用于有限mdp的策略评估过程。蒙特卡洛方法得名于摩纳哥的著名赌城,是以随机数和概率为基础的统计模拟方法。在强化学习中,蒙特卡洛 这些图像来自mobileye的强化学习汽车的视觉系统 方法会随机分配机器代理的初始位置,然后按照某一个策略执行动作,并在完成所有动作后记录每一对状态—行动对的值,周而复始。这样一来,只要给定足够多的时间,它也就能通过计算状态—行动对的平均值,估算出行动—价值方程,完成策略评估的过程。 上述两种方式都有一定的限制——动态规划算法需要环境模型,蒙特卡洛方法只适用于规模较小的有限mdp。如果想结合动态规划与蒙特卡洛方法的优势并规避二者的缺陷(即无需环境模型又可用于较大mdp任务的算法),这时就需要用到时序差分学习方法。蒙特卡洛方法需要等到所有的动作完成后再进行策略评估,而时序差分学习方法则只需要考虑后一步的时序误差值,就可以进行逐步迭代。时序差分学习方法根据策略更新方式的不同,又可以分为在策略(on-policy)和离策略(of-policy),代表算法分别为sarsa-learning以及q-learning。 探索未来与利用过去的权衡 强化学习的过程需要解决的一大难题,是在对未知的“探索”(exploration)和对已知的“利用”(exploitation)之间进行抉择[12]。对这个选择困境,现任deep mind研究员的大卫 ·席尔瓦(david silver)曾在英国ucl(university college london,伦敦大学学院)的强化学习课程上举了一个简单易懂的例子:如果你的任务是去你最喜欢的餐厅就餐,那么挑选曾经去过的饭店中你最爱的一个,显然是个稳妥又简便的选择。不过如果总贪恋过去,你又如何知道那些没有去过的餐厅中有没有自己更喜欢的呢? 强化学习任务中,机器代理在每个环境状态下都必须采取行动,因此选择行动的方式也就尤为重要。这些方法中最简单的是贪婪选择(greedy selection),即每次都选择最高的行动—状态值(这是一种纯粹“利用”的方法)。当然,为了寻求探索与利用的平衡,学者们还开发了更复杂的选择机制,如?-贪婪选择算法——与传统的贪婪方法一样倾向于选择最高的行动—状态值,不同之处在于机器代理有较小的概率?去选择未探索过的行动;玻尔兹曼选择(boltzmann selection)则是另一种平衡方法,此种算法不仅吸纳了概率的概念,在选择时还会考虑状态—动作的相对值,即与其他可能性比较之后,如果差值极高则倾向于选择高的那一个,如果两个行动值差距不大,那么选择的概率也就近似[13]。 强化学习的应用 虽然国际象棋、围棋等脑力运动代表着人类智慧的堡垒,不过人们更在乎的还是强化学习技术该如何落地,在现实生活中找到用武之地。其实,如今的强化学习技术已经迈出了游戏竞技的小赛场,在我们的生活中找到了更多“接地气”的应用场景。它能改进自动驾驶汽车的表现,能让机器人学会抓起以前从未见过的物体,可以帮助品牌投放广告,也可以用于资源管理、降低能耗。 “实践出真知”的机器人 提到机器人,首先映入脑海的可能是电影《星球大战》中外形呆萌的r2-d2、bb-8,或是波士顿动力(boston dynamics)那些善于奔跑、跨越障碍的四足机械巨兽,也可能是darpa挑战赛上那些迈着步子在赛场上执行模拟救援任务的人形机器人。我们几乎都会自然而然地忽略掉机器人圈中两个非常重要的成员——自动驾驶汽车和工业机器人。对前者,虽然媒体的报道从未间断,但是四轮的车型让人难以将它与“人”联系起来;而后者,不仅报道更少,它们单一古板的机械手臂造型似乎也达不到我们对机器人的期许。 不过实际上,相比那些外形惹眼的拟生机器人,貌不惊人的自动驾驶汽车和工业机械手臂却与我们的生活有着更紧密的联系,它们也正是强化学习技术的主战场。 自动驾驶汽车:学会应对复杂的路况 仅仅是通过实验、实践,计算机便可以自己学习到程序员们从未教导过的事情。 2016年年末,在巴塞罗那的一次人工智能会议上,播放了一段令人热血沸腾的驾驶模拟视频。在实时计算机模拟的画面上,几辆自动驾驶汽车在一条四车道虚拟高速公路上展开了一场看起来疯狂至极的演习。这几辆车一半在尝试从右侧车道移向中间,而另一半则希望从左侧向中间并线。即便对于人类的老司机来说,遇上这样的情况有时也会乱了阵脚,不过这些自动驾驶汽车却仍然能够在这种混乱的情况中做到精确的控制,成功地完成了这个棘手的任务。 在如此复杂的路况下进行自动驾驶,这本身已令人惊讶。不过更让人意外的是,这些自动驾驶汽车的行为并非通过常规的软件编程方式完成的。它们是通过反反复复的练习,自己学会了如何流畅、安全地并线。在平时的训练过程中,根据车辆在行驶中的表现,控制软件会自动进行操作,尝试对指令进行微调。当然,这一过程绝非一蹴而就,大多数时候,由于并线动作过慢,车辆之间会相互干扰,引发混乱。不过每一次并线成功后,系统都会加强对这些动作的偏好。没错,这里所应用的技术便是强化学习。 自动驾驶汽车虽然发展迅速,但是一些让人始料不及的复杂路况,对它们来说仍然是不小的挑战。比如涉及与人类司机互动的情况,或是行驶到环岛、十字路口时。如果我们不想承担不必要的车祸风险,也不愿因为机器人过分犹豫而造成道路堵塞,那么我们就需要让它们获得更细致的驾驶技能,比如如何超车。 巴塞罗那人工智能大会上的高速并线模拟,来自mobileye。这家以色列的人工智能公司,为包括特斯拉在内的十几个汽车品牌提供车辆安全系统。在播放了这些并线视频后,mobileye技术副总裁沙伊·沙莱夫-施瓦茨(shai shalev-shwartz)又向观众们展示了自动驾驶汽车面临的其他挑战,比如耶路撒冷一个繁忙的交通环岛、巴黎闹市区某个疯狂的路口,以及印度某条极其混乱的街道。“如果自动驾驶汽车总是循规蹈矩地遵守交通法规,那么在上下班高峰的时候,自动驾驶汽车可能会因为等待并线而白白浪费一个小时的时间。”沙伊说。 mobileye计划在2017年的晚些时候,与宝马和英特尔合作测试这一软件。谷歌、优步等科技公司也会有研究团队应用强化学习的方法训练自动驾驶汽车。 在斯坦福大学人工智能专家艾玛 · 布伦斯基尔(emma brunskill)看来,强化学习正在越来越多的领域中得到应用。不过她认为,这一方法尤其适合自动驾驶汽车,这是因为驾驶的过程是一种“良好的决策序列”。如果程序员们需要事先试想行驶过程中所有可能会发生的情况,然后再逐一对它们进行编码加以应对,那么这一领域的进展将会缓慢许多。 智能工业机器人:机械臂被装上了“大脑” 20世纪50年代,美国人乔治 · 戴沃尔(george devol)提出了工业机器人的概念并申请专利。后来这些机械手臂得到了长足进步。它们的出现大幅提升了工厂的自动化程度,并降低了人力成本,代替人类工人在高温高压等极端环境或污染、放射性场地中完成指定的工作。目前包括富士康、飞利浦在内的全球顶级制造厂商,都大量采用机械手臂进行加工、组装,甚至逐步打造出全自动化的“灭灯”(lightout)工厂。 工厂中的工业机器人需要快速、精准地完成任务。不过在生产线上那些熟练的机械手臂的背后,即便是抓起物品这样看似简单的小动作,往往也需要程序员投入大量的时间,反复修改、实验。当工厂的生产任务发生改变时,修改、调整机械手臂的预设程序的成本也同样不容小觑。 不过随着强化学习技术的到来,这些隐藏在“无人”工厂背后的程序员的工作负荷也可以被大幅降低。 2015年年底的东京国际机器人展览会上,日本发那科(fanuc)展示了该公司与日本机器学习公司preferredworks合作开发的新型智能机械臂。只需给这些工业机器人布置简单的小任务(如从盒中挑拣物品等),然后等上一晚的时间,第二天清晨它就基本可以“摸索”出一套自己的解决方案。令人惊奇的是,它的背后并没有强大的专家系统,也没有一群加班熬夜、精通机械的程序员。“大概用上8小时左右的时间,它的拣拾准确率就能达到90%以上,这和专家预先编码好的效果几乎没有差别。”preferredworks研究人员描述道[14]。 这些新型工业机器人正是通过深度强化学习技术训练自己学会执行新的任务。拣拾物品的过程,需要机器人做到手“眼”(摄像头)协调。这些机械手臂会在任务过程中录制视频,每次拣拾完成,根据效果它们会得到不同的奖励值,而无论每次任务是否成功完成,这些机器人都会记住这些物体的样子。这些知识不断积累,从而细化了那些控制机械臂动作的深度学习模型(或大型神经网络)[15]。2016年8月,谷歌研究团队也发表了论文[16],介绍了通过大型卷积神经网络、强化学习等技术,帮助机器人依靠单目图像学习抓握物体过程中手“眼”协调的方法。有趣的是,在经过大量数据的学习以及反复试错后,谷歌的机械手臂不仅能够完成抓握,还会自动对软物体和硬物体采用不同的动作策略。 训练的过程中,深度神经网络可以控制并调整机械手臂的动作,通过反复实践,强化那些更接近最终目标的动作(如拾起物品),从而让工业机器人在不断试错的过程中对自己重新编码。在深度强化学习的帮助下,这些在工厂中全年无休的工业机器人们,拥有了属于自己的“大脑”。 互联网营销及推广 网络营销与推广,是强化学习的另一个舞台。搜索引擎广告常采用竞价排名机制,广告主需要购置关键字并根据点击等进行付费。由于广告客户预算有限,因此无法支持长期地将大量资金用于广告投放而不顾及回报。良好的出价策略(bidding)应该使广告业务实现可持续增长(即收入高于成本)。但大多数广告主希望获得可持续的增长,这间接导致了广告界的竞争。按照不同的粒度划分,比如每个小时、每天、每周,整个广告环境的竞争状况会构成一个复杂网络。基于整个网络的状态和不同状态之间的关系,选择最优出价或出价组合,是广告主的主要目标。 强化学习技术正好可以满足广告竞价的需求。为了实现最终目标——roi(投资回报率)>1或其他kpi(关键绩效指标),具体的应用方法是根据当前的各种环境状态,来训练对应的神经网络,在这个神经网络的基础上进行强化学习的训练,利用该模型对未来出现的不同行为、变量、状态进行反馈,以求最优的结果[17]。 换言之,在广告投放过程或整个活动的生命周期中,通过训练承载有不同阶段状态的模型,根据奖励结果(收入或kpi)的反馈,模型就能调整广告投标价格,以优化该模型下的广告投放的效果。所有状态都可以被反映到神经网络,由权重和偏差来反映不同状态之间的关系。这种关系是动态变化的,也正因为如此,借助强化学习所建立的模型,能够根据实时数据、状态做出对应的预测和调整。这一点与自动驾驶汽车有异曲同工之妙。 优化资源配置,降低能耗 从计算机集群的作业调度,到云计算中的虚拟机部署,再到数据中心的冷却控制,资源管理的问题几乎无处不在。对资源进行合理的优化调节,一直以来都是学者和业界关注的重要问题。解决这一问题的传统方法,是为简化的资源分配问题、建造启发性模型,然后在实验过程中反复测试、调整,直到得到更好的表现[18]。 不过,由于设备、操作与环境三者之间存在非线性的复杂联系,仅依靠传统的优化算法以及人类工作人员的经验,很难将这一问题解决得更好——系统无法快速适应内外部的变化,而操作员也不可能给每一个可能的情况加以编码。除此之外,由于每个数据中心都有自己独特的架构和环境,因此在某个中心表现出色的预设优化方案,在其他地方的表现可能并不会令人满意。 这样一来,我们就需要一个智能的框架来理解环境和过往经验,并依此采取行动——这又走到了深度强化学习的地盘。在2016年的年度总结[19]中,deep mind 宣布利用机器学习帮助谷歌数据中心冷却账单下降40%。谷歌数据中心支持着该公司旗下you tube、gmail、搜索引擎等服务,对于这样的资源能耗大户来说 ,这样的数字意味着极大的成本节约。 其他的科技巨头也展开了依靠经验自动调整优化资源配置的研究。2017年1月,微软团队发表论文,介绍了利用强化学习完成资源管理的解决方案——deep rm。实际上,资源调配问题本身非常适合采用强化学习的方法实现:第一,这些系统作出的决定通常是高度重复的,为强化学习提供了丰富的训练数据;第二,强化学习能够为复杂系统和决策策略建模;第三,这一系统能够为缺乏精确模型的环境提供奖励信号(比如资源节约会得到正向奖励);第四,通过不断的学习,强化学习能够在不同的条件下,针对特定的工作负载进行优化[18]。 强化学习的发展阻力——逃不出的“维数诅咒” 强化学习虽然已经有了一些成功的案例,比如工业机器人、自动驾驶汽车,但是这一方法也遇到了一定的阻力。 这些阻力中,最严重的一个当属60多年前动态规划之父贝尔曼提出的“维数灾难”。在现实世界中,走出了实验室的机器人需要面对更多的未知情况,因此在进行强化学习的过程中就要将几十甚至上百个变量纳入考虑,这会导致问题的困难程度呈指数级增长。另外一个问题则是机器人制造及维修的成本。强化学习的本质是不断试错的过程,因此在机器人进行实践的过程中,很有可能在没有得到好的策略前就已经导致设备损伤甚至报废。而即便设备还能继续使用,也有可能因为损伤而影响之前训练出的策略的准确性[20]。人工智能专家吴恩达也曾发出警告,指出强化学习方法需要消耗大量的数据,而目前的成功多是在机器可以反复模拟的案例中,比如alpha go的自我对弈。 现在,强化学习的研究人员们仍然在努力探索、找寻那些能够让强化学习应用于复杂场景的方法。在人工智能大会上大放异彩的mobileye,也不得不对自动驾驶汽车的协议进行调整,以避免它们的车在躲避事故的同时引发新的事故。在巴塞罗那的会场上,当人们看着那个神奇的并线视频演示时,会感觉强化学习已经帮我们推开了人工智能的大门。不过,也许在2017年的晚些时候,在你身边的某一条高速公路上,强化学习会经历诞生以来最戏剧性也是最重要的测试。 专家点评 皮埃罗·斯加鲁菲(piero scaruff) 硅谷精神“布道师”,先后在哈佛大学、斯坦福大学等研习人工智能(语义学、认知科学、神经网络等)30多年。还曾在加州大学伯克利分校等兼职讲授认知论、心理学、艺术史等课程。已出版《硅谷百年史》(与他人合著)、《智能的本质》等多部重量级作品。 在2013年的一天,全世界被一条计算机可以在对atari游戏毫不了解的情况下自己学会如何玩这个游戏的新闻而震惊。随后,计算机开始不断地击败世界各地的围棋大师(deep mind的alpha go是最有名的一个,却不是第一个)。现在,计算机甚至达到了和专业赌徒一样的水平,可以玩扑克牌了。 因为以上的这些案例,媒体们已经开始称赞深度学习(deep learning)的神奇,不过在这些计算机程序的背后,真正的引擎则是一项至少有60年历史的人工智能技术“强化学习”(reinforcement leraning)。 事实上,在第一次人工智能大会(conference on artifcial intelligence)召开的两年前,即1954年, marvin minsky就发表了一篇关于“强化学习”的论文。2013年,deep mind团队发表的标题为《使用深度强化学习来玩atari》(ying atari with deep reinforcement learning)的论文中,也对这篇古老的论文进行了引用。deep mind团队的这篇论文中所提及的深度q学习[3](dqn)被视为强化学习的复兴,但是其中的算法其实也是一种古老的算法——q学习法,这种算法在大约20年前,即1998年richard sutton和andrew barto联合出版的《强化学习简介》(reinforcement learning - an introduction)一书中,便已经被全面地介绍过。强化学习是根据一种奖惩机制而工作的技术。奖励和惩罚机制在这里与你教导一个小孩所采用的试错法(trial-and-error)一样。“价值函数”(value funciton)对系统的不同状态进行奖励和惩罚,“策略函数”(policy function)则用来决定系统下一步进行哪种移动(next move)能得到最大的奖励。当结合使用价值函数和策略函数的时候,就会得到“q 函数”(q-function)。“深度q学习”(deep q learning)使用了一种卷积神经网络(convolutional neuralwork,是由fukushima 在1990 年提出的一个观点,得益于现代计算机计算能力的迅猛提升,这个观点也变得可行了)来改进策略函数(policy function)。 为什么在sutton的书中已经包括了主要的公式的情况下,强化学习用了20年才走进人们的视野?这是因为,在20年前计算机的计算能力还没有现在这么强。摩尔定律(moore’sw)是当前人工智能技术的核心秘密。虽然在算法和观点上,我们近来有所创新,不过人工智能科学家更多的工作,则是耐心地将复杂架构的神经网络(neuralwork)合并在一起,这需要计算机强大的计算能力。虽然观点是非常重要的,不过耐心和计算机的计算能力才是重中之重。你可以在网上练习你的强化学习(rreinforcement learning)技术,不过我想你很快就会发现,人工智能这件事真的需要很多耐心和计算机的计算能力。而且大多数情况下,这两点我们都不拥有。 在上文中,我提到了近些年我们在算法和观点上的创新,不过我发现,很难找出一个和过去的算法和观点完全不同的新方向。比如,alpha go采用蒙特卡洛树搜索(monte carlo tree search)改进了atari程序,但这也是基于一个至少可以追溯到20世纪80年代采用“搜索算法”(search algorithm)来改进对复杂问题解法的老观点(也在25年前第一次应用在围棋游戏中)。 第二篇关于atari的论文《通过深度强化学习算法达到人类级别控制》(human-levelcontrolthroughdeep reinforcementlearning)有19个作者,并且在参考资料中提及了《动物智力》(animal intelligence)这本书。《动物智力》是一本由心理学家爱德华·桑代克(edward torndike)于1911年发表的著作。 当然,每年都会有人调整强化学习的核心算法,以提高计算速度和降低计算强度。比如,2014年由volodymyr mnih、nics heess、 alex graves和koray kavukcuoglu发表的论文《视觉注意的复发模型》(recurrent models of visual attention),就被认为是强化学习的一个主要的扩展。不过这篇论文难道不只是对ronald williams于1992年所发表的论文《连接强化学习的简单统计梯度跟随算法》(simple statistical gradient-folowing algorithmsfor connectionist reinforcement learning)的改进而已吗? 从哲学的观点出发,这种进步的模式真的令人震惊。强化学习、检索方法以及其他人工智能技术的发展趋势,事实上都是非常简单的数学。你可以用简单的几行就可以写出一个公式(这些公式在非数学家们看来可能非常复杂,不过事实上并没有那么难,比如爱因斯坦的引力方程)。 当你上百万次地在一个巨大的数据集上运行这个简单的几行公式时(如atari游戏),这些算法开始表现得像玩这个游戏的专家一样,虽然这些算法其实根本不知道这个游戏的规则。atari程序通过观察计算机屏幕的像素点来“学习”如何玩这个游戏。这个程序对这个游戏的规则一无所知,甚至根本不知道这是一个游戏,它只是在成千上万个例子的基础上不断地重复运行一个数学公式而已。 你现在有充分的理由质疑,所谓的“智能”到底在哪里?哲学家们为此分为了两派。其中一派认为智能需要真正理解它正在干什么,并且最终我们的“理解”只是对简单的神经算法进行大规模的迭代而已。这一派的哲学家们也希望,在未来的某一天我们可以发现一个并不能被大规模的简单算法重复计算而攻克的游戏。不过目前看来,我们已经被仅仅重复计算简单算法的机器轻易地打败了。而且机器(在不知道游戏规则的前提下)已经“学会了”难度不断增加的游戏,并且超越了我们人类的能力。 但是,还是不要高估机器奇迹般的能力。机器算法虽然可以学会如何玩一个游戏,并且击败了人类大师,但是这一切都构建在人类设计的正确机器算法的基础上。机器事实上还只是一个和它的环境相交互、可以成功地解决问题的“学习代理”而已。深度学习的基础步骤便是捕捉问题的关键特征,并且适时地优化学习代理的行为,这些工作都是由人类专家完成的。这些专家现在主要采用“马尔可夫决策过程”(markov decision process)来解决这些问题。机器可以作为学习代理,但是目前它还不能作为学习代理的设计者。 不过,学习代理本身也有显著的差异。我们人类自身的学习其实并不是简单的惩罚奖励机制。人类和机器其实是采用了两种不同的方法进行学习的。人类的学习中有很多常识和直觉的因素(毕竟游戏也是由与我们分享相同世界的人类所发明的)。人类学习的方法,最开始是被“指导”的,有人告诉我们如何去玩这个游戏,随后我们在很短的时间内就通过我们的猜测探知到这个游戏是怎么玩的。但是强化学习根本不需要知道这个游戏是在干什么,它只需要知道玩这个游戏的目标是什么,以及可以进行的行动有什么,随后,机器的任务就是在这些可以进行的行动中选择最好的,以达到最终的目标。由于机器的学习方法是这样“选择”的,人类玩家可以在几分钟之内学会玩这个游戏,但是如果让一个强化学习算法最终可以把一个游戏玩得非常好,可能需要几小时、几天或者几个月的计算(这取决于计算机的计算能力)。不过你在学习骑自行车的时候则是结合了这两种学习方法:一开始你的爸妈告诉你(指导你)自行车是怎么工作的,然后你不断练习,在每次的尝试中调整你的动作以免跌倒,提升你自己的稳定性(奖惩机制),直到你可以驾驭它。 心理学家们一直对强化学习极其着迷,因为强化学习只有在学习代理对环境有了整体认知的情况下才有效。atari电子游戏的一个操作或者围棋的一个移动都构成了一个简单的环境。人类也可以将强化学习应用在更为复杂的环境中。使用强化学习的机器人,现在仍只能处理非常简单的案例。事实上预计机器在未来可能会有什么快速的发展很容易,不过我认为思考一下这些算法怎样增强我们人类对自身的了解则更有意思。 另一个让强化学习如此吸引人的原因,可能就正如tambet matiisen所说的“看他们解出一个新的游戏,就跟在野外观察一个动物一样”。 专家点评 姚颂 深鉴科技创始人兼ceo,致力于构建更便捷、更高效的深度学习专用平台。毕业于清华大学电子工程系,斯坦福大学访问学者,曾获2016年度“新锐ceo”称号。 相比于深度学习这样的监督学习,强化学习其实更类似于人类学习的机制:强化学习对于处理的任务,观察当前状态(state),通过一个回报函数(q-function)计算不同操作的回报(q-value),即结果好还是不好,学习到在不同状态下怎么操作能够得到最大的回报。如果说深度学习是从训练数据中学到一个非线性函数,将未知数据与标签对应,那么强化学习则是学习一个状态机制,在各种情况下每次都选择回报最大的方式。 强化学习,reinforcement learning,又被简称为“q learning”,已经是机器学习界一个很古老的问题了。近年来,结合深度学习而出现的deep reinforcement learning(以下简称为deep q learning)给强化学习领域带来了大的突破,使其与gan、迁移学习等topic一样,成为当前机器学习最火热的话题之一。 当强化学习真正大规模地应用时,却又遇到状态过多的问题——传统的强化学习用一张表来存下不同状态的q值,而对于一幅640x480的rgb格式的图像,有(2∧24)∧(640x480)个状态,无论如何也不可能存下这样大的表格。这时deep reinforcement learning横空出世,直接用深度神经网络来计算任意状态的q值,而不是用一个表格存下来,这样非线性的表达能力正是深度神经网络擅长的! 将强化学习带入大众视野的,也是关于深度强化学习的开创性论文,是2013年deep mind发表的ying atariwith deep reinforcement learning。在这篇论文里,deep mind的研究人员为了证明方法的通用性,对“打砖块”等7款游戏,通过设置游戏的得分作为reward,让算法直接使用图像作为输入,判断游戏的操作,获得最高的游戏得分。甚至在其中的3款游戏上,算法的得分超过了人类高手的得分。 强化学习还可以用来玩更多的游戏,比如ppy bird,甚至alpha go也可以算作围棋游戏。alpha go还有一个趣事:由于算法追求的是赢棋的概率,结果只以最终是否赢棋反馈,而观察不到赢了多少目,因此如果alpha go遇到可以以70%赢10目与80%赢1目这两种情况时,会选择后者——这也是为何有时alpha go会犯傻。最近,强化学习在德州扑克doom游戏上的表现也吸引了非常多的关注,deep mind与暴雪还共同开发了《星际2》的强化学习算法。 虽然强化学习在打各种游戏方面吸引了众多目光,但它最大的实际应用行业还是工业控制——这个方向的引领者依旧是deep mind,2015年它们在nature上发表了human-level controlthrough deep reinforcement learning,成为开山鼻祖。强化学习用于工业控制也非常直观,如一个机械手需要夹起流水线上的一个零件,拼到整体产品上,可以通 专家点评 田丰 过当前机械手上的摄像头拍摄,直接学习到机器手接下来应该怎样操作,而不是用精密的编程操作。前百度首席科学家、斯坦福大学andrew ng教授的小组,也曾经使用强化学习进行直升机的控制。在google最近的learning hand-eye coordinationfor robotic graspingwith deep learningandrge-scale data collection中披露,利用深度强化学习,对复杂物体使用机械手的抓取,已经能够达到非常高的成功率了。 尽管离真正的大规模使用还有一定的距离,但我相信强化学习的未来是非常光明的——因为强化学习十分类似人类从环境中得到反馈、不断学习与改进的过程,是一种更本质与持续的学习方式。比如,自动驾驶分为感知、决策、控制三大部分,目前深度学习还只能比较好地解决感知部分的问题,对于不同场景驾驶的决策与控制,强化学习将来是不是会带来革命性的突破呢? 阿里云研究中心主任,专注于云计算、物联网/工业互联网、大数据、vr/ar科技战略的研究。工信部人才交流中心工业和信息化特邀专家,中国互联网协会核心专家。 强化学习技术的应用场景广泛,市场空间巨大,从游戏人工智能、围棋博弈、自动驾驶汽车、机器人控制,到电商推荐、工业智能制造、新能源发电、调度管理,能够让机器算法像人一样学习、思考、决策。互联网上,“大应用”带来“大用户”,“大用户”产生“大数据”,“大数据”训练“大智能”(算法),机器学习的指数级成长速度,与人类学习的线性成长速度是天壤之别,机器在大规模、高复杂度、实时性要求高的诸多领域的应用效果已经远超人类水平。 机器学习算法分为非监督学习、监督学习和强化学习3种类型。强化学习是多学科、多领域交叉的技术产物,其本质是解决“决策”问题的算法,即帮助智能计算体(含软硬件)学会自动进行决策。该技术具有普适性,涉及博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。 强化学习的原理是序列决策问题处理,需要连续选择一些行为,从这些行为完成后得到的最大收益作为最好结果。与监督学习不同,强化学习在没有任何“标签”告诉算法应该怎么做的情况下,先尝试做出一系列“行为”,然后得到一个结果,通过判断这个结果是对还是错来对之前的行为进行反馈,由这个反馈来调整之前的行为,通过不断地调整算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。这与人类利用现有知识解决未知领域的问题的学习过程相通,即人为什么能够做出最优决策。 2016年1月,谷歌deep mind团队研发的alpha go以4 : 1战胜人类职业棋手李世石,同年12月,谷歌alphpa go的升级版本master在围棋网站上以60 :0的压倒性优势连续打败各国30位顶级水平棋手。在围棋(古代称为“弈”)诞生4000多年后,2016年7月,人类的围棋历史被改写,世界职业围棋排行榜上第一名——柯洁的位置被谷歌deep mind人工智能系统取代,至今无人打破。这背后是智能计算硬件与算法的升级,从胜樊麾时的单机版alpha go(48个cpu+8个gpu),升级到完胜人 专家点评 郑文 类高手群体的分布式alpha go(1202个cpu+176个gpu),从下一步棋用时1分钟,进化到下一步棋用时8秒反而棋力大增,不仅是计算集群堆叠,还靠增强学习训练算法模型升级起到了决定性作用。未来,纯人类棋手对弈将会被人工智能算法对弈或人机智能混合(“人+人工智能”半人马组合)对弈所取代,人类老师将让位于“算法为师”。 在产业领域,强化学习的应用场景也有很多。比如,在2016年“双11”淘宝天猫1207亿元成交额的背后,阿里巴巴利用强化学习技术,对电商搜索引擎的排序策略进行实时调控,在异常复杂的在线推荐场景中,优化算法对上亿商品实现毫秒级处理响应,收到很好的效果。如果把淘宝搜索引擎看作智能体,把用户看作环境,那么商品的搜索问题就可以被视为典型的顺序决策问题。商品推荐算法每一次排序策略的选择可以看成一次试错,把电商用户的反馈、点击成交等作为从环境获得的奖赏。在这种反复不断地试错的过程中,商品推荐算法将逐步学习到最优的排序策略,最大化累计算法“奖赏”。这种与环境交互的过程中不断地试错学习,正是电商强化学习的根本思想。 快手前沿技术研究部b负责人,斯坦福大学计算机系博士,曾在硅谷多家著名企业、创业公司担任资深研究员,研究领域涉及计算机视觉、深度学习、计算机图形学与物理模拟等。 虽然强化学习在2017年被评为“10大突破性技术”,但它已经有几十年的历史了。它的基本思想是,学习在不同环境和状态下哪种行为能把预期利益最大化。然而,这种方法一直无法推广到现实世界中的复杂问题上,其中最主要的原因是,现实中可能遇到的情况错综复杂,无法进行一一枚举。在深度学习出现后,事情发生了巨大变化:深度学习在解决复杂模式识别问题上有了突破性的进步。当深度学习与强化学习结合后,对现实情况的枚举,就换成了首先对现实情况做模式识别,然后再对有限的模式进行枚举,大大减少了计算量和存储代价。这种学习方式也更接近人类思维的模糊判断的特点。 google的deep mind以围棋高手alpha go一战成名,它也是最早将深度学习与强化学习进行结合的公司之一。当时,主要的深度学习方法是监督式学习,也就是必须对训练数据进行标注。这项工作通常需要人力完成,而深度学习所需的数据量又十分巨大,所以标注数据的获得经常成为深度学习方法的一大瓶颈。而强化学习在一定程度上避免了这个问题,因为它的学习过程不依赖于标注,而是由一个奖励函数来主导。这和人类在大多数情况下的学习方式是一致的,因为多数时候人类的学习过程并没有监督和标注,而是根据产生的结果好坏来调整,如婴儿学习走路的过程。因此,学术界有不少人认为,强化学习以及同样不需要标注数据的无监督学习是未来深度学习的发展方向。 但是,在目前的情况下,强化学习要实现比肩人类在现实世界中的学习过程,仍然比较困难。强化学习需要大量的数据进行训练才能学习到有意义的模式,这在现实世界中比较困难。比如,在药物研发的应用中,训练数据的获得往往涉及从大批人群中进行组织采样,费用高、耗时长,进行一次算法训练的代价是巨大的,而研发过程中还需要不断地迭代训练。 强化学习最早绽放出光彩是在模拟环境当中。deep mind早期的工作是训练计算机通过直接看屏幕的输出学习如何玩游戏。由于训练数据可以直接从计算机中获得,而且游戏的运行速度也可以人为加快,所以强化学习的过程可以很快完成。同样,战胜了人类顶级围棋高手李世石的alpha go也是在模拟环境中训练的。特别是alpha go可以通过自己与自己对弈来学习,每次的对弈都在计算机内完成,训练速度大大加快。 在未来,如何将强化学习高效地应用于现实世界,训练数据将会是研究者需要解决的重要问题。一种思路是降低算法本身对数据量的需求,使算法能够从较少的数据中学习出有意义的结果,比如与生成式模型的结合。另一种思路是通过模拟的方式快速地生成数据,比如在训练自动驾驶汽车时,先在计算机里模拟路况等信息进行训练。强化学习方法已经开始应用于医药开发、自动生产机器人、自动驾驶汽车等领域。我们可以预期,随着技术的不断进步,能自动做家务的机器人也将有一日走入普通百姓的家庭。 [1].很多强化学习算法都利用了动态规划理念。传统的动态规划算法常用于优化任务,就像是一种“聪明的蛮力法”,它会将问题拆分成多个子问题,每一个被解决过的子问题都会被记录下来,当已经解决的子问题再次出现的时候,只需直接查找结果而不需重新计算,并以此寻找最佳的解决方案。 [2].马尔可夫过程(markow process)是指符合马尔可夫性质的随机过程,即条件概率仅与系统当前状态(state)相关、与历史或未来状态相独立的过程。与传统的马尔可夫过程不同的是,从mdp将行动(action)也纳入考虑,即环境的下一个状态不仅与当前的状态有关,也与当前要采取的行动有关。 [3].“深度q学习”(deep q learning)虽然是现在最流行的强化学习(reinforcement learning)技术,但是其并不是唯一一个采用强化学习的技术(卡耐基梅隆大学就对强化学习进行了很好的调查)。并且请注意,richarrd bellman可以追溯到1957年,用于实现最佳控制(optimal control)的动态规划(dynamic programming)的技术也采用了一个类似的概念。 the 360-degree selfie 360° 自拍 撰文:杨一鸣 突破技术 商品型360°全景相机,能保存更加真实的景象与故事 重要意义 我们如今所有的照片和影片的形式将得到改变 技术成熟期 现在 主要研究者 -理光(ricoh) -三星(samsung) -360fly -jkimaging(柯达pixpro相机的制造厂商) -icreal tech(allie相机的制造厂商) -humaneyes technologies(全景相机vuze的制造厂商) 能拍摄球状影像的全景相机已经变得很廉价,新的摄影时代即将来临。 自从手机出现摄像头以来,拍照和自拍就逐渐走入了我们的日常生活。随着手机摄像头的更新换代、如雨后春笋般出现的摄影app以及照片社交共享的出现,手机摄影已经成为我们记录生活点点滴滴的最方便的工具。如今,手机摄像头的像素已经可以和一些单反相机媲美,而便捷的操作以及与网络实时相连的功能也让大多数人放下了手头的相机,转而使用更加方便的手机来摄影。其实,这样的发展趋势也反映了大多数消费者的心理——需要更加方便的摄影方式。2012年出现的光场摄影术瞄准了摄影中让大多数人头疼的对焦问题,设计出了先拍照后对焦的相机。2017年,相机制造厂商瞄准消费者的需求——方便的全景自拍功能,推出了一款能够拍摄360°全景照片的相机,这款相机具有超真实、全方位的三维全景摄影能力。 现在,理光、三星以及蛰伏已久的柯达公司都推出了自己的产品,价格低廉、拍摄功能强大以及方便分享是其主要特点。其中,360°全景相机与手机联动的强大功能也是其设计别具匠心的一点,用户能够十分方便地在手机端进行取景、拍摄、修图、发布照片影片,甚至直接与网络直播平台相连进行实时直播。与其说这是一款专业或特种的相机,不如将其归类为手机端的外设或是虚拟现实技术的重要组成部分。在智能手机席卷全球之后,在虚拟现实的风潮正在掀起的同时,依托这两者的360°全景相机是否能借力上位呢? 置身视野宽阔的景点,除了感受景色带来的愉悦,大家是否也会有摄影的冲动?全景摄影作为一种能够将景色最大化地留存下来的手段,已经成为了游客拍照的标配。其实,在各大景点都会看到人们用手机拍摄全景相片的场景——选定取景范围,用手机或相机从一端扫到另一端。这样连续拍摄几张图片之后,由手机或相机拼接成一张全景照片,而景色也就尽收在照片里了。随着智能手机全景相机app的风行,游客们可以在赏心悦目的景色前拍摄全景照片。 全景相机的历史要从1840年说起,当时美国光学设计师亚力山大 · 沃柯特(alexander wolcott)制造了一台使用凹面镜成像的照相机“wolcott”,它比当时采用单片透镜的相机有更大的通光量,曝光时间为90秒。1841年, 33岁的维也纳大学教授匹兹伐(joief max petz-val)用计算方法设计出了著名的“匹兹伐镜头”。它的诞生使摄影者可以拍摄一些运动缓慢的物体,使得动感抓拍成为可能。有了以上这两种技术,全景相机的前置条件才算初步形成。时间来到1843年,奥地利人约瑟夫 · 帕克伯格(joseph puchberger)制造了一台手持的全景相机,该相机能够拍摄150 °视角的照片,但是拍摄后的图片拼接的精准度不够好。1844年,弗雷德里希 · 马坦斯(friedrich von martens)在其故乡德国发明了世界上第一台转机,并以此制造了一台名为“megaskop”的全景相机。该相机的光轴可以在垂直航线方向上从一侧到另一侧扫描时,依靠镜头的转动拍摄全景照片,比约瑟夫的手持相机的效果要好,而这也是我们现在公认的第一台全景相机。当时,相机才刚刚兴起,拍摄照片是一件时髦而昂贵的事情,拍摄全景相片不仅需要特殊的相机,还需要专业的设备,并且后期的胶卷处理环节也十分烦琐。所以拍摄全景相片在当时也就变成一件十分罕见的事情,就算在摄影圈也是如此。[1] 这就是世界上第一台全景相机的故事,而这种拼接多张图片获得全景相片的原理直到今天还被全景相机运用。但是从本质上说,这样拍摄的全景相片没有3d立体效果,只能在二维方向上移动。大部分的全景摄像机也是这样,大多用于拍摄景象,而且不能将拍摄者摄入相片中。其实有需要就会有技术的革新,现在确实存在另一种全景相机,一种可以将我们真实视角范围内360°x360°(水平视角以及垂直视角)的球形影像拍摄下来的相机,能够快捷地进行全景自拍,而这就是360°全景相机。它能提供的摄影相比前者共有3个特点:一是强大的全方位视角的球状摄影,能记录比平面全景相机更大的影像范围;二是360°全景相片更真实,其中包含的元素更多;三是360°全景相片具有三维立体感,观者能够有身临其境的感觉,如果佩戴vr装备进行观看,观者还能自行调节视角,用户体验超赞。正如全景相机刚被制造出来时一样,360°全景相机一直是价值不菲且操作不方便。不过在2017年,许多相机制造厂商先后发布了自己的最新产品——廉价的360°全景相机,它们能提供十分出色的360°全景拍摄,这将开启摄影的新篇章,也将改变人们分享故事的方式。 360°全景相机的发展与技术革新 你也许会问,如此犀利的相机需要多少钱才能买到呢?答案是350美元。其实2015—2017年发布的360°全景相机的价格都没有超过500美元,例如,拥有1200万像素的柯达“pixpro sp360 4k”相机的售价仅为499美元,定位是“消费级的便携摄像机”。这已经接近一台单反相机的价格了,但是与单反相机相比,它们一点儿也没有笨重的感觉,而且与手机相连的强大功能使得360°全景相机的操作以及网络分享功能都优于单反相机,可以说360°全景相机的性价比更高。 其实,360°全景相机也是一步一步通过技术的革新才走到今天的。和全景相机最初的故事类似,360°全景相机也是将几个重要的科技成果有机地融合在一起,就成了一个全新的科技产品。简而言之,就是将强大的硬件、强大的软件以及设计者对相机精准的定位结合在一起,才打造出了摄影界的新型神器--360°全景相机。 芝加哥千禧公园的全景照片(用allie拍摄) allie相机 采用专业监控技术制成的相机,能在微光条件下大显神威 首先是硬件方面,全景相机技术的出现也是由于智能手机相关技术的突飞猛进以及多镜头和多传感器协作摄像技术的创新。传感器以及镜头的更新换代体现在强大的摄像功能以及最高像素上,360°全景相机在这2个方面都采用了最新的科技。市面上的360°全景相机一般配备有2个或多个镜头,通过摄像头之间的视角互补,来达到或者近似达到左右、上下的360°环形视角。而且每个镜头的像素级别几乎都在千万级以上,如柯达“pixpro sp360 4k相机”。除此之外,还有很多360°全景相机集成了特殊的摄像头,比如ic real tech就采用专业的监控摄像头设计出了“allie”,该款相机就算在微光条件下也能拍摄出十分清晰的影像。更有趣的是,“allie”还集成了内置的麦克风,拍摄出的影像不再是无声的,而是一部完整的微电影。不过,这样也增加了摄像机的输入数据量。你也许会担心存储的问题,相机本身自带8gb的存储空间;若是觉得不够,还能直接使用“云”服务上传自己的照片和影像,为拍摄免除了后顾之忧。可以说“工欲善其事必先利其器”在360°全景相机上得到了完美体现,如此坚实的硬件基础也使360°全景相机的功能逐渐强大,变得笃定起来。 而另一个大的硬件突破就是360°全景相机的中央处理器芯片。一般而言,360°全景相机相比普通相机而言功率要大,那么自然也会产生更多的热量,更不要说360°全景相机还有与网络联动的功能,而功能越强大,需要的功率也就越高。但是这些问题都被节能的智能手机芯片解决了,如“360fly”相机以及“allie”相机都采用了骁龙的处理器。全新的处理器能使相机在图像处理时效率更高、效果更好,也实现了与网络实时联动的功能。因为相机与网络进行实时连接时,对图像处理的速度要求以及传输数据的要求是非常高的,所以高效的处理器绝对是360°全景相机的必需品。[2] 其次是软件方面,从原理上来说,360°全景相机还是以拼接图片为基础,图像处理算法也是360°全景相机能够面世的核心。而几年前,市场中早已存在两种主要的全景摄影摄像技术:拼接多个相机拍摄的影像或采用价值不菲的(10000美元)特种相机。这两种全景摄影摄像技术的图像处理都是基于多张相片的拼接,过程十分烦琐,并且需要很长的时间。拍完照片,用户需要先将影像文件导入计算机,再使用专业软件经过一步又一步的处理才能得到一张效果不错的照片,最后还需要将文件转换成便于查看的图片格式才行。可以说是历经磨难才能得到一张全景照片,就像我们大学毕业时拍毕业照一样,一个系几十人甚至几百人排成一个队形,一位摄影师站在我们前面,然后从左至右一路扫过来;一周以后我们就可以拿到一幅长长的画卷了。这显得十分不方便,也使平面的全景照片以及360°全景照片成为只有会玩的专业摄影师才能掌握的技术。[3] 那么,简化图像处理过程就成了360°全景相机发展的重中之重。最新的算法将此过程简化,甚至能在相机端完成图像处理。与中央处理器的协同合作,保证了图像的质量,简化了图像处理的过程,并且也使网络直播成为可能。只提高了图像处理的效率还不够,市面上的360°全景相机一般都装配有不止一个镜头,而这些镜头之间的协调也是技术难点之一。若是它们的时钟信号不一致,或者拍摄条件有细微的差别,都会导致镜头之间的帧率不协调。这些问题都在软件端得到了解决,让人不得不赞叹一下这些图像处理软件工程师的心血。更令人惊讶的是,insta360只耗时一年就开发出了可拍摄 4k 画质的视频和照片的360°全景相机。相机拍摄后无需后期软件处理,即可实时预览由相机算法实时拼接而成的全景影像。通过算法实时拼接、超过100分钟的连续拍摄能力,满足专业的全景视频拍摄。 拿起这种相机端详,你也许会觉得奇怪:怎么找不到取景器或屏幕呢?没错,这也是设计者匠心独具的地方,没有取景器和屏幕,想要查看拍摄的画面,只能从智能手机上使用相应的app才能看见。这种貌似带来了“不方便”的设计,其实有很多好处:首先,更便于分享,借助手机端简便的操作,用户只需按几个按键就能将图片或影片上传至网络,甚至可以直接开启直播;其次,节省了360°全景相机的空间,使相机更便于携带,而且没有了取景器和屏幕,相机的耗电量也直线下降;最后,设计者将相机专注于摄像这一块,减少了相机的部分元器件,也节省了成本。可以说这样精准的定位,赋予了360°全景相机实用及便捷的属性。 使用三星gear 360拍摄的芭蕾舞全景照片 来自其他行业的技术革新也在助力360°全景相机的发展。比如智能手机市场的蓬勃发展为相机制造厂商创造了一个良性竞争环境,“迫使”它们开发新技术,提高相机的照片质量。这也要求相机的关键元器件厂商提高自己产品的质量,比如索尼从2017年起逐年将自己的图像传感器集成化,并确保它们在微光条件下拍摄的照片的质量。而且,智能手机市场的激烈竞争也将压低元器件的价格,这也是360°全景相机价格低廉的原因,其关键元器件都变成“白菜价”了。虚拟现实技术的崛起也给360°全景相机带来了勃勃生机,因为360°全景相机正好能为虚拟现实提供大量的素材。不管是初见端倪的虚拟现实直播还是已经面世的虚拟现实软件,全景照片或全景影像都是它们最好的取材材料。 市场应用 总的来说,当下所有的360°全景相机的特点主要有以下几点:强大的全景拍摄功能、实时与网络共享的功能、虚拟现实联动功能以及超高的性价比。强大的硬件配置不仅赋予了相机完美的全景拍摄能力,也实现了高效的图片处理能力。再加上与手机端的交互,能够实现与网络的实时连接。这些都无形中增加了360°全景相机的市场竞争力,也拓宽了其应用面。 全景相机的发展距今已经有十几年了,而真正推广起来还是最近几年的事情。这当然与前文提到的全景相机的技术革新以及强大的功能有关,而且现在大多数人都有能力购买360°全景相机,它们的售价并不高,还不到500美元,与一般入门级的单反相机价格差不多。更有利的是360°全景相机的操作十分方便,在手机端就能轻松控制,拍摄一部小视频也十分方便,拍好了就能上传至网络,甚至还能直接开启直播模式。但是一些非专业生产的360°全景相机的效果并不好,有些也只能拍摄水平的全景影像,并且大部分的功能并不强大。不过,好的360°全景相机确实能够将拍摄的场景以及场景里的故事更好地呈现在我们眼前。这样一个直播的故事将由一位哈佛的生态学者柯恩·霍夫肯斯(koen hufens)展开。柯恩是一个对植物有着狂热兴趣的学者,2016年秋天他前往美国马萨诸塞州的一片丛林中探险,并在网站上实时直播了探险的过程。当时,他使用的就是理光“teta scamera”360°全景相机,使得他的观众大饱眼福,看到了森林里美丽景象的全貌。此外,观众还能使用鼠标或点击移动设备的触屏将直播图像区域放大。观众还可以戴上虚拟现实头盔,使视角变得和360°全景相机一样,转动脑袋就能将整个视角变换,如身临其境一般真实。想象一下,你在家吹着空调,喝着冷饮,足不出户就能领略到几千米之外的丛林历险,这感觉真不错。 理光theta s相机 理光的设计者们将图像传感器直接放在镜头后方,使得此款相机十分轻薄 能够进行直播的内容还有很多,如新闻。新闻媒体自然一早就盯上了这种拍摄神器,《纽约时报》和路透社的记者在采访海地飓风灾情以及加沙难民营的时候也使用了三星的gear360°全景相机(价值350美元)。《纽约时报》还用360°全景相机制作了一段有关尼日尔难民躲避boko haram激进组织的视频,视频中这些难民正接受救助组织的帮助。观看全景视频的感觉可以用“接近真实”来形容,视频的开头你会看到卡车上卸载救助物资的场景,连物资掉落地面的场景都极其真实。我们若挪开视角,将会看到难民聚集在一起接受物资的令人动容的场面。如此震撼的观感和展示效果,一定会让全景影像成为新闻媒体的宠儿和新标准。twitter现在已经在尝试鼓励用户使用它们开发的“periscope”软件上传全景影像。发动民众,由小众变为大众,一直是成功的准则。 使用理光theta s相机拍摄的台阶峡谷(犹他州) 其实,全景摄像早已存在于体育赛事中。于2014—2015赛季正式投入使用的nba回放中心,在比赛进行中就能将各种令人震撼的篮球时刻捕捉下来,并以360°全景模式回放。相信看过近两年来的nba全明星扣篮大赛的朋友们一定对这样的技术不陌生,因为360°全景回放的扣篮镜头实在是太帅了!不过这样的全景摄像并不是仅由一台小小的全景相机来完成的,其背后有一套名为“free d”的摄像回放系统,它由加利福尼亚州rey technologies公司打造,配合英特尔的技术,利用独特的算法在三维空间内定位多台摄像机捕捉到的像素,最终还原成3d影像。而乐视体育更是在2016年年底推出了全景体育直播,使用的技术也大同小异,采用了8个迄今为止全球最轻最小的4k运动直播相机c1,搭建出专业的全景摄像解决方案,实现全景拍照、录像和直播。不过在非专业体育直播用户中,360°全景相机还是能够把握住大部分的运动场景的。在insta 360 nano相机的官方宣传片中,这款获得2017年度“国际消费类电子产品展览会创新技术奖”(ces innovation awards)的相机出现在了许多运动中:在橄榄球球员的头盔上、在赛车手的头盔上、在跳伞爱好者的手中、在滑板的前端等。此外,除了体育直播,类似柯达pix pro sp360 4k的全景相机也应用在体育训练中,如篮球、足球以及冰球的360°全景回放,这些都是珍贵的画面,有些是赏心悦目的进球场景,有些则是十分具有训练意义的动作解析。 同样,在学术圈,这样的360°全景相机也大放异彩,比如医学院的学生就已经使用360°全景相机传来的影像学习外科手术,这是由一家位于洛杉矶的初创公司gibib开发的专门医用的全景相机。价值500美元的4k相机,只有一个棒球那么大。2016年7月28日,giblib全程直播了一场在加利福尼亚州进行的疝气手术。giblib开发的360°摄像技术搭配数字平台,向人们提供动态教育讲座和手术实时交互式访问平台。giblib首席执行官brian conyer在某次新闻发布会上表示:“360°虚拟现实技术改变了外科教育形态,将完美展现一个真实的手术场景,给观众带来身临其境的体验。而这样的直播将改变医疗行业,为其带来一个全新的医疗手术信息共享方式。”毫无疑问,360°全景相机在其中扮演了十分重要的角色。而对于外科手术这种极具操作性的工作, 360°的摄影以及回放的确能给观众带来更多的信息,也能为学习者提供更好的观摩体验。 在这个智能手机的时代,在这个全民直播的时代,360°全景相机在消费电子市场的前景还是非常好的。虚拟现实技术与360°全景相机先后于2016年和2017年获得了“国际消费类电子产品展览会创新技术奖”(cesinnovation),而虚拟现实行业在ces之后的市场份额较2015年增长了77%,能用于形容如此情景的词汇只有“暴涨”了。与此相比,360°全景相机的市场情况也十分相似。2016年,球状全景相机的市场份额占全球商品相机的1%,而到2017年年初就已经增至4%。虽然2017年还没有过完,但是360°全景相机的风靡已经是可以预测的事情了,而这与虚拟现实行业的兴起又分不开。事实上,360°全景相机能为虚拟现实提供广大的素材。与虚拟现实的联结其实是360°全景相机最直接的拓展应用,也将是今后几年全景相机市场增长的动力,毕竟供需关系才是第一推动力。 其实facebook公司“oculus vr”子公司的首席技术官约翰· 卡马克就预测:“未来,人们使用虚拟现实的时间中只有一半是玩游戏,另一半则是使用虚拟现实观光或者是做一些现实的事情,如参加一场虚拟的婚礼。”这其实是最大的趋势,其一,我们生活在一个游戏的世界,很多“80后”“90后”的朋友从出生开始就和很多游戏一起成长,而现在也正是电子游戏百花齐放的时代;其二,随着互联网以及信息的高速传播,大家也都想要体验各种各样的事情,想要去看看世界。虚拟现实正是两者最好的平台,能让用户在高科技的洗礼下体验不一样的游戏和人生。那么,无论对于哪一部分而言,360°全景相机都能提供大量的素材,它们甚至可以直接应用于游戏以及软件的场景中。虽然虚拟现实还没有真正的平民化,但是世界上许多大公司,如微软、facebook以及谷歌都在大力发展虚拟现实技术。360°全景相机作为其硬件的组成部分以及提供素材的重要渠道,没准能乘势而上,打开自己的市场。[4] 三星gear360°相机 《纽约时报》以及路透社的记者们正拿着它去世界各地进行新闻拍摄 由柯达pix pro sp360 4k相机拍摄的城市一角 此外,全景摄像机与无人机的结合也被大众所瞩目。无人机的出现就已经改变了很多人看世界的方式——航拍让我们能看到更多更广的画面;而360°全景相机的出现则是将我们在可以看到的范围内的画面无限增强。这两者的结合也必然能擦出新的火花。由柯达公司开发的pix pro sp360 4k相机,小巧灵便,还能装在无人机上拍摄高清的航拍视频。此外,一些专业的无人机公司也在积极地尝试这两种科技的交叉,于2015年成立的美国公司queen b robotics拥有先进的无人机制作技术,其在2016年春夏之交就已经推出了世界上第一台拍摄360°全景4k视频的无人机,名为“exo360”。与市面上流通的大多数无人机不同的是,此款无人机装配有5个4k摄像头,分别在4个螺旋桨上以及机身底部,能够进行普通拍摄以及全景拍摄,并且通过佩戴vr头显能够实时体验真正的“上帝视角”。在操作方面有两种选择:遥控手柄或i phone。使用app操控无人机的起飞、盘旋、跟随及航线直播。虽然不及大疆“御”mavic pro的小巧便携,但是能够进行全景拍摄的功能还是使“exo360”脱颖而出。特别是它的售价低得惊人,毕竟还是处于认筹阶段,标准版只要1000美元。虽然一些无人机爱好者对于“exo360”并不看好,认为360°全景相机仅仅是噱头而已,无人机的主要性能以及功能如续航能力才是他们主要的关注点,而全景拍摄作为一种辅助拍摄的功能就可以了。不过笔者认为,三维的全景摄影不仅能带给我们全新的视角,或许也能改变无人机的定位和控制系统,毕竟无人机所处的环境还是三维的,能够出现和360°全景相机相配合的控制算法也是主要难点。此外,360°全景相机的图像处理速度也是值得考虑的一点,若是速度太慢则会加大无人机控制的难度,也会减少无人机单次完成的任务量。但是这两种新兴技术的结合还是值得肯定的,希望接下来的几年会有更加成熟的产品出现。 柯达pix pro sp360 4k相机小巧灵便,还能装在无人机上 360fly 4k全景相机 由摄像头厂商360fly制作,防尘防水;常用于极限运动的摄影和摄像 借助360fly 4k全景相机拍摄的中国台湾地区一瞥——环岛脚踏车之旅 写在最后 三维360°无死角的场景加上声光,才是我们生活的世界,360°全景相机正好能够将我们的世界还原于电子世界中。在这个信息量爆炸的时代,人们对于信息日益增长的需求也体现在摄影上。对于摄影,除了追求高像素以达到真实感外,人们还渴望能够十分方便地获得稍纵即逝的场景,再加上日渐成熟的社交网络,摄影作品的分享也成为摄影的主题之一。在这样的背景下,手机端的摄影就成为主流。目前相机已发展为专业、卡片、手机端3个方向。有着专业印记的单反相机还在坚守摄影爱好者这一阵地,即使许多人都已经放下手中的单反,拿起手机拍照了;而卡片机的市场也遭到了强大功能的手机端相机的阻击和蚕食。手机端相机以及拓展相机设备已经成为如今相机市场的主流,配备了千万级像素的智能手机随处可见,而操作方便、功能奇特的手机摄影app也使得用户群体不断增加。在这样的市场中,360°全景相机算是开了个好头。它精准定位为手机端摄影拓展设备,即将依托广大的手机用户群体,开发广大的市场。此外,火热的虚拟现实技术在各个方面的应用中的各种助力,也使得全景相机在拥有广阔应用空间的同时也拥有了坚实的技术基础。 回想2000年,夏普发布的j-sh04手机首次加入了拍照功能,也许没人想到手机的拍照功能在数年后会断了数码相机的后路。夏普开启了手机拍摄功能的先河,j-sh04手机内置11万像素d摄像头,这款手机采用的是日系手机细长条状直板机身设计,拥有96像素x130像素液晶屏,支持16和弦铃声。这样的配置在当时已经属于旗舰级产品了,简直无法和现在的智能手机相比。如今的手机相机不仅像素高,还有许多的手机app辅助摄影。但是360°全景摄影还是一块未被触及的高地, 360°全景摄影的出现与其说是填补了这个空缺,不如说是开创了另一片市场。对于360°全景相机的未来,市场前景好是一方面,而具体的应用方向则决定了此项新兴技术是昙花一现还是“再活五百年”。希望不要像2012年横空出世的“光场摄影术”,由于不清晰的定位,再加上居高不下的硬件造价以及停滞不前的软件开发,导致如今已不见了踪影。相比之下, 360°全景相机算是生在了好时代,虽然现在360°全景相机时常被人诟病其有效像素过低以及鱼眼镜头带来的畸变问题,这些都与“光场摄影术”走过的路十分相似,不过,这些问题都能被硬件和软件端的开发所改善甚至消除。360°全景相机才刚刚开始它的征途,未来的发展趋势应该是小型(甚至微型)化、操作更加傻瓜化、配套app体验最优化以及摆设效果最优化。技术能继续革新下去,如果再加上虚拟现实的爆发,360°全景相机应该能在相机市场占有一席之地。 总的来说,360°全景相机的意义是斐然的,它不仅改变了相片的形式,还改变了人们分享故事和记录事件的方式,它把我们的世界与手机、网络以及虚拟现实联系在了一起。笔者也购买了一台360°全景相机,也拍下了很多珍贵的场面。个人感觉如果要笔者在高像素和更好的全景模式中选择的话,笔者还是会选择后者,毕竟全景模式的摄影角度是完全不一样的,而高像素在这样的应用中也只是锦上添花。看不清人或者景色?靠近一点或者找个好一点的光线角度。当然,这对于摄影师的技术也是一种锻炼,对观看者除了视觉上的冲击,也在潜移默化中影响着视角的变化。一项研究表明,一旦人们经常观看球形影像,他们的视角将会很快发生变化。humaneyes公司就在开发一款价值800美元的能够制作3d球状影像的相机。但是在与影像形成互动之前,观众先需要观看10小时的360°影像。不过,当你观看360°影像产生了身临其境的感觉时,你就上瘾了!也许以后我们的世界以及我们的相片都将是三维360°无死角的。 专家点评 田丰 阿里云研究中心主任,专注于云计算、物联网/工业互联网、大数据、vr/ar科技战略的研究。工信部人才交流中心工业和信息化特邀专家,中国互联网协会核心专家。 胶卷相机取代暗箱摄影用了100年,数码相机取代胶卷相机用了20年,摄像手机取代数码相机仅用了短短7年,现在全景摄影取代图片摄影的步伐会更快。全景拍摄设备正在从早期的专用全景相机演进为手机、无人机、可穿戴设备(眼镜、头盔等)、互联网汽车、智能自行车、机器人……这一革新速度取决于“摩尔定律”对元器件成本下降、性能提升的加速影响。 从虚拟现实和增强现实的供需两侧来看,全景相机属于新内容供给侧,从影视团队使用昂贵的专业级全景相机/摄像机拍摄虚拟现实影片,到老百姓使用消费级全景相机/摄像机随手拍摄生活、旅游场景,是从“pgc”(专业生产内容,professionally-generated content)到“ugc”(用户产生内容, user-generated content)的必经之路。少数的“精品全景ip内容”满足大部分人的高品质内容消费的需求,而海量的“入门级全景个人内容”满足大部分人分享生活内容的需求,市场价值长期并存。目前球形消费级全景相机的价格在300美元以下,比如阿里云上的创业公司insta360公司推出的insta360 nano 3k全景相机的售价为1498元,相当于一部低端智能手机的价格,这推动了全景相机领域you tube平台的诞生。越来越丰富的全景视频、全景照片正涌入facebook、twitter、优酷vr、大疆、insta360、微信、微博等社交新媒体内容平台。 而从全景内容需求侧来看,谷歌纸板vr眼镜“cardboard”自2014年发布,两年内已经出货1000万套,谷歌虚拟现实app下载次数突破1.6亿次。由于纸板vr眼镜容易生产、售价便宜(中国电商 纵然前景广阔,但目前全景拍摄还存在着技术瓶颈与提升空间,全景电影高昂的拍摄成本阻碍了产业的快速发展,比如facebook公司oculus团队制作的vr电影《lost》时长不到10分钟,却花费了1000万美元;国内的拍摄成本也在每分钟15万元左右。全景vr视频制作包含大量的拼接、渲染等计算密集型任务,目前影视制作分发多采用vr视频云支撑,优酷vr、htc vr商店等诸多vr创业公司都运行在阿里云上。消费级全景相机的市场也面临着清晰度不高、vr直播网络带宽瓶颈、大众拍摄经验较少等客观挑战。随着全景拍摄与vr眼镜跃过技术门槛,以及该产业云网端基础设施的全面普及,将会迎来一个真正的“全景商业时代”。网站的售价为10~15元),众多vr厂商纷纷在促销时附送此类产品,引发入门级vr产品销售的“雪球效应”,为全球大众消费全景内容提供了海量用户群体。另外,全景内容不仅适用于vr眼镜,还适用于几乎所有的智能手机上的vrapp,以及pc端的vr增强版浏览器,比如谷歌you tube、chrome桌面版浏览器、android应用、daydream view头盔都支持360°全景视频;阿里巴巴在2016年的“双11”购物节中,让消费者能够在淘宝app中体验“buy+”虚拟现实购物环境,1∶1复原美国梅西百货、costco百货、target百货、日本松本清药妆店、tokyo otaku mode周边产品专卖店,以及澳大利亚chemist warehouse药房和freedom food生态农场的实景,实现了vr选货、购物、支付、物流“vr一站通”。 gene therapy 2.0 基因疗法2.0 撰文:倪楠 突破技术 美国即将批准首个基因治疗技术,更多的基因疗法正处于开发与批准的进程中。 重要意义 很多疾病都是由单个基因突变导致的,新型的基因疗法能够彻底治愈这些疾病。 技术成熟期 现在 主要研究者 -spark therapeutics -bio marin -blue bird bio -uni qure -gen sight biologics 基因治疗是人类医疗史上伟大的革命,因为它向最困难、最致命而且还有可能贻害后代的一大类疾病发起了有效的冲击。虽然真正进入市场发挥治疗作用的基因疗法仍然屈指可数,但是已经获得了初步的成功。 “修复控制系统” 我们的身体包含10万亿~100万亿个细胞,比银河系中的恒星和行星的总数还多。每个细胞都像一个工厂车间,在这些车间中,有负责控制的中央操控系统,有负责运输的传送系统,还有负责生产的流水线。每个工厂车间不仅要生产供自己生存的产品,保持结构和功能的稳定,还要配合其他车间,通过合作让整个人体正常运转。比如,肝脏中的细胞车间需要生产能够分解有毒物质的产品,大脑中的细胞车间需要发电互相通信,而头皮上的车间则负责生产、聚集头发。 在每个细胞车间中,最为关键的部门是中央操控系统。因为这个部门相当重要,所以处于一个专门辟出的“单间”里。在那里,“控制台”可以根据设定好的程序发出各种指令,通过传送系统运输到控制室外面,让流水线在合适的时间生产正确的产品。如果整个过程中的任何一步出了问题,我们就有可能生病。 如果用生物术语来说的话,控制室就是细胞核,而控制台发出指令所依据的程序就是我们的遗 基因疗法时间线 20世纪60年代 当科学家发现一些酶可以在试管里切割连接的dna序列以后,就开始考虑基因疗法的可能性。 20世纪70年代 科学家开始在实验中用病毒向动物体内导入新基因。 1990年 1992年,一个4岁的小患者(图中右下角)在接受基因治疗后战胜了scid(重症联合免疫缺陷)——一种让人无法抵御感染的遗传性疾病。不过一些接受了不同基因疗法的患者后来得了白血病。 1999年 18岁的jesse gelsinger成了基因治疗临床试验的第一个牺牲者。 传物质,也就是dna。可以想象,如果控制室外的东西出了问题,会比较容易修复。因为核心的控制程序仍然是正确的,所以故障很可能只是临时性的,只要控制台再发一次正确的指令就好了。然而,如果控制程序,也就是我们的dna出现了错误,就会有很大的麻烦,因为中央控制系统会持续不断地发出错误的指令。更糟糕的是,错误的控制程序不仅会让人生病,还会被遗传给下一代。这也是几乎所有遗传病都无法被根治的原因,现有的药物只能减轻症状而已。即使这样,病情也会逐渐加重并最终积累到致命的程度。 基因疗法的目的,是希望可以修复错误的中央控制程序,也就是突变以后的dna。不过,要完成这一目标难度很大。首先,因为dna很重要,所以细胞对它施加了重重保护,让任何试图改变它的药物难以接近。而且对dna的改变如果出了差错,会造成严重的后果,如细胞死亡或癌变。 最终,科学家还是找到了方法。在自然界中,有一种天然的dna载体,就是病毒。病毒的结构极其简单,所以单靠它自己不能完成任何生命活动。它们所做的,只是把自己携带的遗传物质注入细胞里,变成细胞自身遗传物质的一部分,然后让细胞帮助自己完成合成和装配的工作。所以,病毒的遗传物质就好像黑客程序,可以通过非正常手段进入戒备森严的控制室,并进入核心控制系统,让控制台发出新的指令,命令细胞车间开始为复制新病毒服务。 2007—2008年 莱伯氏先天性黑矇症(leber''s congenital amaurosis,一种遗传性视网膜疾病)患者在接受了基因治疗后视力得到改善。不过数年后,研究人员在《新英格兰医学》上发表文章指出,有些病人的视力又出现了退化。 2012年 欧洲药品管理局批准了首个治疗遗传疾病的基因疗法:glybera。这一疗法用来治疗脂蛋白脂酶缺乏症,该疾病可以导致脂肪在血液中积累。 2016年5月 英国监管机构批准了strimvelis,这是第二个在欧洲获批的基因疗法,可以治疗scid。 2017年或2018年 美国可能将首次批准治疗遗传疾病的基因疗法。 虽然病毒经常让人生病,不过如果把病毒自己的基因换成能治疗遗传疾病的正常基因,就像是把黑客变成了偷偷潜入系统并修复错误的正义黑客。目前,绝大多数处于临床试验阶段的基因疗法都以病毒为载体。首先,科学家会选择那些天生温和的病毒;随后,他们还会对病毒进行基因改造,去掉那些不必要的基因,只保留疗效基因和供病毒把疗效基因插入人体基因组的dna序列。 然而,虽然这些原理说起来很简单,但是基因疗法在过去几十年里走过的道路却无比曲折。 曲折与失败 早在1972年,基因治疗的概念就被提出了。两位美国科学家teodore friedmann和richard roblin在《科学》杂志上撰文表示,基因疗法将会成为有用的医疗技术[1]。那时,人类才刚刚能够修饰哺乳动物细胞的基因,但对整个细胞的生物过程以及很多疾病的分子机理还不清楚,所以friedmann和roblin反对立刻进行人类基因疗法的临床试验。 他们的观点没有错。此后,科学家仍然在基础科学领域丰富知识。他们一方面需要鉴定出具体的基因突变与某个疾病的因果关系,另一方面也要改进修饰基因的技术,让其变得更稳定,提高其可预测性。 直到1990年,第一个临床试验才被批准展开。此后的9年里,也有一些零星的研究陆续展开。1993年,一个婴儿在出生前就被诊断出患有免疫疾病,他的免疫系统不能工作,出生以后很快就会死亡。他的父母已经因为同样的原因失去了一个孩子,所以希望尝试一些新的疗法来冒险挽救他。加州大学洛杉矶分校的donald kohn教授决定采用基因治疗的方法。当孩子出生以后,他和同事立刻抽取了胎盘和脐带中的干细胞,并将其与携带正常基因的逆转录病毒混合。在逆转录病毒把正常基因转入干细胞以后,donald kohn把干细胞注射回婴儿的体内[2]。在随后的4年时间里,病人虽然仍然需要接受药物注射,但是他的体内已能合成本来不能合成的酶。虽然4年后病人体内的酶消失了,但这仍然说明基因治疗在某一个时间段内产生了效果。 到了2000年,全世界大约有4000名患者参与了500多个基因治疗的临床试验。 然而,就在基因治疗初露曙光之际,几次巨大的挫折却让基因研究的前景蒙上了阴影,其中就包括了《麻省理工科技评论》的文章中提到的jesse gelsinger事件。 jesse gelsinger是一名出生在美国亚利桑那州的少年。他天生就缺少一种正常的消化酶。这种消化酶可以代谢蛋白质的消化产物“氨”。随着有毒的氨在体内慢慢积累,病人很快会有死亡风险。虽然这种疾病在出生时就能致人死亡,但gelsinger体内有一部分细胞是正常的,这让他可以通过低蛋白饮食和定期吃药来控制病情。 不过,为了尽力让他过上正常人的生活, gelsinger的父母还是决定让他参加一项由宾夕法尼亚大学的科学家主持的临床试验,尝试用基因治疗的方法来彻底治愈此疾病。在此之前,科学家已经在小鼠、猴子、狒狒和数个人类病人身上尝试过将腺病毒作为载体的治疗方法,他们只发现了类似感冒的轻微副作用,并且症状会自己消失——类似的治疗曾经导致参加实验的猴子因免疫反应而死亡,不过科研人员认为他们已经修改了作为载体的病毒,因此不会再出现这样的副作用了。 医生们把正常的消化酶装到腺病毒里,然后向gelsinger的肝脏里注射了10万亿个这样的病毒。然而,悲剧发生了。虽然有很多带着治疗基因的病毒载体确实进入了肝脏细胞,但也有一些感染了负责身体保卫工作的巨噬细胞。当外来的病原体入侵人体的时候,巨噬细胞可以召集各种各样的免疫细胞对外来者发起攻击。最终,这些误以为遭到了感染的巨噬细胞在gelsinger体内发起了一场暴风骤雨般的免疫反应,不分敌我的免疫系统最终摧毁了gelsinger的身体。在接受治疗的4天后,gelsinger因免疫反应导致的多器官衰竭而死亡。 jesse gelsinger事件在美国社会造成了巨大的反响,相关的医学技术和医学伦理争议不停地在媒体头条上出现。尤其是科研团队没有告知gelsinger的父母在动物试验过程中有猴子死亡一事,从而引发了潮水般的批评。事件发生以后,主持研究的宾夕法尼亚大学教授james m.wilson受到了fda(食品药物管理局)的调查,并被发现存在违规行为。而美国的基因治疗研究也一度陷入停滞[3,4]。 在欧洲,也出现了类似的情况。2000年,一些患有重症免疫缺陷(scid)的幼儿接受了基因治疗的临床试验。患有这种疾病的幼儿天生没有免疫能力,不能对抗哪怕是非常轻微的感染,所以只能终生生活在经过严格消毒的塑料室里,因此又叫“气泡宝宝”。患者不仅无法过上正常的生活,而且还会因为意外的感染在很小的时候就失去生命。 研究人员这次利用逆转录病毒作为基因载体,植入正常版本的基因,再把这些运载着治疗基因的病毒注射到病人体内。在病人体内,逆转录病毒会把正常的治疗基因插入人类自己的基因组里[4]。 基因治疗一开始取得了很大的成效。病人体内也产生了新的免疫功能。但是在几年后,情况却急转直下。在接受了免疫疗法的20个婴儿中,有5人得了白血病,其中1人因此死亡。2003年, fda暂时中止了所有利用逆转录病毒进行基因治疗的临床试验。 很久以后,科学家才查明了原因。逆转录病毒在把基因插入到人类基因组的过程中非常随意,它们有时会把基因插到原癌基因lmo2附近。原癌基因是指那些维持正常的生理功能,但是一旦突变就会致癌的基因。通过基因疗法插入的基因意外地激活了lmo2,再加上一些其他的基因突变,让白细胞不受控制地大量增殖,最终导致病人得白血病[5]。 技术更新 多次的挫折在表面上让基因治疗的临床应用产生了停顿,但却不完全是一件坏事。因为这让研究人员能够暂时从商业化的狂热中冷静下来,开始从头仔细地审视相关的基础科学研究,并试图从根本上改进基因治疗的方法。 在失败的临床试验中,病毒载体的失控成了一个重大的问题。一方面腺病毒可能会引发强烈的免疫反应,另一方面逆转录病毒又会激活失控的原癌基因。因此,科学家开始着手为治疗基因寻找更好的运载工具。 最终他们找到了一类温和的病毒:腺相关病毒。这类病毒有时候会感染人类和其他灵长类动物,但是不会引发疾病,因此免疫系统也不会产生剧烈的反应。而且,经过进一步的研究,科学家已经剔除了天然腺相关病毒中96%的基因组,进一步降低了感染致病的风险。此外,腺相关病毒不会把基因插入人类自己的基因组里,所以致癌的风险也不大。 腺相关病毒还有一个重要的特点:它有很多不同的亚种(术语叫“血清型”)。每种亚种的病毒,其表面的蛋白质都不相同。在进入人体后,这些蛋白质像钩子一样钩住人体细胞的表面,然后病毒就可以把自己携带的治疗基因注入细胞。因为钩子不同,所以病毒可以进入的细胞类型也不同。这就让医生可以为某种特定的疾病找到“专业”的腺相关病毒,不影响其他类型的人体细胞。而且,研究人员还可以通过dna改组技术(dna shufing)改变或设计新的腺相关病毒。 利用这个新发现的“武器”,基因治疗终于取得了重大的进展,第一次通过了临床试验阶段,进入了市场。 消除血液中的“奶油” 为什么人的血液是红色的?因为红光不会被红血球中的血红素吸收,而是会被反射出来。但是,如果得了某些疾病,改变了血液成分,血液就不再呈现红色,看上去会显得有些发白。脂蛋白脂酶缺乏症(lipoprotein lipase defciency)是一种罕见的疾病,大约每100万人中只有1人会得此病。病人的体内缺乏一种必需的酶来分解饭后在血液中循环流动的脂肪颗粒。用蒙特利尔大学教授丹尼尔 · 高德特(daniel gaudet)的话来说,得了这种病就相当于血液中有了10%的“奶油”。 这些额外的“奶油”会对健康造成非常严重的损害,不仅会导致急性胰腺炎的反复发作,还会产生腹部疼痛和其他慢性的健康问题。因为患者的遗传物质发生了改变,所以只能通过坚持吃极度低脂的饮食来缓解症状,且没有其他有效的治疗方法。一般来说,医生会建议病人每天摄入的脂肪不超过20克,这大概相当于100克肉食或500克全脂牛奶中的脂肪含量,病人受到的饮食限制可想而知。2012年11月2日,欧盟正式批准了荷兰生物技术公司uni qure 的基因疗法glybera。uni qure公司位于阿姆斯特丹,是阿姆斯特丹大学技术转化的产物。uni qure长期以来一直在努力地让基因疗法进入临床应用。glybera的上市绝非一帆风顺,因为之前的诸多事故,仅在一年之内欧盟人用药品委员会mittee for medicinal products for human use)就三度拒绝了glybera的申请,并对其安全性和有效性提出质疑,直到uni qure公司确实提交了足够多的证据以后才打开了绿灯。直到2012年7月20日, glybera疗法才获得了欧盟人用药品委员会的肯定,而欧盟此次的批准消除了这一疗法进入市场的最后障碍。 从1990年基因疗法首次进入临床试验到现在,已经20多年过去了。而西方国家在此之前还从来没有批准过任何一种基因疗法上市。 glybera可以提供正常版本的脂蛋白脂酶基因,这些基因在体内会合成没有缺陷的酶,分解血液中的脂肪颗粒,从根本上缓解病情。根据uni qure公司的说法,病人只要经过一次治疗,就能维持至少数年的疗效。 glybera利用腺相关病毒装载正常的基因。在接受治疗的时候,医生会把这些病毒载体分成几次注射到病人的大肌肉群里,比如腹部和腿部。不过腿部肌肉往往是第一选择,不仅是因为它面积较大,容易注射,还因为腿部活动量大,可以及时吸收能量。 然而,虽然glybera在技术上成功了,但是在商业上却失败了。在glybera刚上市的时候,病人需要花费160万美元才能接受治疗。脂蛋白脂酶缺乏症是一种极为罕见的疾病,发病率只有一百万分之一,所以glybera在欧盟的市场只有100多人。另外,脂蛋白脂酶缺乏症不是致死性疾病,虽然它会导致因高血脂引发的胰腺炎和糖尿病等并发症,但是患者可以通过严格控制饮食来延缓并发症的发生,这让接受这种昂贵的治疗的人群又减少了一些,而且很多时候保险公司也不愿意为非急性病支付太多的账单。即使国家福利制度愿意帮助病人承担部分费用,当治疗更常见疾病的基因疗法上市以后,如果价格还不下降,势必会成为整个社会沉重的负担,从而变得难以推广。最终, glybera只在欧洲治疗了一名病人,而且根本没有在美国上市。uni qure公司也把注意力转向了其他可能被基因疗法治愈的疾病,如血友病。 商业与政策的双重挑战 在glybera之后,大量的基因治疗方法如雨后春笋般出现。美国和欧洲也出现了很多生物技术初创企业专门研究基因治疗技术,比如美国的spark terapeutics和bluebird bio,以及欧洲的gen sight biologics。现在,有数千种基因疗法正在接受临床试验。2016年,欧盟批准了葛兰素史克的基因治疗方法strimvelis,这种疗法可以治疗先天性的免疫缺陷症,也是首个用于儿童治疗的基因疗法。在美国,比较有前景的基因疗法是spark terapeutics开发的spk-rpe65,用来治疗遗传性视网膜营养不良。患有这种疾病的人双眼感光功能会慢慢消失,并最终失明。 然而,虽然新的疗法频频出现,看起来十分热闹,但是基因疗法的价格却始终降不下来。预计spk-rpe65的价格是每只眼睛50万美元,两只眼睛加起来就有100万美元。尽管葛兰素史克一再强调不愿意给药物标上天价,而且“公司也不会依靠基因治疗来获取利润”,但最终strimvelis的价格仍然被定在了59.4万欧元,这也让它成为史上最贵的一次性药物之一。 为什么基因疗法的价格这么昂贵?一方面是因为高企的研发费用,另一方面则是因为很多基因疗法针对的是罕见疾病,因此市场总额有限。uni qure在研发glybera时,甚至很难找到足够多的接受临床试验的志愿者。当时欧盟表示,uni qure需要报告342名志愿者的试验结果,但是全欧洲的病患加起来也才200多人。glybera的总研发费用大约是1亿美元,这些费用要由200多人大小的市场分摊,每个人所需付出的代价可想而知。 葛兰素史克的strimvelis也面临类似的困境。该疗法针对免疫性疾病ada-scid。这种疾病的患者因为没有免疫系统,基本很难活过1岁,每年欧盟只有15名患者被确诊。 如何让新的基因治疗药物不像glybera那样成为商业灾难,成了制药公司和风险资本面对的一个重要问题。首先,制药公司和保险公司一起制定了“按效付费”的机制,即如果基因疗法没有产生疗效,治疗机构将全额退款。此外,基因治疗公司正在建立一个“结果导向体系”,在此体系下,制药公司可以证明一次性的昂贵价格其实比终身治疗给社会和病人带来的负担更小。制药公司会长期跟踪病人的预后,只要疗法仍然有效,接受治疗的病人就可以定期付费。 另外,还有研究人员建议制药公司可以通过美国的孤儿病法案(orphan drug act)规定的退税优惠用于降低药物价格。该法案规定,如果制药公司为病患小于20万名的疾病开发药物,可以获得一些税收方面的优惠政策。 不过,归根结底,降低基因治疗的药物成本还需要技术进展的支持。科学界需要找到更精确、更自动化的方法来寻找新的疗法,从而降低药物开发的成本,从源头上解决药物昂贵的问题。基因治疗的成本问题需要科学界、制药公司、保险公司、非营利组织和政策制定者共同解决,毕竟发明疗法的目的是治愈病人。也许就如葛兰素史克的发言人anna pad所说:“不久以后,工业界和资本界终会找到消化药物定价的新玩法。” 中国的基因疗法:起早赶晚 中国很早就开始在基因治疗领域开展临床试验,也成为第一个批准基因疗法的国家。除了对这个领域的重视以外,宽松且不够完善的临床试验监管系统也是中国起步早的原因之一。 1998年年初,在美国和日本留学多年的彭朝晖携带专利权中属于自己的基因技术回国,创办了生物技术公司赛百诺。赛百诺公司主要利用重组的腺病毒向癌症病人的体内输送抗癌病毒p53。当细胞出现可疑的癌变时, p53基因可以“卡住”细胞的分裂过程,还能启动程序让细胞自我毁灭,因此成为防止细胞癌变的“守护神”。然而,有时p53也会发生突变,失去功能,这样细胞就特别容易癌变。此外,如果p53发生突变,还有可能让癌细胞抵抗化疗和放疗。所以,传统的癌症疗法相当于起了一个人工选择的作用,把容易杀死的癌细胞杀光,却让不容易杀死的癌细胞越来越多,最终变得无药可治。 赛百诺的科学研究团队利用腺病毒,把正常版本的p53导入有缺陷的癌细胞里。根据后来的临床试验结果论文显示,实验结果不仅可以让癌细胞重新对放疗、化疗敏感,有时甚至还能直接终止癌细胞的分裂周期。 p53是被研究得最广泛的癌症相关基因,而腺病毒也是当时最常见的基因治疗载体。所以p53+腺病毒治癌症的想法不可能没人想到。事实上,已经有很多国家都做过相关的试验,但临床试验基本上以失败告终。比较著名的例子是美国的生物技术公司introgen发明的基因疗法advexin。尽管introgen公司号称成功地完成了三期临床试验,但负责审批药物上市的fda却不买账。反复拉锯之后,fda甚至拒绝审查introgen提交的申请。最终,introgen公司的股东认为他们被公司骗了,群起而攻之,公司则直接破产清算,成了生物技术泡沫的一个注脚。 在中国,监管就宽松多了。基因治疗药物“今又生”甚至没有经过三期临床试验就上市了。根据彭朝晖的解释,这么做符合当时的临床试验规范(gcp):1期临床试验检测安全性,2期试验检测有效性,1、2期试验通过后即可批准生产,3期临床试验是药品上市以后的过程。一般来说,前两期临床试验的参与者人数不多,而3期临床试验需要大量的治疗病例,所以尤为重要。对此,彭朝晖的解释是实际做的病例数比提交的病例数要多。最终,北京肿瘤医院张珊文和福建省肿瘤医院潘建基联合组织了3期临床试验,直到2009年才把结果发表在《临床肿瘤学杂志》(journal of clinical oncology)上[6]。好在“今又生”没有在后续的试验和临床治疗中引发安全事故,而且似乎在统计上也确实有疗效。 不过,赛百诺却在公司治理和资本合作上遭到了致命的打击。 在上市前,作为有可能成为世界上第一个上市的基因疗法的公司,赛百诺的实验室研究接受了国家提供的大量补助,资金超过5000万元。甚至连3期临床试验的资金也是由国家的973项目提供的。在开始走向市场之后,国家科研经费很难支持扩建产能、市场推广等企业方面的费用。而“今又生”在市场上的反响也不及预期,它的价格太贵,又不在医保体系中;医生对这种操作陌生的全新方法也有顾虑——根据著名科学记者贾鹤鹏的观点,这里还有医疗腐败和医患关系紧张等复杂因素的干扰。2007年,“今又生”的销售额只有576万美元。 就在这个时候,湖北同济奔达鄂北制药公司向彭朝晖表达了合作意向。这家公司并没有高端的技术,主要靠维生素和原料药发家,利润率比较低。需要核心技术的奔达和需要资本的赛百诺很快达成了合作。一开始,奔达计划出资5000万元购买赛百诺10%左右的股权,但是因为赛百诺的两家占40%的国资股东希望退出,所以就把股权转让给了奔达。最后奔达占了赛百诺60%的控股权。于是奔达的创始人万宜青、徐卫夫妇进入了赛百诺的董事会。 在资本市场较为发达的今天,很容易发现这种投资方式的问题:一个较为传统的企业以财务投资的形式入股前沿新兴技术行业,却占据了绝大多数股份,控制了公司的经营和发展。根据《中国企业家》的分析,此时的赛百诺已经为日后的纠纷埋下了病根。一方面,控股股东派遣一对夫妇占据了董事会三席中的两席,其中一人担任总裁;另一方面在董事会处于弱势地位的创始人则掌握了生产和研发的命脉,但同时却是公司的法人代表和董事长。 双方很快就发生了激烈的冲突。彭朝晖认为万宜青和徐卫不尊重技术员工,大量解雇他们认为成本过高的科研人员。而万宜青和徐卫则认为彭朝晖完全不懂企业管理,不尊重董事会的决议,甚至背着董事会自行寻找外部投资。2008年,“今又生”的销售额只有2007年的一半;2008年6月11日,国家食品药品监督管理总局正式吊销赛百诺的gmp证书,这意味着此后的“今又生”的生产是非法的,赛百诺的内斗开始进入白热化。徐卫认为这次事件是彭朝晖主动举报导致的[7]。在双方的矛盾彻底公开后,彭朝晖离开了赛百诺,但声称自己有“今又生”的知识产权。双方的法律纠纷持续了近10年,经历了深圳中院一审、广东省高院驳回上诉、最高检向最高法抗诉、广东省高院再审等多次审判和上诉。最终,广东省高级人民法院在2015年做出终审判决,裁定涉案的专利属于赛百诺公司。 除了法律纠纷造成的损耗外,赛百诺在很长一段时间里仍然没有展示出足够多的临床试验数据。公司曾尝试在印度申请上市,但也承认这一疗法根本不可能进入审批更加严格的欧洲和美国的市场。这让赛百诺的市场表现一直都不理想。而同一时期,美国出现了很多新的基因疗法技术公司,也开始针对很多不同的疾病展开临床试验。中国的基因治疗市场化“起了个大早,却赶了个晚集”。 中美环境差异 美国市场决定了生物技术初创公司可以专注于基因疗法的研发,甚至只研究一种产品。它们可以从多个渠道获得研发资金,即使没有盈利也可以上市公开募资。 到2016年年底,至少有12家专注于基因治疗的公司在美国上市。除了前文提到的uni qure、spark terapeutics和bluebird bio,还有用基因疗法治疗罕见肝脏疾病(如jesse gelsinger得的鸟氨酸氨甲酰基转移酶缺陷症)的dimension terapeutics、治疗脊髓性肌肉萎缩症等罕见神经系统遗传疾病的avexis,以及治疗家族性高胆固醇血症等遗传代谢疾病的regenxbio。 2016年2月,由基因编辑技术crispr的发明者jennifer doudna和张锋创办,比尔·盖茨、google ventures等投资的editas medicine在纳斯达克上市。editas medicine明确地向投资者表示,公司目前只是拥有基因编辑技术的专利授权,离商业化的产品还有相当一段距离。但这并不妨碍投资人的热情,截至2017年3月15日,editas medicine的市值达到了9.03亿美元。 目前,纳斯达克有至少6家基因治疗企业的市值超过3亿美元,如bluebird公司的市值为40.06亿美元、spark terapeutics公司的市值为18.5亿美元、regenxbio公司的市值为5.38亿美元。但这些公司的利润全部为负,因为它们的产品全部处于临床试验阶段,还没有进入市场。 因为中国的资本市场对营收的要求更高,而且中国在技术向临床转化的过程中存在监管和法律上的不确定因素,所以在美国基因治疗初创公司百花齐放的情形在中国很难出现。很多对基因治疗感兴趣的初创公司只能通过各种相关的其他业务增加收入。2014年,由清华大学孵化成立的云生基因正在试验用基因编辑技术治疗癌症和白血病,但公司同时也需要开发和销售生物试剂以及向科研机构提供合成生物学方面的商业服务。 和美国的fda不同,目前中国的监管部门尚未形成一个专业评估基因疗法的团队。而这样的团队本身也需要接受锻炼,在审批了一定数量的基因疗法申请后才有可能出现。此外,中国需要更多可以接受更长回报周期的资本。 在美国,很多基因疗法的临床试验和审批由患者的强烈需求推动,基因治疗的市场规模已经形成共识,相关的技术也已经成熟到了一个临近爆发的临界点。中国和美国相比,除了技术之外,欠缺成熟规范且有经验的法律和市场监管,也缺少对生物医学和基因治疗有深入理解的风险资本。如果中国出现几个上市的基因疗法,让监管和资本有了可以直接参考的案例,可能会像美国那样迎来一波市场的爆发。 专家点评 谢震 清华大学信息科学与技术国家实验室研究员,“青年千人计划”获得者,博士生导师。 2004年,我国批准了世界上首个基因治疗药物重组p53腺病毒注射液(今又生),用于治疗头颈部鳞癌和其他恶性肿瘤;2012年,欧盟委员会批准了西方世界首个基因治疗药物glybera,用于治疗罕见遗传病脂蛋白脂肪酶缺乏症(lpld);2016年,欧盟委员会又批准了用于治疗重度联合免疫缺陷病(ada-scid)的基因治疗药物strimvelis;2017年,美国生物技术公司spark terapeutics研发的用于治疗由pre65基因突变引起的遗传性视网膜疾病(ird)基因治疗药物voretigene neparvovec有望获得fda批准在美国上市。基因治疗2.0时代即将来临!基因治疗的想法自20世纪60年代提出以来,经历过20世纪90年代末的阵痛,终于迎来了真正的春天! 基因治疗2.0与之前的技术相比,主要在于采用了20世纪更加安全的递送机制。目前的基因治疗药物,比如voretigene neparvovec以及bio marin pharmaceutical公司研发的用于治疗a型血友病的bmn270,采用的是腺相关病毒(aav)运载相关治疗基因。该病毒与其他病毒载体相比,安全性好,免疫原性低,基本不引起机体的免疫排斥和炎症反应,插入基因组和潜在的致瘤性的风险小,并且具有较强的靶向性。除此之外,具有低免疫原性且能够将携带的基因药物插入到宿主基因组中稳定表达的慢病毒(lentivirus)载体是另一种安全的递送载体,比如bulu bird bio公司研发的lenti globin bb305基因治疗药物就是利用改良后的慢病毒将正常的β球蛋白基因送入人体,来治疗由β球蛋白基因缺陷导致的重度β地中海型贫血病。 除了更加安全的递送机制,基因治疗2.0时代还具有另一个技术优势——精确地对基因组进行编辑。基因组编辑可以定点修复遗传突变,从根本上阻止遗传疾病的产生,也可以对靶向位置进行基因序列的插入/删除,扩展了传统的“缺什么补什么”的基因治疗策略。基因组编辑技术曾在2014年当选《麻省理工科技评论》10大突破性技术。最近,研究人员开发出了迄今最小的crispr-cas9系统,并通过腺相关病毒运载到小鼠的眼部进行基因编辑,用以修饰引起失明的一个基因。另外,基因组编辑技术已经开始用来改造免疫细胞,治疗自身免疫系统疾病以及癌症的临床试验也在陆续进行。可以预见,在不久的将来,基因治疗会成为多种罕见遗传病和癌症的有效治疗手段。 专家点评 茅矛 华大基因股份有限公司首席科学官。 基因作为控制生物性状的基本遗传单位,控制着生物的出生、疾病、衰老以及死亡等过程;当基因出现异常或遭到破坏,就会导致疾病的发生。基因治疗就是通过治疗“坏掉”的基因,让它们表达出正常的功能蛋白,实现减缓或从根源上治愈疾病。然而这种看似简单的治疗理念,实践起来却不那么容易,接踵而至的悲剧让基因治疗进入了寒冬。经历数十年的迂回与曲折,基因治疗技术的一些关键性难题得以突破,基因疗法升级至2.0版,治疗遗传性疾病已不再是一种奢望。 2012年,荷兰uni qure公司研发的基因药物glybera由欧盟审批上市,开启了基因疗法2.0新时代;2016年,葛兰素史克公司的基因治疗药物strimlevis在欧洲被批准上市,成为基因疗法走向临床市场的又一个里程碑。spark terapeutics公司开发的针对渐进式失明的基因治疗方法或将成为美国首个批准的基因治疗技术。近期,法国研究者在《新英格兰医学杂志》上发表文章称,其使用基因疗法成功治愈了一名患有镰状细胞贫血症的患儿。另外一些临床试验和动物模型试验显示在治疗帕金森症、阿尔茨海默症和癌症上效果显著。这意味着基因疗法的研究和应用领域从罕见病向常见遗传病及复杂疾病拓展。 尽管目前全世界只有为数不多的基因疗法获得了批准,但从2016年基因治疗技术所取得的几项不容忽视的重大进展以及少数治疗领域初步实现商业化来看,基因治疗在慢慢地引领着一场革命性的全球医疗变革。这种变化主要体现在从“对症”治疗向对“基因”治疗的模式转变,经验性和传统治疗模式在未来或许被逐步打破,取而代之的是精准的预防和诊断,最终实现精准的个性化治疗。华大基因其实一直在为“对因”治疗提供诊断依据,通过规模化测序与云计算分析,不断积累健康大数据,提高对疾病风险的预测和病因分析的准确性。未来,基因疗法不再局限于罕见病、遗传病,甚至有望革新癌症的治疗。 在精准医学时代,基因测序技术的进步和大数据分析工具的出现为基因治疗提供了一条捷径。但不可否认的是,基因疗法在技术研发和产业化的过程中仍面临技术门槛高、治疗费用昂贵、伦理局限等诸多问题,用一句简单的话概括:希望与困难同在,机遇与挑战并存。 专家点评 田埂 元码基因联合创始人,曾任清华大学基因组与合成生物学中心主管,华大基因华北区第一负责人,天津华大创始人、总经理,深圳华大基因研究院研发副主管。 早期基因疗法失败的原因部分是源于其递送机制,因为新的遗传物质(改造基因)以及将其携带至细胞的载体病毒,被错误地递送到基因组的其他位置,这会激活患者体内的某些致癌基因,或者引起患者免疫系统的过度反应,从而导致多器官功能衰竭以及脑死亡。 人类大量的疾病都是由于dna发生突变引起的,科学家数十年来一直在研究通过基因治疗来改善人类的健康。然而在开始时,基因疗法带来的失望远大于希望。1999年,一名18岁的肝病患者杰西·基辛格(jesse gelsinger)在一项激进的基因治疗实验中死亡,使得整个基因疗法领域的发展停滞不前。 对于改造生物的遗传性状,人类其实已经有千年的历史。通过选择性培育,我们强化了动植物中有用的特性,比如我们培养出了好看的金鱼、产量更高的小麦等。虽然我们很擅长做这类事情,但实际上还没有明白这是怎么回事。直到后来发现这一切都是基于dna分子,它包含了生物所有的遗传信息,是生物的一张说明书。 基因治疗2.0时代基于新的基因编辑技术,极大程度地改善了这些问题,基因治疗也将迎来曙光。两种遗传性疾病的基因疗法:治疗scid病的strimvelis,以及治疗lipoprotein lipase defciency病的glybera,已在欧洲获得相关管理部门的批准。 不可否认,在技术层面上基因治疗2.0仍存在脱靶,同源重组条件要求苛刻,去除简易而修改困难,难以控制修饰后蛋白表达量等诸多问题。但这次飞跃已经可以通过引发其他技术的变革来实现更重要的应用。比如car-t治疗2.0利用基因编辑技术,可以通过改变回输细胞的免疫排斥性,大大降低其应用范围和成本,有着非常深远的影响。 永久地改变一个病人的dna序列,从而彻底消除该疾病。随着技术的发展,相信基因治疗这把“上帝的手术剪”最终会真正地在人类未来的健康领域发挥极其重要的作用。 专家点评 孙隽 北京金准基因科技有限公司副总裁。 dna承载着生命的密码,使得物种得以延续。如果说dna的发现让人类能够读懂“上帝的密码本”,那么基因治疗是人类开始根据这个神奇的密码本将错误的编码修正。从广义上来讲,所有在dna水平所采取的治疗手段都可以称为基因治疗,可以是体内对个人的基因进行纠正、置换、增补、失活,也可以是体外引入外源的具有正常基因的细胞,甚至可以重编码患者的免疫细胞,使得其具备针对性的防御功能。目前,基因治疗技术已在治疗肿瘤、罕见病等领域取得了可喜的进展,虽然目前还没有广泛应用于临床,但各界人士都开始相信并期待基因治疗技术可以从根源上去修正一些遗传缺陷,甚至可以赋予生命一些新的能力。基因治疗技术能够登上2017年《麻省理工科技评论》10大突破性技术榜单也恰恰证实了这一点。 但是挑战依然存在。基因治疗技术涉及多层次多领域,我们看到目前在疗效的考场上交上的最好成绩单的几类疾病都是单基因病,原因是单基因病的遗传缺陷明确而单一;而对于那些多基因调控的复杂疾病的认知还不足,即便有了很好的对基因进行操作的技术,却无用武之地。dna的变异是无意识的,绝大部分变异并不与疾病相关,在上游从海量的突变中找到真正与疾病和表型相关的部分也是至关重要的一环。而下游基因治疗技术本身也存在着很多关键的技术难题,有待突破。外围的资本和监管也与基因治疗的推进和发展密切相关,美国spark公司在2017年有一项针对罕见病的基因治疗技术有望获得fda批准,而在我国红红火火的精准医疗市场上,大部分企业都在上游。基因治疗技术的开发和获益的周期长,风险大,资本市场的观望和目前监管的不健全都在一定程度上限制了技术的发展和应用。 我们看到基因治疗已经向世界展现了可行性,市场和患者的需求也十分强烈,基因治疗技术一定会给人类打开一扇全新的大门。这是一个了不起的时代,我们从未如此接近生命的密码。相信随着身处其中的各界人士的共同努力,中国的相关研究和应用也会稳步前进。 hot solar cells 太阳能热光伏电池 太阳能热光伏设备组件——用于将太阳模拟器的光线进行聚焦的设备 撰文:杨立中 突破技术 一种可以让太阳能电池效率翻倍的技术。 重要意义 这项新设计可能会催生出在日落后依然可以工作的廉价的太阳能发电技术。 技术成熟期 10~15年 主要研究者 -大卫·毕尔曼(david bierman)、马林·索尔贾希克(marin soljacic)、艾芙琳·王(evelyn wang),麻省理工学院 -弗拉基米尔·沙拉耶夫(dimir shev),普渡大学 新的太阳能装置通过将热量转换为聚焦的光束,可以产生便宜且持续的电力供应。 太阳能光伏电池已经发展了许多年,近些年的发展形势更是突飞猛进。在发展形势最好的德国,太阳能发电已经可以超过总发电量的50%[1],而现在全球发展速度最快、装机容量最高的中国市场,太阳能实际发电量也已经超过了1%[2]。然而,在繁荣的背后,光伏组件的效率越来越接近其无法被突破的理论极限,不稳定的光伏发电也给电网带来了严重的问题,“弃光”(明明可以发电,却因电网无法承受而不得不放弃)现象频频发生。太阳能能否成为未来人类能源供应的主要形式,进而为人类争取一个清洁、永续的发展未来,成了未知数。不过,来自麻省理工学院的一个研究小组为这些难题给出了一个了不起的解决方案。 与常规太阳能光伏电池直接把光转化为电不同,麻省理工学院副教授艾芙琳 · 王(evelyn wang)领导的这个团队设计了一种创新性的装置,可以先把太阳光转化为热量,再把热量变回特定波长的光,而这种特定波长的光的波长几乎可以全部被光伏电池利用。这项名为“太阳能热光伏电池”的技术第一次超过了常规光伏电池的效率,为太阳能发电效率突破光伏电池理论极限甚至翻倍提供了可能。更难能可贵的是,由于利用太阳光之前先把光能转换为了热量,而热量是可以被储存的,使得太阳能热光伏电池在阴雨天与夜间也可以发电。因而,这一技术的突破有望实现高效、稳定、持续、廉价的太阳能电力供应。 位于吸收-辐射器顶端的黑色的碳纳米管,用于收集所有的太阳光谱能量并将其转换为热能 光伏电池的故事 为了理解这项突破性技术的重大意义,让我们回到一百多年前,从头说起。 人类很早就发现,光与电有着某种神奇的联系。当光照射到固体表面时,有时会在固体的表面打出电子,这便是传说中的“光电效应”。为了弄清楚光到底对固体做了什么,物理学家们进行了深入的研究。而这些以光电效应为切入点的研究,最终把人类的物理学发展水平带上了一个全新的高度。 19世纪末与20世纪初,科学家们围绕光电效应进行了一系列的实验。1902年,德国物理学家菲利普·莱纳德在真空管中打入光,对光在材料表面打出的电子能量进行了准确的测量。他惊奇地发现,这些所谓的“光电子”的能量竟与入射光的强度毫无关系,而是与光的波长有关:只有波长小于一定限制的光才能激发出电子!这一结果无法用光是波的传统认知来解释,从而直接颠覆了从牛顿以来人们对于光的理解,成为了经典物理学无法解释的问题之一[3]。 对上述问题给出完美答案的是当时在瑞士伯尔尼专利局工作的一个小职员。这位生活拮据、蓬头垢面的年轻犹太父亲在一篇论文中指出,光不是能量连续的波,而是具有粒子性质的光子。或者说,光的本质是一个一个的“能量包”,能量包的大小与光强无关,而与波长有关,波长越小的光能量越大。这是最早的关于量子力学的论文之一,在光是波的概念盛行的年代,量子理论的提出犹如一声惊雷,开启了人类认知自然的全新时代。而这位名叫爱因斯坦的年轻的专利审查员也因为他对光电效应的贡献而获得了诺贝尔奖,尽管他更为人们熟知的是其提出的另一套理论:相对论。 为他对理论物理的贡献,特别是对光电效应原理的发现 爱因斯坦等科学家对光电效应本质的认识,为真正利用光电效应进行发电奠定了理论基础。几十年后的1958年,太阳能光伏电池第一次被安装在“先锋1号”卫星上[4,5],借助这种直接把光转化为电力的能源设备,“先锋1号”卫星首次发现地球原来不是人们以为的标准球形,而是类似于洋梨的形状。后来,太阳能光伏电池被广泛应用于航天领域,为无数卫星和空间站插上了蓝色的能源“翅膀”,在人类的通信、定位、测量、气象等领域立下了汗马功劳。然而,这种昂贵、低效、笨重的发电方式一直没有被用于大规模的居民与工业电力供应。 1973年的石油危机让石油巨头们对太阳能这种不依赖化石能源的电力供应技术产生了兴趣。随着油价的节节攀升,太阳能光伏电池的发展逐渐形成气候。在众多研究人员与公司的努力下,短短二三十年,太阳能光伏电池的效率节节攀升,发电成本从每瓦特近100美元迅速下降至每瓦特不足0.5美元,而装机容量也在不断增加:1995年,全世界太阳能光伏电池的总装机容量约为200兆瓦,大约相当于一座小型燃煤火力发电厂的发电量;而20年后的2015年,这个数字突破了200000兆瓦,足足增长了1000倍![2,6]人们开始期待,以光伏和风电为代表的可再生能源可以在今后的数十年甚至数年内取代传统化石燃料,为人类提供源源不断的清洁电力,从而摆脱全球气候变暖、环境污染等对人类生存构成严重威胁的重大问题。 然而,这一理想却面临着来自理论的挑战。 繁荣的背后,光伏发电有两大问题亟待解决 1.常规光伏电池的理论极限效率很低,而且现有的光伏电池已经越来越接近理论极限。在最理想的情况下,最常见的晶硅太阳能电池只能利用太阳光谱中的一部分光,在诸多其他限制的共同作用下,其理论效率极限仅为32%[7]。上限如此低,现在的商用常规光伏组件效率却已经超过20%,甚至更高。这意味着光伏发电效率的提升空间已经十分有限。 2.多国的太阳能发电量占全部发电量的比例接近,甚至超过上限。与石油、煤炭等其他能源载体不同,在现有技术水平下,电力几乎无法被大规模储存。因此,电力的生产必须实时与其消费同步,即居民和工厂在某一个瞬间需要多少电力,发电厂就必须生产多少电力。完全相同的精确匹配自然是不可能的,但是差距必须非常小。而太阳能的生产不仅无法满足精确调控的需求,而且天气变化、昼夜更替甚至一朵白云的飘过都会对其发电量造成严重的影响。这意味着,可以接入电网的太阳能比例非常低。中国的电力结构决定了并网的风电、光伏不能超过10%[8],而部分地区的装机容量早已突破了这个限制,造成大规模的“弃风”“弃光”。 如果不能解决这两个问题,太阳能光伏发电在能源消费中所占的比例将永远只是很小的一部分,人类所设想的清洁未来也将难以实现。 无法突破的极限 太阳能光伏电池为什么存在无法突破的效率极限? 这就要从光伏发电的原理——光电效应说起。 我们都知道,固体是由原子组成的。而原子是由中心的原子核和核外的电子组成的。电子并不是待在原子核的表面一动不动,而是在一些特定的“电子轨道”上不停地运动。这种轨道可以这样理解:就像地球、金星、木星等行星在各自相互独立的轨道上围绕着太阳旋转一样,电子也在互相分立的轨道上“运动”。与行星轨道不同的是,电子轨道上可以没有电子运动,也可以允许多个电子共存,但是每条轨道上的电子总数是有上限的。 一般情况下,电子会先填充能量比较低的轨道,比如太阳有一个水星,水星就会占据最靠近太阳、能量也最低的轨道。低能量等级的轨道占满后,如果要进入到能量比较高的轨道,电子就必须达到足够高的“能量门槛”。只有获得了足以跨越两个轨道之间能量差的能量,电子才能跃迁到能量比较高的轨道。 孤立原子的电子只能在各自的轨道上运动。但当这些原子连在一起组成固体的时候,情况就会发生变化。由于组成固体时原子相互之间靠得很近,本来属于不同原子的电子轨道就会发生重叠,进而产生融合,为多个原子所共有。而本来只属于一个原子的电子也就因此可以跑到别的原子外边“旅游”。 其结果就是,组成固体的这些原子外面的电子轨道化为了一个分立的、能量并不连续的“能带”:电子会充满能量低的能带,将能量高的能带空着。 吸收-辐射层,以及位于其下方的光学滤波器和光伏电池 对于金属而言,被电子充满的能带与空着的能带之间不存在“能量门槛”,而是连在一起的。电子并不需要额外获取能量就可以随意“跑”到能量高的且空着的能带中。又由于这个能带没有充满,“跑上去”的电子可以“跑来跑去”。这时,如果金属两端有电压差,电子就会像流水从水压高的地方流向水压低的地方一样,从电压高的一端“跑到”电压低的地方,进而形成电流。因此,金属是电的“良导体”。 但对于另外一些固体而言,被电子充满的能带与空着的能带之间存在着巨大的能量差距。如果电子想从自己所在的、能量较低的能带跃迁到能量更高的、尚未被填充的能带中运动,进而导电,需要额外获得很高的能量才能克服这两个能带之间的能量差。这个为了导电而让电子跃迁时必须克服的能量差叫作“能隙(eg)”。在一些固体中,能隙非常巨大,以至于如果这个固体想要导电,电子需要获得非常巨大的能量。这类固体被称作绝缘体,因为在通常情况下,电子根本就不可能获得这么多的能量,所以这个固体根本不导电。 然而却存在着这样一类固体,它们介于导体与绝缘体之间,被称作“半导体”。它们并不像导体一样,电子“跑到”空着的能带上时不需要任何额外的能量;也不像绝缘体一样,电子想要“跑到”能量更高、尚未被填充的能带中需要面临很难被克服的巨大能隙。在半导体中,能隙虽然存在,但是非常小。只要赋予电子一定的能量,它们就会克服这个不大的能隙“,跑到”空着的能带上去,让本来绝缘的固体开始导电。 然而,与金属不同,半导体虽然在一定情况下可以导电,但是电阻很大。不过,可以用一个巧妙的方法来解决这个问题。在非常纯粹的由单一元素组成的半导体中,只要少量地掺杂某种其他元素,就会显著降低其电阻。 以最常见的硅(si,原子序数14)光伏电池为例。如果在硅的晶体中掺杂少量的磷元素(p,原子序数15),就会在晶体中产生额外的容易离开的电子,成为n型半导体(n: negative,有负电荷的电子);而如果掺杂硼元素(b,原子序数5),则会形成一些容易离开的没有电子填充的电子“空穴”,这种类型的半导体被称为p型半导体(p: positive,有正电荷的空穴)。这些因掺杂某种其他因素而出现的大量电子和空穴均可以自由移动,从而导电。因此,无论是n型半导体还是p型半导体,其电阻均显著降低。 太阳能光伏电池可以把光转换成电的关键(也是一切晶体管、集成电路等半导体元器件的心脏),正是这两种半导体的组合。当n型半导体和p型半导体放到一块时,在其交接的表面就会形成一个叫作“p-n结”的结构。在p-n结的两端,空穴和电子的浓度存在巨大的差异。由于p区的空穴浓度远高于n区,而n区的电子浓度远高于p区,空穴、电子就分别向n区、p区扩散,在p-n结的结合处的n区形成一层正电荷层,在p区形成一层负电荷层,从而形成由n区指向p区的“内建电场”。当太阳能电池受到光的照射时,p区、n区、p-n结处的电子就会获得能量,越过能隙,形成“光生空穴”与“光生电子”。在内建电场的作用下,p区里产生的光生电子会进入n区,使n区带负电;而n区产生的光生空穴则进入p区,使p区带正电。这样一来便形成了一个p高n低的电压。如果用外接电路将p区与n区相连,电流便会从p区流向n区。只要光照不停,就会有源源不断的电流从p-n结的p端流出。这便是传说中的“光生伏打效应”,简称“光伏”。 以上便是太阳能光伏电池的工作原理。从中可以看出,太阳能电池工作的关键是,受到光线照射的电子可以越过能隙,从能量较低的能带跃迁到能量较高的能带,形成“光生空穴—电子对”。然而,并不是所有的太阳光都可以用来激发电子跃迁。 太阳在本质上是一个巨大的核聚变反应堆,每秒将8.5x1013千瓦的能量以光的形式辐射到地球表面。这其中约有8%为紫外线,47%为可见光(蓝光、黄光、红光等),45%为红外线[9]。紫外线的波长最短,能量最高;而红外线、尤其是远红外线,波长最长,能量最低。 前面说过,电子必须获得高于能隙的能量才能跑到更高的能带上去,进而产生空穴—电子对。这就意味着,如果入射光的能量比能隙低,便不能激发电子跃迁到更高的空着的能带。对于常用的硅光伏电池来说,其能隙为1.1e v,这使得太阳光谱中约占总能量20%的远红外光由于能量太低而无法被利用,只能被反射回去。而如果入射光的能量过高,电子跃迁到更高的能带上去后会把多余获得的能量以热量的形式散发出来。在硅光伏电池中,可见光部分的红光、黄光、蓝光和一部分近红外线都可以被吸收,但是蓝光、紫外线由于能量太高,其中只有一部分用于帮助电子跃迁,多余的约占太阳光谱总能量35%的部分会以热量的形式耗散掉。因此,硅光伏电池最多只能利用太阳光谱中45%的能量,再加上由于其他原因导致的效率损失,实际效率最高只能到32%[5,7,10]。 那么,换一种材料做光伏电池,效率可以提高吗?答案是否定的。 无论材料的能隙高低如何,太阳光谱中注定只有一部分会被光伏电池利用。其中能量低于太阳能电池材料能隙的光不会被电池利用,以反射等形式回到空间中去;而高于能隙的光也只有等于能隙的那部分能量被利用,多余的能量也会以光或热量的形式耗散。对比不同材料的能隙,硅光伏电池能利用45%的太阳光谱,已经是最多的了。这便是太阳能光伏电池的“终极效率限制”[5]:无论如何改进电池本身,单层电池的理论最高效率不可能突破32%的极限。 不可能,就是不可能。 (图片来源[10]) (图片来源[10]) 为了进一步提高光伏电池的效率,很多人选择使用多层不同材料组成“多结光伏电池”。最高能量的光线先被最上层的电池吸收,能量较低的光线和对于上一层来说多余的能量可以进一步被下一层电池利用。多结光伏电池因而创造了目前太阳能利用的最高效率:超过40%[11,12]。不过,多结意味着材料昂贵、制作复杂,使得多结光伏电池一直未能应用于大规模发电。 而我们今天要介绍的太阳能热光伏电池,则是另一套思路。它依然使用单层光伏电池,但是通过调控入射光源的光谱,将太阳能发电的理论效率极限提高到60%[10]。 了不起的创新 前面说过,常规光伏电池存在“终极效率极限”的原因,是太阳光谱中能量低的光不能被光伏电池利用,能量高的也只能利用一部分。既然光伏电池利用“电子跃迁、跨越一定的能隙、生成空穴—电子对、被p-n结的内建电场扫荡形成光生电动势”的原理无法改变,为什么不能改变照射到电池表面的光线的能量分布,让所有的能量都聚集在高于能隙的光谱中,全部都被光伏电池吸收呢?这便是麻省理工学院这个团队设计这套太阳能热光伏电池系统的思路。他们通过对入射太阳光的光谱进行“调控”,就可以让一块普通的光伏电池吸收几乎全部的太阳光谱。 (图片来源[10]) 他们设计了一套由“吸收器、辐射器、光学滤波器”组成的设备,让太阳光依次通过这3个设备再照射到光伏电池上。这3个部件通过完美配合,就像一个调节太阳光颜色的旋钮一样,把分布连续的太阳光光谱全部聚集到高于且刚好略高于光伏电池能隙的波段,让光伏发电的理论效率一举超过60%,达到了光伏电池“终极效率极限”的2倍! 他们是怎么做到的呢? 首先,为了获得想要的光线能量分布,他们先将全部的太阳光照射到一个叫作“吸收器”的元器件上。这个原件的作用就是动用“吸星大法”,把所有的光线都吸收进来,变成热量,丝毫不让它们反射出去。执行这个任务的,是实心的碳纳米管森林,它们会捕获所有的光线,并将自身的温度加热到约1000c。“无论什么颜色的光谱,碳纳米管基本上都是完美的吸收器。”研究团队成员毕尔曼表示,“所有的光子都被转化成了热量。” 之后的任务,便是如何把这些热量再以光的形式辐射出来,而且这次的波长要符合科学家们的需要。事实上,我们身边的任何物体都在向外辐射电磁波。只不过由于温度太低,比如人体只有37c,我们做饭时只需要不到200c,这些温度的物体辐射出的电磁波能量太弱,波长太长,并不能进入可见光波段,从而被我们的眼睛所注意。一些温度比较高的物体,如烧着的炭火,其温度约为400c,这时,它发出的光谱里能量较高的那部分光的波长就落在了可见光范围内,以暗暗的红光的形式被人类的肉眼所发现;而1000c差不多相当于火灾时熊熊燃烧的烈焰的温度,可以辐射出一大部分落在可见光范围内的光谱。不过,这种光与太阳光类似,光谱依然连续,有相当一部分能量比光伏电池的能隙低,也有很大一部分比能隙高得多。为了调控比能隙高得多的部分,研究人员使用了“选择性辐射器”。选择性辐射器是一种由硅和二氧化硅组成的光子晶体,它的奥妙之处在于,通过其纳米层面的结构设计,来控制哪些特定波长的光可以通过,哪些波长的光不可以。如此一来,太阳光谱中比能隙高很多的光线就被“挤压”到了刚刚比光伏电池能隙高一点点的波段,经吸收器吸收的太阳光能量便被辐射器以这样的特定波段辐射到光伏电池。 然而,这时的辐射光谱中还有大于50%的光线能量低于能隙。科学家们最后使用了一种光学滤波器,让所有能量低于能隙的光线都无法照射到光伏电池上,而是被反射回吸收器,转化为其热量。这样一来,原来分布连续的太阳光谱就被彻底地转化成了如下所示的样子:低于能隙的波段完全没有,远高于能隙的波段也非常少,几乎全部集中在略高于能隙的部分。如此一来,所有照射到光伏电池的光线都可以激发空穴电子对进而产生电流,而因为部分光线能量太高所造成的浪费也非常有限。 需要指出的是,这3项关键部件——吸收器、辐射器、光学滤波器中的每一项都不是该团队的原创。但他们却创造性地将这些部件结合在一起,完成了调控太阳光谱的任务,而其效果令人非常满意。 他们将吸收器、辐射器、光学滤波器放置在一个效率较低的锑砷铟镓(in ga as sb)光伏电池上,并将整个系统置于模拟的太阳光下。测量发现,其效率达到6.8%,高于这块光伏电池单独面对模拟太阳光时的效率。研究团队更进一步指出,无论太阳能热光伏系统所使用的光伏电池质量如何,他们的装置在原则上都能让系统获得高于光伏电池本身的效率。 这是一个意义重大的时刻。 热光伏技术发展了这么多年,但是效率一直低于常规光伏电池。“这是第一次,”毕尔曼说,“我们在太阳光和光伏电池中间放了点东西,然后真正地提高了系统的效率。”[13]这意味着,通过坚持不懈的探索,毕尔曼和他的团队证实了热光伏思路确实可以提高太阳能的发电效率,并且可能将光伏电池的效率极限提高2倍。 远非完美 不过,这套示范系统的开发,只是太阳能热光伏技术走向大规模应用的第一步。这项技术离真正的成熟还十分遥远。 事实上,热光伏在产业化方面的表现从未令人真正满意。这个已经发展了50余年的技术,到现在还游走在科研与产业的边缘,无法大规模应用。迄今为止,热光伏技术与实际应用最近的距离是由一家叫作jx ctystals的公司创造的。这家公司的创始人曾经是波音的工程师,他们在发明了能隙远低于硅光伏电池的锑化镓(ga sb)电池之后,带着波音的专利授权离开了波音公司,创立了jx ctystals。他们生产了迄今为止唯一一个被测试过的商用热光伏系统:“午夜阳光热光伏炉”(midnight sun tpv stove)。不过,该系统并没有得到市场的认可。这个系统通过燃烧外界燃料,加热碳化硅(si c)辐射器,获得了2%的热—电转化效率[14]。除了极低的效率,昂贵的锑化镓(ga sb)电池也严重制约了这个系统的商业化[15]。该公司还曾试图为美国陆军提供可以在偏远地区发电的热光伏系统。但由于效率过低,这套热光伏系统从未被军方测试过,更不用说在战场上实际应用了。就连航天领域也拒绝使用太阳能热光伏系统为卫星等航天器供电,理由是与直接使用光伏电池相比,热光伏系统实在是太重了。 这次,毕尔曼和他的团队提出的全新的太阳能热光伏技术思路让人们对于其实际应用重新充满了期待。不过,还静静地躺在麻省理工学院的实验室里的这个三元件组合只是一个初步的、未经优化的、远非完美的系统,其距离真正投入实际应用还有漫长的道路要走。 首先,所有的部件都还有很大的优化空间。研究团队认为,他们可以进一步地改善入射太阳光的聚焦情况,而且会尝试将系统大型化。 太阳模拟器发出的光线在经过聚集后,由入射孔射入太阳能热光伏电池所在的真空腔室,从而产生电流 现在的实验装置的截面积只有几平方厘米,如果系统的输出功率可以达到大于4千瓦,从设备边缘等处流失的热量损失将小于入射能量的1%,从而进一步将整个系统的效率提升10%~15%[10]。“我们可以进一步优化系统的组件,因为我们已经增进了我们对提高效率所需要的知识。”帮忙领导这项工作的副教授艾芙琳 · 王说。不过,将实验设备的功率提高到可以工业应用的量级绝不是简单的任务,更不要说现有的系统必须在真空下运行。这一方面显著增加了成本,另一方面更给大型化等进一步系统优化提出了难题。如果要让该项技术成功商业化,团队可能必须想出解决真空问题的方法。 其次,现在的效率之所以只有6.8%,一个很大的原因是选择了效率很低的锑砷铟镓电池(其能隙为eg=0.55e v,而效率最高的硅电池的能隙则有eg=1.1e v)。之所以不使用高效率的硅电池而用低效率的锑砷铟镓电池,是因为后者的能隙较低,满足其工作温度与光谱特性的要求更容易:与锑砷铟镓电池配套的热光伏吸收器温度为1000c,尚在许多材料尤其是金属材料的熔点之下;而为达到比较高的效率,与硅电池配套的热光伏吸收器的温度需要高达1600c,这超过了钢、铜、铝等许多材料的熔点,使得这些常规材料无法成为系统的部件,这为搭建热光伏系统带来了巨大的挑战。事实上,热光伏技术早在20世纪60年代就已经由麻省理工学院的科学家们提出过,但是限于技术条件一直无法实现。直到20世纪90年代研制出了低能隙的锑化镓(ga sb)电池,热光伏的一些优点才终于得到初步验证。科学家现在只是通过实验验证了太阳能热光伏技术可以被用于提高难度较低的锑砷铟镓电池的效率,如果要提高最常规的硅光伏电池的效率,还需要对热光伏系统进行重大改造。 再次,用来制作吸收器、辐射器和光学滤波器的材料非常昂贵与精密,工艺流程也异常复杂,远远不能达到工业化生产的要求。以吸收器所需的碳纳米管为例,其制造过程并不简单,需要在高温下进行化学气相沉积。尽管人们预计,未来,碳纳米管的需求将大幅增加,成本会大幅下降,但一克依然可能需要几十美元[17]。这对于需要进一步降低成本、与火力发电竞争的光伏发电系统来说实在是太贵了。碳纳米管尚且如此,用来制作辐射器的光子晶体更加精密。麻省理工学院团队提出的这个系统为未来太阳能热光伏系统的发展提供了极其重要的参考,但如果太阳能热光伏要想最终走向商业应用,未来的技术必须在满足效率的前提下使用更便宜的材料与更简单的加工工艺,而这无疑充满了挑战。 然而,如果太阳能热光伏真能走上商业化应用的道路,其带来的突破性意义将绝不仅仅只是突破光伏电池的理论效率极限。其更为重要的意义在于,它有可能解决上文提到的另一个更重要的问题——稳定、跨昼夜的清洁能源的连续供应,从而为清洁能源彻底取代污染环境、排放温室气体的化石燃料提供了可能。 彻底淘汰化石燃料的可能 前文提到,电网的发电量是以用户的用电量为目标进行实时匹配的。依托天气预报、用电规划与历史数据,电网公司通常能够对一个区域内未来一段时间的用电量进行相当准确的预测,从而组织区域内火力发电厂、水力发电站、核电站等按照发电计划提供用户所需的用电负荷。当由于突发情况导致实际用电需求与预测出现比较大的偏差时,电网必须迅速组织电厂提高或者降低发电量,否则将会导致区域内的电网出现电压不稳、频率不稳等情况,一方面会影响用户用电,更重要的是将严重危害电网设备的安全。 然而,这一运行模式被突然发展起来的新能源打破了。与传统能源可以稳定、连续地按照发电计划生产电力不同,以风电、光伏为代表的新能源可谓纯粹的“靠天吃饭”。面对天气变化、昼夜更替,新能源不仅无法满足按照用户的用电需求匹配发电量,更是无法保证稳定的输出。为了平衡这些随机的、难以预测的发电量变化,电网必须让大量的火力发电厂、水力发电厂保持半负荷运转,以随时迅速提高或降低自身的发电量,从而保证区域内总发电量趋于稳定。然而,新能源的负荷变化总是比火力发电厂的响应速度快。比如,晴天时忽然飘来的云可以让一座太阳能光伏电站的发电量在几分钟内从满负荷发电降至零,然而火力发电厂至少需要半小时才能将自己的发电量提上去。因此,光伏等新能源的发展给传统电网的稳定带来了前所未有的挑战。为了保证电网运行的安全与稳定,电网可以接受的新能源发电量十分有限。 对于以燃气发电站为主的欧洲电网来说,吸纳德国的光伏发电量就已经十分困难了。而以响应更慢的燃煤发电机组为主的中国电网,面对现在全世界最大的光伏发电装机容量,实在是有些束手无策。中国的电力结构决定了可以并网的新能源发电占比最好不要超过10%,因为此时,其因天气变化等因素可能导致的峰值电量会高达电网总发电量的50%[18],而消纳这些几乎是随机波动的发电量,对于基于火电系统的中国电网来说十分困难。因此,如果该区域内的光伏发电装机容量高于这个数字,为了保证电网的运行,其实际发电量必须小于设计发电量。也就是说,如果某一天某个地区的用户用电量不大,那么无论天气有多么好,都必须有一部分光伏电池不能参与发电,造成所谓的“弃光”现象。2015年,中国光伏理论弃置率高达40%[8],与发电的最大潜力相比,中国光伏的实际利用效率仅有60%。 为什么不能把这些多余的电量储存起来,等到需要用的时候再释放出来呢?这是许多人都期待的事情。然而,电力储存的难度实在是太大了。电力储存要求有足够高的能量密度、足够大的规模、足够低的价格与足够长的储存时间。但是到目前为止,人类几乎所有的电力储存技术思路都无法同时满足上述要求。比如,锂电池可以满足长时间的电力储存要求,但是其能量密度太低,价格相对昂贵,导致储存电网规模的电量需要极大的空间与极高的经济成本;抽水蓄能电站(在用电低谷的时候把水从地势低的地方抽到地势高的地方,再在用电高峰期放下来发电,以实现削峰填谷的作用)可以满足长时间、大容量与低价格,但是其对地理条件的要求非常严格,全世界可以兴建抽水蓄能电站的地理环境非常有限;而飞轮储能(将多余的电量用来驱动巨型的飞轮旋转,在需要用电时利用其旋转的惯性驱动发电机发电)不仅储存的电量有限,储存时间更是只有十几分钟。 然而,与储存电力相比,储存热量就简单得多,厚实的衣服、小小的保温杯、带保温功能的热水器就是最简单的储热设备。与储电技术的步履维艰相比,人类已经建成了多处电网级储热设施,利用高温下液态矿物盐的升温、降温来吸收、释放大量的热量,再将这些热量加热水蒸气推动汽轮机发电,从而实现了一整座发电站的能量储存。而更为先进的利用物体相变吸放热、化学反应吸放热的储热技术也正在积极开发之中。 因此,如果太阳能热光伏电池能够与储热技术结合在一起,将可以把电力输出与太阳光输入在时间上分开:有太阳的时候便加热吸收器,并把热量储存起来,不急于把全部的太阳光都用来发电;而在需要用电的时候,无论此时有没有太阳,都可以把储存起来的热量释放出来,进行发电。而且,由于热量的调用可以人为控制,拥有储热系统的太阳能热光伏电池将可以像传统的火力发电厂一样,生产稳定、连续、可调节的电力。而且作为一种利用太阳能的技术,还可以实现在阴雨天与夜间发电。如此一来,便可以打破电网对于新能源并网电量的限制,彻底淘汰导致环境污染与气候变暖的火力发电。 我们不能准确地知道,带有储热系统的太阳能热光伏电池技术将在什么时候甚至能否走向成熟,实现真正的商业化。但如果这一天真的能够到来,对于人类来说将可能意味着一个永续发展、清洁环保的未来。 专家点评 梁庭堃(andrew leung) 美国应用材料(applied materials)前大中华区政府关系主管。 太阳发电技术的创新和半导体材料的发展密不可分。传统的光伏技术,从主流的晶体硅,到后来名噪一时的cd te和cigs薄膜电池,再到最近3年备受关注的钙钛矿(peroskite)薄膜电池,都是通过新材料的设计来提高吸光性,提升光电转化效率,从而降低发电成本。可是,受限于肖克利—奎伊瑟极限理论,传统光伏电池的转化效率不能超过33.7%。热光伏电池的出现,可能将理想转化效率提高到超过80%,为高效光伏发电提供了新的发展空间和机会。 热光伏电池理论早在20世纪50年代就被麻省理工学院的h.h.kolm教授提出并制造了原型,其光电转换器采用的是硅电池。之后同校的e.kittl、pierre aigrain和史丹福的dick swanson在20世纪60年代和20世纪70年代相继发表新理论和设计。可是受制于当时的材料技术,热光伏电池的效率没有得到很大提升。直到20世纪90年代,随着低带宽能量的3~5族化合物材料的兴起,热光伏电池技术才重新受到关注。 这次麻省理工学院发表的热光伏电池系统的核心,是一个两层的太阳辐射吸收及光子释放设备,由纳米碳管和光子晶体等材料组成。原理是该设备的外层碳纳米管直面太阳光,通过将吸收的太阳光转化为热能,为设备内层的光子晶体加热,后发出与光伏电池的带隙相吻合的光能。技术的最大挑战在高温(1000~2000k)环境下,光子晶体和电池的稳定性(tungsten光子晶体超过1200c会碎掉)。高效热光伏电池技术的开发(thermal metasurface、semiconductorcell等)和验证还需要很多的工作。 在产业化上,热光伏电池将要与传统的光伏技术和能源竞争。因为需要使用真空部件和新材料(如碳纳米管),在欠缺规模优势和量产经验的情况下,热光伏电池需要寻找差异化市场的机会。在太阳能发电领域,传统光伏和光热的应用一度出现瑜亮之争。因为对温度的要求很高,大规模的光热应用受到地理限制,没有传统的光伏灵活。由于热光伏电池能在没有太阳光的环境下运作,所以这个新技术有机会打开一片太阳能发电的蓝海天地。 the cell atlas 细胞图谱 撰文:高子阳、verdi 突破技术 这是人体中各种细胞类型的完全目录。 重要意义 超精确的人类生理学模型将加速新药的研发与试验。 技术成熟期 5年 主要研究者 -布罗德研究所(broad institute) -桑格研究所(sanger institute) -陈-扎克伯格的biohub(chan zuckerberg biohub) 当你凝视脚下的方寸土地,是否曾经好奇过生命的起源?鹰击长空,鱼翔浅底,万类霜天竞自由,这一切都源于35亿年前混沌海洋中的生命微光。当时的地球表面遍布着频繁活动的火山,向外不断地喷吐出火山灰和岩浆;空气中的一氧化碳和氢气在电离子风暴的作用下形成了简单的有机物,这些物质在原始海洋中不断地堆积,在洪荒之初发生了复杂的化学反应,构成了生物大分子,逐渐演变成最初的生命。 昔日原始海洋中的沧海一粟,是如何变成今日的勃勃生机的呢?通过化石记录的证据,我们可以确定生命起源于35亿年前的原核细胞生物。在生命出现后的最初的15亿年间,原核细胞是唯一的生命形式,它们个体渺小但数量巨大,有些通过光合作用产生氧气,彻头彻尾地改变了地球的模样。原核细胞并没有细胞核,构成其核物质的是直接与细胞质接触的单个染色体。我们熟悉的蓝藻、各类细菌都是原核生物,构成这种古老生命形式的原核细胞,依旧渗透在我们生活的每一个部分。 大约在21亿年前,原始海洋中的有机物逐渐被消耗殆尽,大气中积攒了部分原核生物通过光合作用产生的氧气,原始海洋中逐渐演化出真核细胞。与原核细胞不同的是,真核细胞的内部具有核膜包被的细胞核。最初的真核细胞是单细胞的真核生物,又叫原生动物,仅一个小小的细胞就具有完整的生命代谢体系。后来,细胞之间产生了分工与合作,不同的细胞各司其职,进化出了多细胞生物。植物、动物、真菌等均属于多细胞的真核生物。 与细胞的漫长进化史相比,人类在地球上生活的时间可谓流光瞬息。尽管我们使用高级的工具改变了地球的环境,建立了发达的文明,但人类的本质是一种灵长目人科人属的直立行走物种。人类是多细胞生物,人体内的细胞之间相互协作,通过发生惊人的化学反应,使我们的生命得以延续。 而我们在很长的一段时间内,对此一无所知。 人类对细胞的认识,起源于400年前。 人们假想的含有“小矮人”的精子(nichs hartsoeker,1695年) robert hooke通过显微镜看到并画下了软木栓细胞(1665年) 1665年,罗伯特·胡克使用自制的光学显微镜观察软木薄片时,观察到了像修道院的房子一般的一个个小隔间。于是他使用表达单人间意思的cell一词将植物细胞命名为cellr。尽管胡克观察到的细胞早已死亡,其结构实为死亡后的植物细胞壁,但胡克仍然被认为是第一个描述细胞结构的科学家[1]。在罗伯特·胡克观察到死细胞后不久,1674年,荷兰科学家列文虎克利用手工自制的显微镜,首次观察到了雨水中活动的单细胞生物,这是人类历史上第一次成功地观察并描述了活细胞[2]。 19世纪初期,随着植物解剖学的发展,法国科学家charles milbel认识到植物的每一个部分都有细胞存在。随着种种观察的累积,1838年法国科学家施莱登宣布细胞是一切植物的基本活体单位,是一切植物发展的根本实体。1839年,施旺将此学说扩大到动物界,如此便构成了人们所熟知的细胞学说:细胞是动物和植物生命活动的基本单元。恩格斯将细胞学说誉为19世纪的三大发现之一,是整个现代生物学的理论基础[3]。 随后的200年中,科学家对细胞学说进行了不断的改进和纠正,逐渐发展为现代细胞学说。现代细胞学说主要分为三点:1.细胞是一个有机体,一切动植物都由细胞发育而来,并由细胞和细胞产物所构成;2.细胞是一个相对独立的单位,既有自己的生命活动,又对其他细胞和其他细胞共同组成的生命整体起作用;3.新的细胞是从以前存活的细胞中产生的。 1873年,意大利组织解剖学家高尔基发明了“高尔基银染法”,使得人们可以看到完整的神经细胞。1887年,西班牙画家拉蒙·卡哈尔利用此方法对小脑和视网膜进行观察,并通过其出色的绘画才能,精确地呈现出他的研究结果。卡哈尔观察到小脑中的不同的神经细胞通过突起的方式相互勾连,但并不直接连接[4]。1889年,卡哈尔发表了自己的研究成果,他提出大脑是由相互独立的神经细胞所构成,它们之间并不构成直接相连的网状系统。这便是神经元学说的基本内容。 植物细胞(j.m.schleiden,1838年) 此外,卡哈尔发现神经细胞并不是一模一样的,于是他通过其画作展示了人脑中不同的神经细胞类型,如锥体细胞、浦肯野神经元等。在卡哈尔笔下的视网膜结构图中,他将视网膜分为10层,每层由不同种类的细胞组成。卡哈尔认为b、c、d层的感光细胞将光线转换成电信号,之后传导至其他细胞层,最终传导至大脑。1906年,瑞典卡罗琳斯卡医学院将诺贝尔生理学或医学奖授予在神经组织学领域做出重要贡献的高尔基和卡哈尔。 神经细胞(roman y cajal) 今天,在卡哈尔绘制精细的细胞图谱100年后,我们已经知道,除红细胞外,人体内拥有总数超过1万亿的细胞。它们分布于人体的每一个部分,行使各自不同的功能,构成了精妙绝伦的人体结构,每时每刻满足着新陈代谢的需要。目前人们对细胞分类的标准主要是基于细胞的形态、基因表达和功能的差异,细胞的空间分布、分化状态和谱系追踪对于细胞分类起着辅助的作用。近年来,随着表观遗传学研究的深入,表观遗传谱也成为细胞分类学关注的重点。如果只进行粗略的分类,人体内大概有300种细胞类型。但是如果进行精细的划分,光是视网膜神经元就有100多种细胞类型,由此可见人体内的细胞构成极其复杂。 神经细胞(a.von kolliker,1852年) 拿人体内最大的器官——皮肤为例。看似简单的皮肤组织,实际上是由许多种细胞组成的。人类的皮肤分为表皮和真皮两层,被表皮基底层分隔开。表皮是皮肤的最外层,是人身体的保护层,具有维持水分、避免病原菌进入体内的功能;皮肤表皮中具有柱状上皮细胞、黑色素细胞、角质细胞、扁平细胞等细胞[5]。真皮是位于表皮以下的组织,由致密的结缔组织组成,其中含有大量的成纤维细胞、肥大细胞、组织细胞、淋巴细胞、噬黑色素细胞、朗格汉斯细胞及少量的真皮树突状细胞[6]。 人类、骆驼和蟾蜍的血液细胞daguerreotypes(a.donné,1845年) 动物细胞草图(theodor schwann,1839年) 皮肤拥有很强的修复和再生能力,这是由于皮肤中的皮肤干细胞在起作用。目前研究比较多的是表皮干细胞和毛囊干细胞。表皮干细胞是各类表皮细胞的祖细胞,可以向下迁移分化成表皮基底层,进而发育为毛囊,也可以向上迁移,最终分化为各类表皮细胞[7]。仅仅皮肤干细胞的类型就有很多。在胚胎时期,皮肤是由在毛囊形成过程中不同的细胞类型所构成的。科学家们通过对胚胎皮肤毛囊祖细胞进行转录组图谱的分析,鉴定出简单的毛囊祖细胞可以被分为6种类型,它们在细胞黏附、细胞迁移、上皮发育等过程中都扮演着各自不同的角色[11]。表皮干细胞可以被不同的生物标记物区分为6种类型,它们呈片状分布在表皮基底层[8]。 成纤维细胞是一种合成细胞外基质和胶原蛋白的细胞,是生物结缔组织的基本构造,为结缔组织提供框架结构,对皮肤的伤口愈合有着重要作用[9]。看似简单的成纤维细胞也各自不同,可以根据其发育的不同阶段分为7种类型,每种成纤维细胞的形态各异,其所处位置和活动性决定了细胞的形态[10]。 另外,人类皮肤中还包含广泛的免疫细胞网络,是皮肤免疫屏障的关键。人们利用皮肤免疫细胞的细胞图谱分析,发现了皮肤免疫细胞的功能、位置的异质性。一些特殊类型的t细胞仅分布于耳周皮肤,具有不同免疫应答功能的肥大细胞也具有不同的数量[12]。 再拿卡哈尔研究过的视网膜举个例子。视网膜是脊椎动物和一些头足纲动物眼球后部的一层非常薄的细胞,行使将光信号转化为神经信号的功能。它的结构清晰明了,是很多科学家喜爱的研究对象。人类的视网膜由外到内分为10层,每层都由特异的细胞构成。以往估计人体内总共有300多种细胞,而现在人们发现单单一层薄薄的视网膜就可能含有100多种神经细胞。通过对转录组的分析,研究者发现了几十年的眼部研究都没能发现的两种新类型的视网膜细胞。 简单的视网膜细胞种类就已经大大超出了人们的想象,更不用说复杂的人脑了。人脑中同样具有高度异质的细胞类型,主要包括神经元和神经胶质细胞。神经胶质细胞中的寡突胶质细胞从转录组就能分出多于12种的类型。神经元细胞在转录组层面具有高度异质性,即使是形态无差异的神经元,其中的蛋白表达也存在着很大的变化。 这些例子告诉我们,传统的基于细胞形态的分类学对于细胞类别的鉴定仅停留在表面阶段,人类对构成自己身体的细胞的种类了解甚少。作为第一个描述细胞的科学家,胡克将会被生物学的下一个大型项目震惊到:这是一个使用现代基因组学和细胞生物学中最强大的工具来单独捕获和端详数百万个细胞的计划。 这个项目的目标是构建第一个全面的细胞分类系统——“细胞图谱”或者“人类细胞地图”。这个项目的实现将成为一个技术奇迹,因为它将首次全面揭示人体是由什么组成的,并为科学家们提供一个新的复杂的生物学模型,以提升药物研发的速度。 这项研究主要面临着两个挑战。一是细胞分类的准确性。细胞分类系统需要能够定义绝对单一的细胞类型,而不是定义一个具有多种细胞类型的亚群。二是细胞分类的全面性。我们需要的是一个能够保证最终鉴定出所有细胞类型的分类系统,这同样要求我们能够找到所有的细胞类型[13]。 为了实行这个解码人体37.2万亿个细胞的任务,由来自美国、英国、瑞典、以色列、荷兰和日本的国际科学家组成的联合会正在分配任务,包括检测每种细胞的分子特征,并给每种细胞一个在人体空间中特定的“邮政编码”。“我们将会看到我们所期望的东西、我们已知存在的东西,但我确信除此之外我们还会发现全新的事物。”英国桑格研究所的细胞图谱团队负责人mike stubbington说,“我认为会有惊喜出现。” 这个新项目的研究主要运用了3种技术:单细胞捕获技术、测序技术和多种全新的标记和染色技术。前两项技术通常一起讨论,称为“单细胞测序技术”。 单细胞测序技术 单细胞rna(核糖核酸)测序是细胞图谱计划的核心技术,能够提供单个细胞的基因组图谱。而且目前大量的与之相配的技术,如微流控等使单细胞测序成为一种低成本、高通量的测序方式[14,15]。 在单细胞rna测序技术出现之前,人们普遍利用分子探针型技术对单细胞进行m rna(信使核糖核酸)图谱的分析。常见技术主要有荧光融合报告蛋白、定量实时聚合酶链式反应(q rt-pcr)、原位荧光杂交 (fish)和基因芯片技术[19]。这些技术在一定层面上可以反映细胞中的一些基因的表达变化,但由于它们都是依赖于分子探针的技术,并不能够反映出全基因组的转录组水平,空间分辨率较低,具有一定的局限性。 单细胞rna测序是一种不需依赖分子探针的技术,它将细胞内的rna分子反转录成c dna (互补脱氧核糖核酸),并随之进行二代测序,能够反映出全基因组层面的编码和非编码rna转录水平,是反映特定环境中细胞状态的绝佳方法。 单细胞rna测序最早是由大规模(bulk) rna测序演变而来的。对于大规模rna测序而言,提取rna时大概需要100万个细胞。 而单细胞测序需要使用单细胞捕获技术,对单个细胞进行裂解,然后测序[20]。2009年,m.surani等人在《自然·方法》杂志上发表了多聚a尾法的单细胞rna测序方法,他们利用带多聚t尾的引物对模板进行两次扩增后得到c dna,这项方法在后来的单细胞rna测序研究中得到了非常广泛的应用[21]。 近年来,单细胞rna测序更是飞速发展:2012年,gary schroth和richard sandberg等人在《自然·生物》技术杂志上发表了名为smart-seq的单细胞测序方法,这项方法利用了模板转移的技术,提高了转录过程的覆盖度[22];2011年,james eberwine等人将体外转录技术(ivt)用于单细胞rna测序,实现了c dna的线形扩增[23];同样在2011年,tung t.hoang等人发表了滚动循环周期的单细胞rna测序技术,这使得对原核生物(细菌、放线菌等)进行单细胞rna测序成为可能[24];2012年,peter lonnerberg和sten linnarsson等人发明了一种对单细胞进行rna 5’端测序的方法,这种方法满足了对特定核酸链进行测序的需求[25];2012年,itai yanai等人发明了cel-seq的单细胞测序方法,通过汇聚标记过后的样本,满足了单细胞rna的快速线形扩增[26];2013年,gosta winberg和rickard sandberg在smart-seq的基础上进行了改进,推出了smart-seq2技术,在单细胞的反转录、模板转移、预扩增方面都有了显著的提高。与smart-seq相比,smart-seq2有着更精确的检测灵敏度、更高的测序覆盖率[34];2014年,来自weizmann研究所的ido amit和amos tanay发明了一种自动化的高通量单细胞rna测序的并行技术,能够在数以千计的单细胞中分析转录组状态。利用这项技术,人们可以从复杂的组织中测得广泛的细胞组成类型[16]。 单细胞测序的流程主要分为单细胞捕获、单细胞裂解、反转录、核酸扩增、建库测序这5个步骤。单细胞捕获是单细胞测序的第一步,这看似简单的步骤实际上是整个测序过程中最具有挑战性的一步。 目前,最常用的单细胞捕捉技术有微管吸吮技术、激光显微切割、荧光活化细胞分选、微滴技术、微流体技术。微管吸吮技术采用开口极细的微型玻璃管,利用压力将单个细胞从组织中捕获,这是一种十分耗时的方法,被用于早期胚胎的单细胞捕获。激光显微切割是利用激光将组织薄片上的细胞进行分离的技术,同样非常耗时,被用于基于细胞形态和细胞荧光标记的细胞分选。 为了提高细胞分选的效率,人们开始尝试用高通量的方式。荧光活化细胞分选(facs)是一种利用细胞表面的荧光标记对液滴中的单细胞进行分离的技术,其优点是高通量,且能够利用特定免疫标记的细胞表面分子提高分选的准确性。但其缺点也很明显,一是需要特定的抗体和分子标记,二是仪器的价格昂贵[29]。 微流体技术是利用微流体芯片在极窄的流体通道中将细胞进行分离的方法,它能够分离总体积量很小的细胞,同样是一种高通量的方法。fludigm c1的微流体平台能够利用流体回路对细胞进行捕捉,同时能用显微镜对这些细胞进行观察,反转录和核酸扩增都自动紧随细胞捕捉后进行。但是微流体技术要求细胞的大小基本一致,在处理黏性较高的非球体细胞时,效率也会降低。它同样也是一种高成本的方法[30]。 激光显微切割是一种在显微镜下利用激光将单个细胞从组织薄片中切除的技术,可以看作是一种物理分选,它能够保留细胞的周围信息。但是如此小范围的精细切仍然是一个技术上的挑战,而且激光切割过程中的紫外线可能会对细胞具有潜在的伤害[31]。目前并未有一种能适用于所有研究的单细胞分离方法,研究者需要根据其研究目的和样本的种类选择最适合实验的方法。 2015年,一种叫作“细胞微流体”(drop-seq)的技术进入了人们的视线。drop-seq是一种从液滴中提取单个细胞进行转录组分析的方法[27]。它利用微流体装置来区分转录后的单个细胞、裂解液和覆盖着引物的微珠。这项技术分离单独的细胞并用微珠标记,使其被油滴包裹后再进行研究和分析。选择油滴的原因是油滴可以如同汽车一样载着细胞,沿着被蚀刻在微小芯片上的狭窄的毛细管单向“街道”分流,使得细胞被聚集在特定的地方,裂解并逐一研究。细胞微流体是一种低成本高通量的测序方法,其成本大约为每个细胞7美分,是很多研究者的首选。但是它对于微流体设备的要求较高,对于不同的细胞需要特定种类的微流体设备来进行液滴的分离。另外drop-seq对于单个细胞的基因敏感度较低,且只能用于m rna的反转录[28]。 单细胞分选的下一步是裂解细胞,然后对细胞中的多聚a尾rna进行反转录处理。反转录时,我们以rna为模板,利用多聚t的引物进行首链的合成,并且在合成的序列后添加上基因条形码,以便后续的分析识别。次链的合成有c dna合成和模板转移扩增两种方式,最终都可以得到双链的dna。 细胞微流体技术使用的微流体设备 再下一步是对反转录后的dna进行核酸扩增。一种是利用聚合酶链式反应(pcr)的扩增方法,这是指数型的扩增;另一种是体外转录法,这种方法是线性的扩增,但需要对rna进行多一轮的反转录。完成反转录后便可以对扩增后的dna文库进行测序。 单细胞rna测序目前已被广泛应用于检测组织中的复杂的细胞种类、追踪细胞谱系的来源、检测细胞生理状态等方面,大大助力于各项研究:2010年,来自剑桥大学的m.surani对囊胚期中不同发育阶段的细胞进行了单细胞rna测序,发现了在这两种状态下细胞的转录水平存在巨大的差异,大多与对总体代谢有重大影响的分子有关[18];2016年,来自斯坦福大学的marius wernig和stephen quake利用单细胞rna测序技术在不同的时间点对小鼠胚胎成纤维细胞到诱导神经细胞的重编码过程进行了分析,解释了细胞重编码过程中分子的连续性。这项研究对于理解在分化过程中的细胞转录组状态具有重要的意义[17]。 目前而言,单细胞rna测序的技术已经被广泛运用于真核生物的多聚a尾m rna的转录组研究中,但是仍然有很多问题需要解决。比如在进行短序列测序时,很难同时做到维持核酸链的特异性和检测各类亚型之间的差异。在测序过程中,rna的丢失(50%~60%)会在很大程度上降低转录组分析的全面性[32]。单细胞rna测序的敏感度同样也是目前单细胞测序的不足之处,目前在低量的转录组中,很难辨别出技术噪声和生物差异性之间的区别,这使得人们在研究整体的转录水平时会损失很大一部分信息[33]。此外,对于非真核细胞的单细胞测序研究,比如研究某些具有感染性的病原体,也需要人们在现有的单细胞测序技术上进行改进。 近些年关于单细胞rna测序的研究使我们了解到,很多细胞层面的未解之谜只能通过单个细胞的研究来回答。我们可以想象,在不久的将来,当人们改进了这些技术性问题后,单细胞rna测序的技术可以被用于所有类型的细胞转录组研究,人们也将揭示更多的单细胞层面上的未知问题。 单细胞rna测序的另一个核心技术就是测序技术。测序是指通过物理或化学的方法确定线状生物大分子初级结构的过程。dna测序指分析特定dna片段的碱基序列,即腺嘌呤(a)、胸腺嘧啶(t)、胞嘧啶(c)和尿嘧啶(g)的排列方式。它是现代测序技术的核心,也是破解各种生物奥秘的关键。 20世纪中期,dna测序技术刚刚起步,当时所流行的化学降解法、双脱氧链终止法、荧光自动测序、杂交测序等被统称为第一代测序。其中由fred sanger及其同事发明的双脱氧终止法(又称sanger测序法)是第一代测序中最常被使用的技术。 双脱氧终止法(sanger测序法)的原理是dna复制,起反应体系中包括目标dna片段、脱氧三磷酸核苷酸(d ntp)、双脱氧三磷酸核苷酸(dd ntp)、测序引物及dna聚合酶等。由于dd ntp缺少3’-oh基团,不具有和另一个d ntp连接形成磷酸二脂键的能力,可以终止dna链的延伸。通过在4个平行的测序反应中分别加入不同的dd ntp,dna链会分别在a、g、c、t位终止,于是会形成不同长度的dna片段。随后通过聚丙烯酰胺凝胶电泳区分开长度相差为一个核苷酸的dna分子,于是便可以读出dna序列[35]。 2000年,人类基因组计划的草图完成了。传统的第一代测序已经不能满足对大规模基因组进行测序的需求,此时新一代测序的技术在传统科学和商业界的推动下应运而生。 第二代测序的核心技术是边合成边测序,即通过捕捉新合成的核酸末端的标记来确定dna的序列,与sanger测序法相比具有更快的测序速度。第二代测序技术最显著的特征是高通量,能够一次性对上百万条dna进行测序,使dna测序的成本降低到了以前的千分之一。采用大规模平行测序平台的第二代测序技术,打破了以往大型测序中心对测序产业的垄断,使dna测序费用降到了以往的百分之一。第二代测序技术的发展使人们能用低廉的价格更加全面地研究基因组、转录组、表观遗传等组学之间的关系。目前市面上主要的第二代测序平台有罗氏公司的454焦磷酸测序、illumina公司的hi seq和life technologies公司的soli d。illumina是单细胞rna测序最常使用的平台,整个测序分为4个步骤:文库制备、核酸簇生成、dna片段测序、数据分析[36]。 近几年来,第三代测序技术的发展势头十分猛烈,与第二代测序技术不同的是,第三代测序技术不需要进行pcr扩增。目前盛行的第三代测序技术有helico bio science的单分子测序技术、pacifc bioscience的smrt技术和oxford的nanopore(纳米孔单分子测序)技术。nanopore作为最常用的第三代测序技术,与其他利用“边合成边测序”原理的技术都不同。该公司利用一种经过特殊设计的纳米孔,将核酸外切酶依附在孔的外表面,将一种合成的环糊精通过共价键安装在孔的内表面,充当传感器的角色。当dna分子从孔中经过时,会使流经纳米孔的电流强度发生变化,再利用灵敏的电子设备检测到这些变化,从而鉴定出这些碱基[37]。 对于测序而言,测序技术的应用只是其得到序列数据的一种方式,在得到数据后更重要的步骤是对这些数据进行分析且得出对实验有用的结论。无论是大规模细胞还是单细胞的转录组测序,目前其分析的流程都大同小异。 第一步都是序列比对和了解片段的测序深度。所谓序列比对就是将测序后的结果与已有数据库中的模板序列进行比对,再将与之匹配的模板序列的模板信息安置到测序后的序列上。第二步是要对比对后的序列进行质量控制,主要关注基因文库的质量是否能够满足后续分析的需要;在单细胞rna测序中,还需要关注单个细胞的rna是否被降解。第三步是在确定得到质量过关的测序数据后,对测序的深度进行标准化处理,以确保在分析时不同批次的数据具有相近的测序深度。以上步骤我们称之为测序数据的上游分析。 下游的分析在大规模细胞测序和单细胞测序中并无差异。首先我们需要对令人疑惑的因素进行分析,利用回归分析的手段找出细胞或样本之间的潜在差异。其次便可以用聚类分析的手段对细胞类型进行鉴定。最后利用差异表达分析工具分析不同细胞类别的特征。得到了以上步骤的结果后,我们便可以进行更加复杂的分析和模型构建,如基因调控网络分析、单细胞的转录动力学分析等[38]。 细胞图谱的绘制不仅需要强大的单细胞测序技术,还需要依靠多种全新的标记和染色技术来明确特定细胞的空间坐标。近年来,激光显微切割和原位荧光杂交技术也在趋于单细胞化,大大提高了空间分辨率。而组织透明化技术为在组织中精确定位细胞提供了可能。 如上文所说,激光显微切割是一项自动化的样本预处理技术,这项技术能够在显微镜下从混合的细胞群体中分离出特定的细胞,而这种从复杂组织中分离纯化单个细胞的技术能够提高基因组分析的精确度。在显微镜下,通过细胞识别软件的处理,组织薄片中的细胞可被单个区分开,因此可以运用超强脉冲激光对组织直接进行切割。 近年来,激光显微切割技术的发展使激光切割的宽度能够少于1微米,因此目标细胞不会被激光束所影响,甚至活细胞也不会被激光束的切割所损伤,在适当操作的情况下,激光切割后的细胞仍然可以被用来克隆或重新培养[39]。激光显微切割技术常被用来从组织、血液甚至精子样本中分离少量细胞或单个细胞。这些细胞能够通过形态学、免疫组化染色、原位杂交的方法被选择且确定位置。 目前,已有大量研究使用了激光切割技术。2012年,华盛顿大学的allen jones和爱丁堡大学的seth grant共同发表了他们关于人类大脑转录组学的细胞图谱研究。他们将数字化的大脑分子图谱集成的方法引用到了模式生物上,利用激光切割的方法筛选出目标样本,发明了一种能够在样本中构建全面的转录组图谱的技术[40]。2014年,allen大脑研究所的john hohmann和ed lein利用激光显微切割技术,对妊娠中期的人类大脑样本构建了全面的转录组图谱,为人们了解大脑的发育过程提供了丰富的信息资源[41]。2014年,瑞典卡洛琳斯卡研究院的carlos ibanez和sten linnarsson将激光显微切割技术与大规模rna测序相结合,对小鼠的内侧神经节突起进行了空间相关转录组分析,他们在中间神经元成熟的过程中发现了有明显差异的祖细胞群,这揭示了哺乳动物中枢神经系统的基因表达的空间异质性[42]。2016年,中科院上海细胞与生化研究所的景乃禾团队利用激光显微切割技术从小鼠的单个胚胎中分离出目标位置的细胞群,进行了单细胞rna测序,揭示了小鼠胚胎原肠胚期的空间转录组信息和细胞身份[43]。 激光显微切割原理 “古老”的原位荧光杂交技术也在单细胞化,并且与测序相结合。2014年,加州理工的long cai提出了荧光原位测序技术,它能够对还在组织或培养基中的细胞利用第二代测序直接进行测序。整个技术的基础是一种新型的核酸文库构建技术,这种技术能够在生物组织内进行稳定的交联c dna扩增[44]。通过高强度的显微观测、生化处理、图像处理以及生物信息学分析,人们最终可以得到目标细胞的测序序列。2015年,哈佛大学的庄小威团队在《科学》杂志上发表了他们关于在单细胞中进行高度复用的空间解析rna图谱的研究。他们发表了一种名叫merfish(多重抗误差原位荧光杂交)的技术,能够在单细胞中实现数千条rna的拷贝数和空间定位的成像[45]。 荧光原位测序技术将空间相关的rna-fish技术和全转录组rna图谱技术相结合,通过单个分子原位rna定位来保持组织的形态。使用荧光原位测序,让分析不同空间分布或拷贝数变化的单个细胞转录组成为可能,这些分析能够协助描述组织中复杂的调解网络以及细胞类型的原位鉴定。 大多数的人体组织较厚,而且不透明。那么有没有一种方法让人们能够在保持组织原样的同时,对特定细胞进行定位和观察呢?2013年4月,斯坦福大学的karl deisseroth在《自然》杂志上发表的rity技术,可以使小鼠组织透明化[46]。通过rity,人们能够在器官中定位目标细胞的三维位置。rity的诞生使人们走进了器官图像分析的新纪元,改变了人们对器官内部的认知。 结合组织学和化学工程的工具,研究者们开发了一套不通过切割小鼠的大脑便能解析其三维复杂性和分子表达的方法。整个技术的核心是将小鼠大脑中的脂质置换成水凝胶聚合物。将小鼠的大脑放置于水凝胶单体的悬浮液后,大脑本身就会通过一种类似于石化的过程产生水凝胶聚合物,而且这种聚合物不会和脂质相结合。将脂质通过电泳过程移除之后,就会留下一个三维透明的大脑,且保留了所有的重要结构,如神经元、轴突、树突、突触等。 rity使人们能够对大脑进行完整的细节化的结构研究,对于了解健康和疾病状况下的大脑功能具有重要的意义。目前,rity已经被用于小鼠的大脑、胰腺、肾脏、肺、肠道和肝脏的研究中,但是对于具有很多非细胞基质组成的器官(如皮肤、齿龈等)的研究,rity仍具有局限性。 除了上述技术,神经科学研究者也将神经科学常用的电生理技术与测序相结合。膜片钳测序(patch-seq)在2015年由贝勒医学院和卡罗琳斯卡学院的andreads tolias和rickard sandberg共同发表在《自然·生物技术》杂志上[47]。在过去的几十年中,科学家们一直在利用一种叫作全细胞膜片钳的技术来测量神经细胞的电活动,比如神经元产生神经冲动时的独特的电位变化。然而,每个神经元之间的基因表达水平是不同的,之前并没有能够将单细胞的基因差异和膜片钳记录相结合的研究方法。在很长的一段时间内,想要研究神经元的细胞生理活动和基因表达之间的关系是一件很困难的事情。 pathc-seq是一项将膜片钳记录与单细胞rna测序相结合的技术,能够被用于同时研究单个神经元的形态学、生理学和基因表达图谱等。通过追踪电生理特征,研究者可以侦探到具有特点的目标细胞,随后用膜片钳吸管将细胞内容物吸出,进行rna测序。对于神经细胞研究而言,patch-seq技术能够对目标细胞进行精确的内容物提取以研究神经元的多样性,对神经系统中复杂的细胞类型的分类研究有极大的帮助。 细胞图谱的意义重大,可以说是继人类基因组测序之后的又一个“兵家必争之地”。现在的局面是顶尖研究所三足鼎立:桑格研究所、布罗德研究所和新秀biohub。 桑格研究所是一家位于英国的研究机构,其利用基因组测序技术来推动人类对生物和疾病的认知,以改善人类的健康。1993年10月4日,当时还被称为“桑格中心”的桑格研究所在英国创立,创立之初,整个机构仅有不到50名员工,如今所有园区的员工数量已经超过3000人。以建设大规模的世界级研究中心为目标,桑格研究所用20多年的时间,从最初的测序中心发展到基因组研究领域的行业领先机构。作为一家在遗传学领域世界领先的研究机构,桑格研究所旨在对人类病原生物学研究提供能够改变目前生物医学现状的思想[48]。 桑格研究所的细胞遗传学研究项目侧重于探索人类细胞中的基因组差异,以及在健康和疾病状况下的基因功能变化。他们实施了一个大规模的系统化基因筛选,目的是探索在自然状况和人工编辑状况下人类诱导多功能干细胞的基因变化,以及它们的分化衍生过程和其他细胞类型[49]。目前,这个项目正在研究参与感染、先天性免疫、代谢过程的细胞类别(如巨噬细胞、肝细胞、胰岛b细胞等),并且正在计划开展一项全面反映人体内细胞类别和功能的研究项目,以帮助人们更深入地了解、诊断、治疗、监测人类疾病。 细胞遗传学项目将使用来自已知健康状况的100多名受试者的多功能诱导性干细胞,使其分化为巨噬细胞、肝细胞、胰腺细胞等。通过分化后的细胞探索在宿主与病原之间的相互作用、先天性免疫反应、代谢反应过程中的细胞水平的变化。研究者们将来自细胞遗传学的结果和来自功能基因组学的数据相结合,利用创新型的算法来研究基因调控的机理,以帮助解释疾病之间的差异。利用单细胞研究的技术,科学家们计划建立一个全面反映人体内每个细胞的表观遗传学和转录组学的参考遗传图谱。同时,他们还计划开发一项基于crispr-cas系统来全面检测基因组层面的编码蛋白基因和长链非编码蛋白rna的技术,以探索基因组成分对细胞表型的影响。这项计划将开发和改善一系列创新性的工具,以更加全面地分析单细胞研究的数据。 位于美国波士顿剑桥的布罗德研究所是细胞图谱计划的发起者之一。布罗德研究所起源于来自哈佛大学和麻省理工学院的科学家们数十年的非官方合作。1995年年初,来自麻省理工学院怀特海德研究所的科学家们意识到将遗传学应用于人类疾病研究的必要性,这促成了一些遗传性医学研究的初始项目,也促使哈佛大学和麻省理工学院在癌症和人类遗传学方面开拓新方法的科学家们形成了一套高效的合作网络[50]。随后,1998年哈佛医学院成立了化学与细胞生物研究所(b),以帮助实现将化学基因组作为未来了解人类生物学和疾病的工具的目标。 这些项目说明了具有不同背景的研究者齐心协力解决分子医学问题中的重大挑战的重要性。由此可见,一个新型的正式的合作机构是十分必要的,它需要具有开放、合作、多学科交叉、能够组织任何规模的科研项目的特点。更重要的是,哈佛大学和麻省理工学院的遗传学家和生物化学家们能够互补合作,将基础的分子研究理论转化为对人类疾病的新型研究。2002—2003年,创始人依莱、埃德斯·布罗德和哈佛大学及附属医院、麻省理工学院、怀特海德研究所的研究者们勾勒出了这个新型研究机构的雏形。2003年,在依莱和埃德斯·布罗德的捐赠下,布罗德研究所正式宣告建设,并于2004年5月建成。截止到2014年,布罗德研究所总计获得超过了10亿美元的捐款,成为生物医学研究的领头者。 布罗德研究所的人类细胞图谱计划把来自世界各地的生物学家、临床医师、物理学家、计算机科学家、软件工程师和数学家们汇集起来。这些科学家们将各自不同的专业知识相互结合,为了一个共同的目标——建立全面的人类细胞遗传图谱而相互合作。只有建立了这个能够解析不同细胞类型的图谱,精确定位人体中的所有细胞,分析它们的基因表达水平,我们才能准确地描述所有的细胞活动,了解细胞网络结构。一个全面的细胞图谱使鉴定所有的细胞类类型(甚至亚型)、定位细胞的空间位置、区分不同的分化阶段和细胞状态成为可能;还使研究者能够追踪细胞谱系,比如追溯红细胞在骨髓中的干细胞来源。细胞图谱计划将会帮助鉴定不同疾病的生物标记物和各类特征,为各类疗法提供新的靶点目标,为人类生物学研究提供一个全新的视角[51]。 2016年,facebook首席执行官扎克伯格和他的妻子陈丽霞捐赠6亿美元创立了biohub,以推动加利福尼亚州湾区生物医学的合作和发展。这是扎克伯格及妻子投资的第一项科学慈善机构[52]。新秀biohub将融合来自加州大学伯克利分校、斯坦福大学和加州大学三藩分校的科学家们来推动人类疾病的研究。biohub的创立目标是帮助治愈、预防、操控人的一生中所有的疾病,创立未来生命科学研究的新蓝图。所有biohub的科学家、研究院和工程师们将尝试破解人类疾病的复杂性,并为治愈疾病提供新的方法。除了合作和科学研究之外,biohub的另一个使命是培养青年科学家成为行业的领头人。 扎克伯格和他的妻子陈丽霞将细胞图谱研究作为其30亿美元医疗研究捐赠的首个目标。人类细胞的未解之谜是很多疾病发生的根源, biohub的细胞图谱项目将通过研究健康人类中细胞工作的方式,尝试揭开这些谜团。其研究的重点更加侧重于在疾病发生时这些细胞发生的反应,以描述细胞在疾病刺激下的内部机理变化[53]。 让我们期待细胞图谱为医学科学带来新的突破! 专家点评 徐迅 华大基因研究院院长,国家基因库执行主任。 细胞是组成生命的最基本单位。人体细胞究竟有多少种类,不同种类的细胞如何实现不同的功能,当疾病发生时这些细胞发生了什么样的改变?现有的知识将细胞分为400多种,但究竟有多少种谁也说不清楚。随着单细胞技术,尤其是大规模单细胞测序研究的开展,越来越多的新的细胞亚型被鉴定出来。人体细胞图谱计划试图在基因表达水平精确地定义人体的每一个细胞,如同人类基因组计划那样全面透彻地解读人体细胞“天书”。 第一个单细胞转录组研究是采用微阵列芯片技术完成的,而第二代测序技术的出现使转录组研究进入了一个被称为“rna测序”的阶段。从2009年至2017年将近8年的时间里,单细胞转录组技术飞速发展,特别是基于纳米微升的droplet技术将单细胞rna测序的成本降低到一个市场可以接受的水平。就是在这样的背景下,桑格研究所和布罗德研究所牵头发起了“人体单细胞图谱”计划,并且获得了chan zuckerberg initiative基金会的大力支持。据悉,第一批资助计划将很快进入实际申请阶段。 尽管人体单细胞图谱计划还处在孕育的早期阶段,但我们已能触摸到即将带来的巨大变革,而这个变革将不亚于人类基因组计划。首先,疾病的诊断模式将迎来全新的飞跃。人体单细胞图谱提供了健康人的完整细胞目录,而疾病细胞通过单细胞rna测序找到的与“已知目录”的差异信息将成为疾病诊断的重要线索,最终迎来一个“人体疾病细胞图谱”,让疾病能够在更早期就被诊断出来。其次,药物研发的速度将加快而成本将下降。对于已知靶点的药物,借助人体单细胞图谱的信息,将更容易通过大数据方式预测该药物的副作用,甚至针对特定病人精确地预测其是否有可能出现严重的诸如肝肾功能衰竭等副作用。 人体单细胞图谱是一个极其“大胆的”计划,想要切实落实并最终获得高质量的图谱,仍面临许多挑战。众多的世界顶尖的实验室将加入其中,如何建立标准化的操作流程,使来自不同实验室的数据可以有意义地被整合,是首当其冲需要解决的问题。 专家点评 曹虎 科特勒咨询集团(kmg)中国区总裁。 “如果你想用一个世纪的时间来寻找治疗疾病的方法,最好先把重点放在基础研究上,因为你根本无法预测这些治疗方法从何而来!”科学慈善联盟主席(science phnthropy alliance) marc kastner在给cz biohub的建议中如是说。而且chan 和zukerberg接受了这个建议,并且制定了一个宏伟的计划:人类细胞图谱(te cell as),旨在对人体内的每一种细胞进行单细胞测序,描绘其分子特征。作为一个开源的项目,人类细胞图谱产出的数据将向所有研究者开放。它显然将对新药的研发、新治疗手段的产生发挥重要的促进作用,同时在这个项目的开展过程中产生的新技术很可能开启很多基础研究和临床研究的新篇章。 从技术上看,今天的单细胞测序技术仍然面临着至少4个方面的挑战:有效的单细胞分离;基因组扩增;测序价格;有效的数据解读。虽然单细胞测序已经在辅助生殖领域进入了初步的临床应用阶段,但是目前的数据准确性、检测周期和价格都还是临床推广的瓶颈。cz biohub的联席主席斯蒂芬·夸克(stephen quake)显然是这个领域的翘楚。夸克将利用细胞微流体进行单细胞分离;利用超快、高效的测序仪,极大地降低测序成本、极快地提升测序速度;使用基因组编辑(如crispr)进行单细胞的标记和追踪技术,基于基因活动来定位人体器官中的各种细胞。相信这些技术将在项目的推进过程中逐渐迭代,将来很有可能发展成适合在临床开展的临床检测项目,满足目前无法满足的临床需求。比如目前在肿瘤的液体活检领域,ctc(循环肿瘤细胞)已经作为成熟的检测手段用于肿瘤的复发监控。但是目前还没有办法分析ctc的基因组,了解其异质性并针对其突变情况精准用药。而用于人类细胞图谱的技术将满足这个临床的需求。再如,目前很多的肿瘤患者无法判断其原发灶的组织来源,通过对肿瘤患者进行单细胞测序,检索人类细胞图谱,临床医生将很容易判断肿瘤细胞的来源并制定更精准的治疗方案。在遗传疾病领域,我们已经知道很多遗传疾病存在基因嵌合的现象。夸克位于斯坦福大学的实验室最近就发现了由于5a基因嵌合导致的长qt 综合征。 正如17年前的人类基因组计划催生了今天正在蓬勃发展的精准医疗产业,人类细胞图谱必将把基础研究、新药研发、临床研究和分子诊断带入一个全新的境界。 专家点评 田埂 元码基因联合创始人,曾任清华大学基因组与合成生物学中心主管,华大基因华北区第一负责人,天津华大创始人、总经理,深圳华大基因研究院研发副主管。 意义堪比人类基因组计划的人类细胞图谱项目,将破译出人体中每个细胞的类型和特性,构建健康人体的参考图。人类细胞图谱是生命科学领域很长一段时期以来最为振奋人心的提案。对于健康和疾病而言,细胞是生命最基础的组成部分,只有对细胞有清晰的了解,才能够了解病理机制,提供有效的治疗方案。这一项目的完成对整个人类来说无疑具有非常重大的意义,它使人类向真正的“个性化医疗”时代又迈进了一步。 细胞图谱项目是医学上一场革命的开始,但这场革命的成功将需要更长的时间。有可能“理想很丰满,但现实却很骨感”。单从技术层面上看,不断发展的科学技术完全可以支持细胞图谱绘制的实现,如细胞微流体、高效的测序仪和先进的标记及染色技术等。从经济角度上看,现在的测序成本已经低至1个细胞6美分,人类对自身研究的需求远远可以让这个价格显得微不足道。 细胞图谱是一项基础工程,对于这项技术的复杂度和工作量,不同的科学家在认识上还存在着一些分歧。有的科学家认为人体内细胞的种类和数目繁多,有的还存在众多亚型,使得人类细胞图谱项目比人类基因组计划有更多的未知难度和更大的工作量。对此我们则持乐观的态度,“莫道浮云遮蔽日,严冬过尽绽春蕾”,实验科学永远要在做了之后才能真正地挖掘出意义。细胞图谱对于科学体系与细胞机制的推动会在未来百年之内不断发酵和沉淀。我们相信,通过完成这项有着革命性意义的工作,会让人类细胞图谱项目成为21世纪最耀眼的注脚之一。 self-driving trucks 自动驾驶货车 未来,自动驾驶货车将在高速上与其他车辆并驾齐驱,美国170万名货车司机又将何去何从? 撰文:大卫·h·弗里德姆(david h.freedman)、许可 突破技术 可以在高速公路上自动驾驶的长途货车。 重要意义 这项技术的发展将帮助货车司机更高效地完成运输任务。但这一岗位的薪酬可能会因此下降,货车司机最终也将失业。 技术成熟期 5~10年 主要研究者 -otto -沃尔沃 -戴姆勒(daimler ag) -皮特比尔特(peterbilt) -百度 未来,自动驾驶货车将在高速上与其他车辆并驾齐驱。那么,美国的170万名货车司机将何去何从? 近年来,自动驾驶货车产业得到了迅猛发展。使用这种货车运送物资安全、节能,并能节省很多司机成本,有望在未来彻底颠覆传统运输产业。但技术往往是一把双刃剑:这一技术的发展将会带来一系列道德和伦理上的问题,政府和公众也因此对该技术保持警惕。 只要按一下方向盘右方的红色按钮,驾驶权就会立即回到司机手中 自动驾驶模式开启后,货车只能在道路的最右道行驶。这时,司机可以到驾驶室的后排休息 在美国的得克萨斯州,货车司机欧曼·马格里耶夫(oman mugriyev)正驾驶着18轮长途大货车在双向高速公路上平稳行驶。这时,对面的一辆汽车不知为何驶入了他所在的车道,朝他冲了过来。马格里耶夫的右边是沟,左边行驶着很多车辆,无法躲闪的他只得紧急刹车并连续按喇叭。这位司机事后回忆道:“开车教练曾经对我说,开车的第一要素就是不要伤到他人。” 遗憾的是,这辆偏离正轨的汽车最终还是和货车的前部相撞了——货车的前轴彻底损坏,汽车紧紧地卡在了货车上,马格里耶夫最终费了九牛二虎之力才将失控的货车稳住。这时候马格里耶夫发现,汽车上的司机已经丧生了。这场事故不禁让我们想到,比起人,自动驾驶汽车能在危机关头做出更好的选择吗?还是说,会出现更糟糕的情况?如今,已经有好几家公司正在测试自动驾驶货车,在未来的几年内我们有望找到问题的答案。 尽管还有很多技术难题没有解决,但支持者认为自动驾驶货车更安全、成本更低廉。“自动驾驶货车常常比我自己的开车技术要好。”从业40年的货车司机格雷格·墨菲(greg murphy)说。他现在是自动驾驶公司otto的备用司机,在对自动驾驶货车的测试中,他负责在车辆出错时予以纠正。 乍一看,自动驾驶货车所面临的机遇和挑战与一般的自动驾驶汽车没有什么不同,然而事实远非如此——货车不仅仅是“加长版”的汽车这么简单。使用自动驾驶货车在经济上的合理性可能更甚于普通的自动驾驶汽车。 这是货车司机欧曼·马格里耶夫, 他对自动驾驶货车在危险关头能否应对自如还有很多疑问 长途老司机格雷格·墨菲, 他负责在测试中监控otto货车自动驾驶的情况 2014年,初创公司peloton technology的一次测试便证明了这一点。在这次测试中,该公司研发的自动驾驶系统被装载在两辆货车上,前一辆货车的司机正常驾驶,后一辆货车在有些时段会由计算机操控,司机不必时刻担负开车的任务。两辆车一个在前一个在后,保持着10米的安全距离,只要前车司机踩了刹车,后车也会立即制动以避免撞车。这种将货车组成“队列”的方法可以减少货车承受的风阻,由此达到节油的目的。据悉,前车、后车减少的用油量分别为4.5%和10%,一年下来能节省约10万美元的油费。该技术成熟以后,将更多的货车组成队列会帮货运公司进一步削减成本。该公司称,这套系统会为司机提供更多的路面信息,而且雷达可以在危急关头自动启动刹车——这无疑将提升货车的安全性。 otto声称自己并不打算用自动驾驶系统完全取代司机——至少在接下来的10年内这都不可能实现 除peloton technology外,欧洲的一个sartre (safe road trains for the environment, 汽车公路自动安全列队驾驶)项目从2009年就开始探索“货车队列”技术;日本政府出资的energy its计划也于2007年起开始研究半自动和全自动的“三辆货车队列”;此外,美国的path计划也正在测试这项技术的可能性。 总的来说,这种让自动驾驶货车组成队列在高速公路上互相协作,从而在长途运输中减少风阻和节省汽油的方法已经有了多年发展,旨在帮助司机更快、更安全、更节能地完成运输任务。 然而,自动驾驶货车要比自动驾驶汽车面临更大的技术难题:研发此类自动驾驶系统的公司需要证明自动驾驶货车可以借助传感器和代码达到一位专业货车司机的水平,在路障频频出现、路面坑坑洼洼和遇到不遵守规则的车辆时都能应对自如,而自动驾驶货车能够达到这样的水平吗? 行业领头人otto 研究自动驾驶系统的otto公司总部,位于旧金山南市,该区的其他科技初创公司都已经对办公室进行了很大的改造,但otto只是把一个家具仓库改造成了一个车库和机械制造厂,改装的货车零件到处都是,修理工具和计算机毫不违和地摆放在一起。otto年轻干练的产品经理艾瑞克·博迪尼斯(eric berdinis)骄傲地说:“我们不追求‘高大上’的办公室。” 接着,博迪尼斯向我们展示了该公司最新一代的传感器和处理器阵列,这些硬件已经被安装在沃尔沃半挂式卡车上。在过去一年的测试中, otto生产的硬件被安装在货车外部,给货车的外观“大大减分”,但新一代的传感器和处理器阵列被安装在车内,很自然地和驾驶室融为一体。全套设备包括4个面向前方的摄像机、雷达和1个加速度传感器(博迪尼斯说这种加速度传感器的质量已经达到了政府允许的最接近导弹标准的程度)。 otto的关键技术是一种激光雷达系统,该系统使用脉冲激光器来记录货车周围环境的详细数据。otto从第三方购买激光雷达,成本在10万美元左右。但是该公司已经成立了一个团队,旨在制造otto自己的激光雷达,并将成本控制在1万美元以内。 驾驶室内有一个液冷式的定制微型超级计算机,大小跟面包箱差不多。“这是在相同体积里计算量最大的计算机。”博迪尼斯说。这台计算机将会处理来自传感器的海量数据,然后通过制导算法,根据货车的载货量调整刹车和转向指令。这个硬件系统的最后一环是利用电子线控技术,将计算机输出的指令转化为货车的机械动作。这一环的执行借助了机电作动器,它们被安装在货车的转向、节流和刹车设备上。驾驶室内还有两个红色按钮——otto将它们称为“大红钮”——只要一按,自动驾驶功能就会被关闭。不过,即使没有这个关闭功能,只要司机在驾驶席稍微转一下方向盘,或者重重地踩一下刹车,货车就会“乖乖照做”。 otto于2016年创立,安东尼·莱万多夫斯基(anthony levandowski)和利奥尔·罗恩(lior ron)是4位创始人中的两位。前者曾为谷歌的自动驾驶汽车团队效力,后者曾是谷歌地图的负责人。截至目前,谷歌自动驾驶汽车已经在美国多个州行驶了超过200万英里(约3218688千米)。对莱万多夫斯基和罗恩来说,借助在谷歌工作时积累的大量经验,创立一家自动驾驶公司是很自然的一件事。实际上,沃尔沃、戴勒姆和皮特比尔特都在研发自己的自动驾驶货车技术。 2016年,otto的自动驾驶货车成功地完成了运输百威啤酒的任务 对自动驾驶技术感兴趣的不仅仅是货运公司, uber这家打车公司也在2016年8月收购了otto(据报道收购价高达6.8亿美元)。博迪尼斯说,收购以后,otto团队可以和uber的500多位工程师合作,共同研发自动驾驶技术。莱万多夫斯基如今成了uber该技术研发团队的负责人,他表示uber的目标是创建一个强大的自动运输交通网,让人和货物在多地之间的交通更加方便、安全且成本更低。 比起福特、宝马和alphabet专注于研发自动驾驶汽车的做法,otto认为大力投资在高速公路上行驶的长途运输货车更为明智——这项技术能更早实现商业化。与城市道路相比,高速公司上没有十字路口或人行横道,这意味着自动驾驶系统不用做太多驾驶上的选择。此外,绘制3d地图的难度也大大下降了——毕竟,高速公路比城市道路的路况要简单得多。 主攻自动驾驶货车的另一个好处是,设计人员的压力大大减轻了。为汽车设计自动驾驶系统时,设计人员常常需要考虑缩小传感器和计算设备的体积,以免过于影响车身的美观。而且他们还得尽量压缩设备的成本,毕竟汽车本身的价格就不高,如果设备价格过高,就很难说服用户购买。然而,设计自动驾驶货车就没这么多顾虑——货车本身的体积就大、价格也高,设备再大一点、价格再贵一点也无可厚非。 目前,otto的自动驾驶技术只在7辆长途运输货车上得到了应用,但该公司愿意免费为更多的货车主提供硬件,让他们进行自动驾驶测试,亲身感受这项新技术的神奇。博迪尼斯说,otto正在努力降低技术成本,让客户仅花3万美元就能用上他们提供的硬件,这样一来,客户在1~2年就能收回成本。“未来,我们希望政府规定让所有货车都使用自动驾驶技术,货车制造商在设计时也要将这项技术考虑在内。”博迪尼斯说,“新一代货车的开发周期一般在8年左右,不过我们不会让用户等那么久。” 货车司机的工资会变少吗? 2016年10月,一辆装载了otto设备的自动驾驶货车将2000箱百威啤酒从科罗拉多州的科林斯堡(fort collins)运到了科罗拉多泉(colorado springs),全程行驶了200千米。而自始至终,车上唯一的真人司机都在驾驶室后排坐着,一刻也没有碰过方向盘。 此图片由otto公司提供 这是自动驾驶货车第一次完成商用运输任务——这个里程碑事件无疑向世人证明了这项技术的巨大潜力,但同时人们也意识到了它的局限性。首先,这项技术还无法让货车在狭窄的田间土路和城市道路上自动行驶:上高速公路前,驾驶权会在货车司机的手里,直到货车已经行驶在高速公路上才能切换为自动驾驶模式;此外,货车下高速公路时自动驾驶系统会停止,将驾驶权交还给司机。在测试过程中, otto还派了一辆车为货车保驾护航。和货车一样,这辆车也位于最右边的车道上,它一直行驶在货车的前面,以防止其他车辆变道来到货车的前方,阻碍货车的行驶。此外,几名otto员工和科罗拉多州巡逻队队员也坐在附近的其他几辆车里,随时监控货车的驾驶情况。 在otto的其他几次测试中,都有一位像格雷格·墨菲(greg murphy)一样的职业货车司机在驾驶席上待命,即使货车已经行驶在高速公路上,他们也随时准备着拿回对货车的控制权,在关键时刻避免事故的发生。此外,副驾驶席上还会坐一位otto的员工,他会在路面有垃圾或施工的路段按下“大红钮”以结束自动驾驶模式。“我会把手一直放在方向盘上,而且我得全神贯注,随时准备接下开车的任务。”墨菲说,“这比我平时开车还累。”(otto曾邀请《麻省理工科技评论》的记者坐一次自动驾驶货车,亲身体验这项技术。但预约时间快到的时候,他们却告诉记者:员工把预约时间记错了,当时所有的货车都有另外的任务。这次爽约可能是因为那天早上的瓢泼大雨——这种恶劣天气会扰乱自动驾驶系统——但otto坚持称是记者想多了。) 实际上,otto并不打算用自动驾驶系统完全取代司机,驾驶室里还是要有一位司机存在。博迪尼斯说:“要研发出完全不需要人的自动驾驶货车至少还要10年。但otto旨在为货车司机减负,让他们在行驶时能够放松一点,做做别的事情,甚至打个盹。”而这体现了自动驾驶货车在节约成本上的优势:法律规定,司机一天最多驾驶11小时,一周则是60小时。考虑到一辆新货车15万美元的成本,以及在运输物资的过程中司机停下来休息的时间成本,能够24小时工作的自动驾驶货车无疑将极大地削减运输成本。 此外,使用自动驾驶货车还会在其他方面降低成本。美国的高速路总长为23万英里(约370149千米),在货车长途运输中,油费占了大约1/3的成本。尽管有些司机是节油的高手,他们懂得如何用最少的油跑最远的距离,但还有很多司机习惯于重踩刹车,并不把节油放在心上(博迪尼斯说,最优秀的司机要比最糟糕的司机节油30%)。otto的设备旨在解决这个问题——受程序控制的设备会帮助货车保持在最佳的速度和加速度下行驶,以达到节油的目的。 除此之外,自动驾驶货车可能会减少交通事故的发生。在美国,货车、巴士车祸每年会夺走4000人的生命,而约1/7的货车死伤事故都与司机疲劳驾驶有关。此外,超过90%的事故都和司机的失误脱不了干系。诚然,我们还不知道自动驾驶会在多大程度上避免失误的发生——而且自动驾驶也可能会带来其他的问题——但自动驾驶测试已经证明了这项技术可以降低失误的发生率。 只要自动驾驶货车还需要真正的司机坐在车上,司机这个岗位就不会消失。从某种意义上来说,做这份平均年薪在4万美元左右的工作可能会变得更轻松。上述那位在得克萨斯州遭遇车祸(不过后来警方判定他并不是过错方)的司机马格里耶夫曾表示:“像现在这样一天开11小时的车压力太大了,我感觉自己身心俱疲。”博迪尼斯补充道,除了可以在驾驶室里小憩和休息、把驾驶的任务交给自动驾驶系统外,司机还能趁着这段空闲时间处理文书工作,寻找回程时的新运输任务、与家人朋友聊天或者学一门新手艺。“司机在做这些事情的同时,还能拿到货车司机的工资。”他说。 这样一来,企业招聘和训练货车司机的压力也能得到减轻(货车司机在美国和欧洲大量稀缺)。据美国货车协会调查,美国目前缺少近5万名货车司机,而且在未来的8年内这个数字还将飙升至90万。沃尔沃货车的产品安全负责人卡尔·约翰·阿尔姆奎斯特(carl johan almqvist)曾透露:“一些客户甚至对我们说,如果我们能提供司机,他们愿意从我们这儿买10辆货车。” 自动驾驶货车的其中一个拥护者是俄亥俄州政府,他们意识到这种技术将会让货运公司和司机都大大受益。俄亥俄州可谓是货车司机的大本营——有7万名司机都来自该州。俄亥俄州政府斥资1500万美元在哥伦布市建造了自动驾驶货车的测试道——一条35英里(约56.33千米)的高速公路。美国货车协会和俄亥俄货车协会都曾公开表示,自动驾驶货车会让货车司机受益。 这项技术不仅能让货车司机这个岗位变得更吸引人(因为工作量大大下降了),也能让货运公司在司机没空时指示计算机接下开车的任务。不过,如果自动驾驶被广泛接受,社会普遍认可“以机器代替司机”这种模式,那还有必要继续雇佣司机吗?毕竟,雇佣司机的成本占了货车运输总成本的1/3。 在可预见的未来,即使司机仍然在驾驶室里有一席之地,他们是否能拿到和现在同等的薪酬也是个未知数。如果司机仅仅是在驾驶室里待着而没有开车,那么公司应该支付他们多少薪酬呢?截至目前,还没有任何法律法规说这种“轻松”的工作方式也应获得报酬。更重要的是,让货车24小时连续工作会帮助货运公司节省很多成本,于是它们可以收取更低的费用以获取更多的客户。这样一来,司机的薪酬也可能会跟着下降。马格里耶夫对此表示了自己的担忧:“如果运输费用因这项技术的发展而减少了,货运公司就有底气对司机说:‘既然你的工作量减轻了,我们也就不用支付你那么高的薪酬了。’” otto在旧金山的设备 安全问题 otto的技术能够足以保证重达40吨的货车安全地在高速公路上完成运输任务吗?实际上,一旦自动驾驶系统出现失误,即使有一位司机坐在驾驶室里也无法确保安全。因为otto自己也估测,司机从驾驶室后面重新坐回驾驶席可能需要花30秒之久。 otto运输百威啤酒时有一个不为人知的小细节:otto员工和警察开车紧跟着自动驾驶货车,为其保驾护航 不过,谷歌对自动驾驶汽车的探索还是非常振奋人心的:在延续7年、长达百万千米的测试中,该公司研发的自动驾驶车只发生了20起撞车事故。不仅如此,这其中只有一起事故是自动驾驶汽车因为失误导致的:这起事故发生在汇流路段(这正是otto的测试中把驾驶权交回司机的路段)。 尽管如此,谷歌的成功也不代表自动驾驶货车能达到同样的安全标准。就像博迪尼斯指出的那样,货车无法像普通的汽车一样灵活地转向以避免交通事故。货车的局限性还包括:在货车高速行驶时,快速猛打方向盘会导致货车摆尾甚至折裂;此外,在货车以每小时90千米的速度行驶时,从踩下刹车到货车停下要经历一个橄榄球场的长度;货车离所在车道的车道线只有15厘米的距离,这意味着货车在躲避障碍物时只要稍稍转向就会偏离所在车道。“很多为自动驾驶汽车设计的躲避算法根本无法用在货车上。”博迪尼斯说。 不过,otto针对安全问题对系统做出了很多改进,其中一项是让自动行驶的货车彻底停稳以后再让司机接手。由于人很难在没有准备的情况下就进入开车的状态,因此让司机在货车行驶的中途就拿回驾驶权是非常危险的做法。 加州大学伯克利分校的研究员史蒂文·施多弗(steven sdover)曾表示:“otto的确解决了很多技术难题,但新的问题也应运而生。比起2吨重的小车,40吨重的货车如果因为自动驾驶系统失误而失控,引发的后果要严重得多。而发生这种事故的可能性会让公众和政府都对这项技术保持警惕。” 好消息是,装在货车驾驶室顶部的传感器可以在高处查看前方路况。不过即使是最先进的传感器也不能确保提供的数据是准确无误的。强烈的阳光可能会让摄像头暂时“失明”;尽管近几年迅猛发展的机器学习已经让计算机能够识别大量的视频图像,但有时还是会把路旁的车和巨大的指示牌、小孩和小动物弄混;下雪、结冰和沙尘等恶劣天气也可能扰乱自动驾驶系统。 此外,传感器无法像人一样解读附近车主的面部表情和手势,因此无法做出其他车辆会如何行驶的判断,只有极少的自动驾驶系统能够将搭便车的人与示意车辆停下的施工人员区别开来。最重要的是,开发人员不可能将货车遇到的所有情况都考虑到,所以他们所写的算法也不可能包括货车在所有情况下的对应动作。因此,在某些罕见的情况发生时,计算机得自己做出判断--能否合理应对极端情况是自动驾驶货车能否安全行驶的关键。 一些学者针对自动驾驶系统犯错这种可能性也提出了警告。卡内基·梅隆大学美国国家机器人工程中心的主任赫尔曼·赫尔曼(herman herman)对自动驾驶技术车辆的普及保持乐观,但他也表达了自己的担忧:“如果你的个人计算机上的网页浏览器发生了卡顿,你肯定不会担心,大不了关掉重开。但当一辆自动驾驶货车行驶在六车道的高速公路上时,如果计算机错误地指示货车变道,那后果将不堪设想。” 赫尔曼还补充道,自动驾驶货车产业的扩张不一定是好事。路上有几辆自动驾驶货车可能没什么大不了,但如果有几十辆、几百辆无人操控的货车呢?自动驾驶货车上装载的激光扫描器可能会互相干扰,而且传感器上粘了一粒灰尘都可能造成大麻烦。此外,如果这些货车都和云端连接,那么极高的带宽也需要配置到位。最关键的问题是,我们很难去衡量一辆自动驾驶车辆的安全性。 虽然自动驾驶汽车在多数城市道路测试中都成功地完成了挑战,但高速公路上的车辆速度快,转向也不如城市道路方便,货车的弱点可能会成为普及自动驾驶货车的障碍。沃尔沃货车的阿尔姆奎斯特也说:“我们至今无法解决这些问题。”重型货车司机在正式担负运输任务前,通常会在驾校接受数月的训练,并在老司机的指导下试驾数千千米。因此,让自动驾驶系统达到货车司机的驾驶水平比让它达到轿车司机的水平更难。比如,马格里耶夫可以在前轴受损、货车前卡着一台撞烂的轿车的情况下将货车停下,而自动驾驶系统也能拥有同样高超的驾驶技术吗? 出于安全上的考虑,沃尔沃暂时不打算让自动驾驶货车在公共道路上行驶,不过该公司计划使用这类货车完成私人场所内的运输,如矿井和码头。阿尔姆奎斯特说:“在公共道路上,我们将利用这项技术为司机提供支持,而不是试图取代他们。”迄今为止,社会对这项新技术的接受度仍是沃尔沃的心结。这家公司有时会在测试自动驾驶货车时记下过往车辆的车牌号,然后找到这些车主,询问他们对该技术的看法。 otto的博迪尼斯对自动驾驶技术面临的挑战直言不讳,但他坚称otto的技术正在迅猛发展,解决一个个难点并非不可能。他表示:“只有当我们的自动驾驶技术已经成熟到完全不需要司机立即做出反应的时候,我们才会正式开始用自动驾驶货车送货。” uber凭借着消费者的青睐先占据了市场,然后再和监管者博弈。而otto就没有这么好的运气了,该公司需要说服监管者,让他们相信该公司的技术能保证货车安全地完成运输任务。 2016年9月,美国政府发布了一系列针对自动驾驶车辆的指导意见,这份文件透露出了政府让该产业自由发展的态度。但与此同时,美国国家公路交通安全管理局(nhtsa)表示将取缔不符合安全规定或“太超前”的自动驾驶系统。 由于该产业的前景尚不明朗,博迪尼斯还强调, otto会严格按照规矩办事。 道德难题 斯坦福大学教授克里斯·格迪斯(chris gerdes)管理着一个研究自动驾驶软硬件设备的实验室,在一次活动中他曾描述过这样一个场景:如果一个小孩突然冲到一辆自动驾驶货车前,自动驾驶系统该如何应对?是变道朝着迎面而来的货车驶去,还是保持方向不变而把小孩撞倒? 格迪斯说:“如果选择变道,小孩可能因此得救,但变道意味着和货车相撞,那么车上的乘客可能会丧生。到底应该拯救哪一方的生命?这是设计自动驾驶算法的人每天都要考虑的问题。” 针对这个问题,格迪斯与加州理工学院的哲学教授帕特里克·林(patrick lin)展开了合作,共同研究自动驾驶技术产生的道德难题。两位教授在2015年年初于斯坦福大学组织了一场研讨会,邀请了许多哲学家和工程师对这个话题发表看法。他们还为自动驾驶系统设计了针对不同情况的应对措施,然后进行场景模拟以检验车辆是否会按照算法执行设计好的动作。 随着该技术的不断发展,自动驾驶车辆会逐渐拥有理解复杂情况的能力,这就要求计算机在危急关头迅速地做出选择——这无疑会引发道德伦理上的争议。 然而,发展该技术带来的道德难题不仅局限于此,自动驾驶还可能导致大量的蓝领工人失业。比起一般的自动驾驶汽车,自动驾驶货车的普及会带来更大的社会动荡。实际上,“自动化给工人带来威胁”这个问题已经极大地影响了全球政治和经济格局。麻省理工学院的经济学家达伦·阿西莫格鲁(daron acemoglu)曾表示,自动化对就业的影响让政治家“措手不及”,该技术已经在包括制造业在内的多个领域“侵蚀”了人类的工作岗位。如果再来一个自动驾驶货车,蓝领工人的生活必定受到极大的影响。诚然,自动驾驶货车可能不会代替所有的货车司机,但这项技术必定会改变这个岗位的工作性质——而这种改变不一定被每个人都接受。 2016年12月末,美国政府在一份报告中指出,美国正面临着损失数百万个就业岗位的风险。这份由奥巴马总统的高级经济和科学顾问撰写的名为《人工智能、自动化以及经济》(artificial intelligence,automation,and the economy)的报告明确指出,飞速发展的人工智能和自动化技术将影响国民就业;报告还为即将到来的经济动荡提出了一系列冗长的建议。 该报告估计,自动驾驶技术的普及将影响220万~310万人的工作,其中有170万人是拖车和重型钻机司机。尽管自动驾驶有望为社会的进一步发展做出巨大贡献,但它也有不利于社会的一面:破坏就业结构、扩大收入的不平等并让受教育程度低的工人受到巨大的冲击。 虽然司机是否真的会被机器取代还是个未知数,但这份报告还是起到了警示的作用:它告诫人们,是时候考虑如何利用教育及劳工政策来挽救受到新技术冲击的人们了。 美国西北大学著名的经济史学家乔尔·莫基尔(joel mokyr)倾其毕生精力研究技术进步如何从根本上转变人与社会的问题,他曾表示:“在现在美国的制度下,我们从事的职业就是我们的身份,因为自动化技术而失业的人将会遭受痛苦与屈辱。” 遗憾的是,过去由于技术革新而掉队的一些美国人在很大程度上被忽略了——他们在社会、教育以及经济问题上并没有得到美国政府的多少帮助。据白宫报告,美国政府对帮助工人适应经济转型的项目的投入远少于其他发达国家,美国工人只能自力更生。在一群硅谷人士的带领下,一些观察家开始要求政府为失业人群提供“无条件基本收入”。然而白宫拒绝了这一提议,因为实行这种方案等同于“认为工人不可能再就业”。 美国著名智库之一的布鲁金斯学会(brookings institution)的高级研究员马克·穆罗(mark muro)则提出了所谓的“无条件基本福利”(universal basic adjustment beneft)。与“无条件基本收入”不同,无条件基本福利将包括专门为求职者提供的福利,为人们提供工资保险、工作咨询、搬迁补贴等帮助。 穆罗也坦言,政府不太可能在短期内提供这样慷慨的福利。但他认为特朗普的当选对很多人来说是一个警醒:很多人都因为技术的发展感到焦虑和失落,这场总统大选的结果与自动化技术的发展有着千丝万缕的联系。 行业竞争 在自动驾驶货车行业,otto不乏竞争对手。fed ex(联邦快递)这家快递巨头已和研究“货车队列”技术的peloton technology开展了合作。货车制造商戴姆勒已在内华达州和德国的公路上试行了自家的半自动货车,而沃尔沃也于2016年在瑞典的一个地下矿井展示了其生产的全自动工程车。此外,世界上最大的矿业公司必和必拓(bhp billiton)也开始在澳大利亚西部的矿场里部署了自动货车,加拿大最大的石油公司suncor则正式在阿尔伯塔省(alberta)的油砂矿上测试自动驾驶货车。 英国矿业巨头力拓集团(rio tinto group)在位于西澳大利亚州的west angs矿场拥有73辆日本小松公司生产的自动驾驶货车,它们使用gps进行导航,使用雷达以及激光探测器确保车辆前方的道路通畅。这些货车与自动钻探机合作,24小时不间断地从4个矿场往外运输铁矿石。同时,力拓还计划为连接矿场和港口的运输火车进行自动化升级,使它们可以自动驾驶、自动装卸。 小松自动驾驶货车:每一辆货车都有2层楼那么高,而且没有驾驶员 铁矿石出口商fmg集团(fortescue metals group)在旗下的矿场里也使用了卡特彼勒(caterpir)牌自动驾驶货车,这种货车是由美国国家机器人工程中心帮助研发的。该中心主任表示,因为“自动驾驶货车更容易被部署,而且矿场已经得到了严格监管”,所以这种货车可以在跑高速公路前用于矿场运输。 自动驾驶货车在矿场的应用再一次印证了这种技术在经济上的合理性:这种货车的持续运行时间要比人类驾驶的运行时间长得多,因为软件不需要换班或停下休息,货车执行停稳、装矿等动作也更容易预测。力拓集团高管罗布·艾金森(rob atkinson)表示:“在过去,因各方不协调而导致的延迟对我们的利润影响很大。”他还透露,该集团对自动驾驶货车和其他自动化项目的投资已经全部收回成本。数据显示,自动驾驶货车的运输成本要比人类驾驶产生的运输成本少15%;由于运输成本是一个矿场最大的开销,仅仅这一点就为其节省了大量的资金。艾金森表示:“我们将会尽最大的可能沿着这条路走下去。” 竞争逐渐白热化 随着自动驾驶产业的竞争逐渐白热化,成熟的公司与前员工成立的初创公司对簿公堂的例子也多了起来。2017年1月,特斯拉公司对其autopilot项目前主管施特林·安德森(sterling anderson)提出上诉,指控他与google自动驾驶前首席技术官克里斯·厄姆森(chris urmson)联合成立公司,并从特斯拉非法挖人。 而2017年2月底,alphabet(谷歌母公司)旗下的自动驾驶汽车公司waymo也宣称,其前员工安东尼·莱万多夫斯基(anthony levandowski)在离职前一个月从waymo公司的服务器上下载了14000个、共计9.7g的高度保密文件,其中包括lidar(激光雷达)主机板的相关设计方案。此外,waymo还表示,莱万多夫斯基并不是唯一一个下载过该公司机密数据的前员工。还有数名后来加入otto公司的waymo前员工也下载过“供应商名单、制造细节、技术说明等保密文件”。这一诉讼的关键人物莱万多夫斯基正是otto公司的创始人。 waymo自动驾驶汽车 waymo认定,uber的工程师正在使用莱万多夫斯基从waymo非法获得的技术文件为其自动驾驶车辆开发新的激光雷达传感器。据称, waymo的员工“无意间”看到一家为uber提供硬件设备的公司发送的邮件(之后被证实这家硬件设备公司在发送邮件时误将waymo员工放在了抄送名单中)。这封邮件包括详细的电路图,而该图的整体设计与waymo的激光雷达极其相似。 “waymo花费了多年时间来开发自己的lidar系统,而otto通过‘偷’来的技术,仅花了9个月时间就开发出类似系统。”waymo在诉讼声明中表示,“uber与卡内基·梅隆大学合作研发了18个月,还是没能开发出自己的lidar解决方案。直到 2016 年 8 月,uber通过收购otto最终获得该技术。” 在法院备案中,waymo表达了他们的不满:“otto和uber通过采用waymo的知识产权,极大地减少了它们自己开发相关技术需要耗费的时间、费用和需要承担的风险。”waymo现在急切地希望法院能够阻止otto和uber对其技术的占用,并要求otto立即归还相关文件。 面对这纸诉状,uber回应道:“这是为了拖慢竞争对手的无端指责!”一言以蔽之,这一诉状揭示了alphabet和uber之间愈加激烈的竞争迹象。两家公司围绕自动驾驶技术推出了各自的方案,相同的目标逼迫双方从商业到技术的各个方面展开争斗。 uber被指窃取技术,遭到诉讼 随着自动驾驶领域的竞争越来越激烈,如何留住人才和避免技术外泄成了一个大问题。waymo的优势在于其前期的积累,而且与竞争对手不同的是,waymo同时着手开发软件和硬件,以期将整套系统出售给汽车制造商,而不是只解决自动驾驶解决方案中的一个环节。 如果把waymo和otto这次的争议放大来看,双方的母公司google和uber曾经有着良好的合作关系。然而在过去的几年中,这种良好关系在快速恶化。很多业内人士曾认为,这两家公司能在自动驾驶共享出行领域通力合作,毕竟google ventures曾于2013年对uber注资2.5亿美元。然而uber不念旧情,毅然决定开发属于自己的自动驾驶技术,反倒成了google的竞争对手。 据 waymo 表示,诉讼中涉及的核心技术是lidar(激光雷达),这种雷达通过每秒发射上百万的激光束来对车辆周围的环境细节进行绘制。waymo声称,该公司已经投入了上百万美元对激光雷达的硬件进行优化,以尽量降低自动驾驶的成本,然而莱万多夫斯基却将这些研究成果带去了uber。 要想让一辆自动驾驶汽车清楚地知道自己现在在哪里、眼前有什么障碍物,除了精确的gps外,还需要“多传感器融合”。目前,主流的技术硬件设备包括成本低廉的毫米波雷达加摄像头,或者再搭配昂贵的激光雷达。 目前而言,特斯拉采用的是毫米波雷达加摄像头的方案:由毫米波雷达探测障碍物,并由照相机通过深度学习进行判断。然而,廉价的毫米波雷达精度不够,甚至无法对行人进行感知。作为补充,由光学摄像头对周围环境进行二维拍照,再通过算法生成物体的形状、距离。不过,受限于光线等因素,其判断并不可靠。实际上,强光、雨雪、尘土会成为摄像头的噩梦,而雷达也无法发现行人和静止或横向移动的物体。 与特斯拉不同,谷歌、uber等其他公司均认为激光雷达才是真正解决问题之道。激光雷达与普通雷达的工作原理相似,均是发送电磁波,再记录下电磁波反射回来时的时间与角度,以对周遭物体进行感知。与普通雷达不同的是,激光雷达使用几百至1000纳米的激光,远远低于普通雷达的波长。因此,激光雷达在测量物体距离和表面形状上可达到厘米级,远超普通雷达和gps系统的精度。雷达行业“鼻祖”velodyne公司的技术解决方案总监大卫·奥罗施尼克(david oroshnik)曾表示,现在他们最便宜的产品的价格为8000美元。目前,众多自动驾驶车辆都搭载着velodyne生产的hdl-64e激光雷达,但其价格高达惊人的70000~80000美元——这对于利润水平越来越薄的汽车制造商来说只能是先装上玩玩。 此外,激光雷达领域的另一家明星公司quanergy目前在小型化和低成本的固态激光雷达领域也取得了很大进展。 这两家公司无疑已经成了业界的标杆公司,拥有非常多的技术专利,而waymo实际上是在lidar的基础上对性能和成本进行了一定的创新。一般而言,软件代码很难申请专利,但一旦与硬件绑定成为完整的自动驾驶方案,并在申请专利时尽量扩大应用的覆盖范围,就可能会出现这样的结果:其他的自动驾驶初创公司要么向waymo直接购买成套产品,要么购买技术授权,这对初创公司来说无疑是个坏消息。 装设了激光雷达的uber车 实际上,小型初创公司在进入这一领域后常常发现,自动驾驶的一些核心技术已经被注册专利,比如类似google注册的当自动驾驶汽车遇到大型货车时自动靠左行驶的专利。当初创公司的研发处处受制于已有专利、自己又缺乏防御性专利组合时,它们可能会考虑退出该领域的角逐——这种局面无疑是技术创新的大敌。 同样,对uber来说,如果无法开发出属于自己的自动驾驶技术,其结果将是毁灭性的。为什么呢?因为依靠共享出行起家的uber的主要收入来自司机。随着自动驾驶技术的出现,如果有朝一日不再需要人类司机,uber将被逐出共享出行行业——除非uber自己也掌握了相关技术,尽早提供了无人驾驶共享出行服务。 不过,好在lidar目前并不是无人驾驶业界的唯一标准,其他诸如纯雷达、声波、图像识别等方式也都在快速发展中。而且,像福特、通用、日产等传统汽车制造业巨头的纷纷进入,无疑会大大加速无人驾驶技术的成熟周期,提升技术方案的多样化。 中国的自动驾驶货车 根据图森(tu simple)公司的数据,中国有720万辆货车和1600万名长途司机负责城际公路上的物资运输——这个产业的价值高达3000亿美元,而司机的工资成本占运输总成本的40%。如果使用自动驾驶货车,一些原本需要2~3名司机合作完成的长途运输任务可以由1名司机完成。 目前,中国的货运服务良莠不齐,公众普遍期待这个行业能进行大整改。此外,由于该行业的监管较松,给企业带来了很大的创新空间。在这两个因素的驱动下,中国的自动驾驶货车产业有望得到快速发展。 tu simple自动驾驶系统“眼中”的街道 百度和福田汽车合作研发的自动驾驶货车原型 正是看到了中国的潜力,图森这家在美国圣地亚哥和中国北京都设有总部的公司决定与中国的一家货车制造商合作开发一种自动驾驶货车平台。该公司的核心技术是计算机视觉和一种能深入理解图像的算法,这种算法不仅能识别不同的车辆,还能预测它们的动作。图森把从手动驾驶货车收集到的大量数据输入神经网络,然后通过“机器学习”技术处理这些信息。 而中国的互联网巨头百度也不甘落后——该公司已经为研发自动驾驶技术投入了大量资金。百度与货车制造商福田汽车展开了合作,并于2016年11月在上海新国际会展中心发布了国内首款自动驾驶货车。目前,百度已有好几支团队专注于研究自动驾驶系统,其中一支团队旨在研发无人驾驶汽车。 云启资本的投资人黄榆镔曾说,中国这片市场的机会巨大。他认为中国政府会支持这个产业的大力发展,不过地方政府也许会有所顾虑——毕竟,自动驾驶货车的普及有可能导致一批司机失业,这是他们不愿看到的。但他补充说:“使用自动驾驶货车能节约劳工成本和油费,市场这只‘看不见的手’决定了这个产业不发展都不行。” 中国针对自动驾驶车辆的监管才刚刚开始:政府正试图在保证公众安全和鼓励公司创新中寻求一种平衡。2016年7月,政府宣布正在起草监管自动驾驶车辆的相关文件,并呼吁该产业在文件正式出台前减少试验的次数。即便如此,很多和黄榆镔持相同观点的人还是相信,政府最终会放松对自动驾驶货车测试的监管,并对这种货车的商用保持开放的态度。 时机是关键 沃尔沃的阿尔姆奎斯特认为,在不久的未来,自动驾驶货车会在公共道路上担负起运输的重任。不过,他认为时机是这项技术能否普及的关键因素:“如果我们太急,弄出了什么事故,整个产业都会蒙羞。如果你失去了公众的信任,再想挽回就很困难了。” 专家点评 倪凯 乐视超级汽车自动驾驶副总裁、ff&le future人工智能研究院院长,曾任百度高级科学家,负责无人车的研发。 从2015年5月戴姆勒获得美国内华达州的全球首个自动驾驶货车车牌,到2017年2月embark货车在城市间的公路上采用自动驾驶技术行驶,自动驾驶货车因其带来的巨大商业价值而备受青睐,比如自动驾驶货车可实现驾驶更安全、降低货车司机的支出以及最大限度的省油等。中国的物流行业近几年的迅猛发展也带来了对自动驾驶货车技术的巨大想象空间。 不过,就自动驾驶货车的应用场景而言,目前其在中国还面临很大的挑战,因为中国的交通环境比欧美国家更复杂。可能有人说,只需先重点解决自动驾驶货车在高速公路上的问题即可。可是要想真正完全解放货车司机,仅仅实现高速公路上的自动驾驶是不够的。在自动驾驶货车驶入高速公路之前以及驶出高速公路时,也需要一定的基础设施和相应的司机接管机制来进行配套,难度不小。另外,在中国,每年由货车超载、超速、刹车故障和货车司机疲劳驾驶等原因造成的恶性交通事故,造成了大量人员的死亡。辅助驾驶的技术包括主动安全技术完全可以在未来几年逐步铺开,极大地提高自动驾驶货车的安全性,解放特定场景下的驾驶工作,带来相当可观的经济效益和社会效益。加之货车本身的成本较高,因此对自动驾驶系统的价格敏感度会相对较低,这一点也有利于自动驾驶货车的商业化落地。 从具体实践来看,货车司机大多是有丰富驾驶经验的职业司机,其驾驶水平与普通驾驶员相比要高,因此对货车自动驾驶系统安全性的要求更为苛刻;此外,不仅仅是货车的自动驾驶系统,整个自动驾驶系统的研发从现在的情况来看都离不开增强学习。增强学习很重要的一点是需要有大量的数据进行训练,让系统知道它怎样做才会得到一个好的结果,怎样做会得到一个坏的结果。对于自动驾驶车辆而言,因为无法在实际行驶过程中得到足够的真实数据,要想得到足够的负样本,就需要利用模拟器来生成这样的数据。不过由于自动驾驶的复杂性,如何实现非常好的仿真,这本身就是一个非常难的问题,还需要在技术上进一步攻克。 目前整个自动驾驶行业的趋势是快速发展的,各大公司都在投入大量的资源,从otto被uber收购的例子可见一斑。自动驾驶系统的成熟包括货车自动驾驶系统的成熟和落地,需要集中更多的力量一起去解决很多问题,包括我们的自动驾驶从业者和配套行业,如保险业、立法机关等。 专家点评 吴甘沙 驭势科技ceo,前英特尔中国研究院院长。 自动驾驶货车是智能驾驶领域一个很有趣的存在,虽然预期的销量远比乘用车少,意义却非常大,因为货车几乎全勤(没日没夜的跑)、跑得多(一个月的里程可能相当于乘用车数年的里程)、事故风险大(占交通事故的1/2以上,而且常常是碾压式)、烧油狠(占公路运输物流成本的1/4以上),而自动驾驶可以解决很多这样的问题。另外,货车的整体拥有成本高,装一套昂贵的自动驾驶系统也承受得起,再加上大家心目中对汽车人的敬仰,它位列10大突破性技术榜单名正言顺。 但是其成熟期还需等待5~10年。乘用车的智能驾驶分为几个阶段,从驾驶辅助(预警型adas)、辅助驾驶、高度自动驾驶到无人驾驶。自动驾驶货车可能会走一条与乘用车不同的商业化道路:短期内驾驶辅助的意义远大于乘用车,专治疲劳驾驶。 但辅助驾驶颇为鸡肋,它虽然提供了高速公路连续自动驾驶的能力,但要求司机在路上仍然全神贯注。如果司机产生了对辅助驾驶系统不切实际的信任,迷迷糊糊地睡着了,那将酿成大祸,因为紧急状况出现时司机无法瞬间接管。所以,它有可能跨过辅助驾驶,直接来到高度自动驾驶,这样货车在出现不能处理的状况时可以在10秒左右的时间优雅地把控制权交给司机。当然,最好的还是无人驾驶,这样可以直接去掉司机的成本。 在通往无人驾驶的路途上,货车还会出现一种中间形态即利用v2x车联网实现编队出行,第一辆车由货车司机开,而后续车辆跟着前车自动开,前车加速则后续车辆也加速,前车制动则后续车辆也自动刹车。 otto的200公里show(“秀”)还不能说是现象级的,一是这只是演示,是在这条道路上经过长时间的训练后完成的,通用能力还有待考察;二是这批谷歌的精英“曲线救国”来到uber,精力已经被乘用车分走了(而谷歌正在起诉uber和这支团队盗用了包括谷歌激光雷达在内的知识产权),货车这块估计要“失宠”;三是自动驾驶货车的一个特殊难点在于控制,毕竟在空载、满载和超载的情况下系统需要完全不同的参数,在这一点上,默默耕耘的老牌货车大厂,像戴姆勒、沃尔沃等更有优势。如果它们能与新兴的人工智能公司强强联合,那么自动驾驶货车振翅高飞的日子就不远了。 到那时,我们可以说无人驾驶改变的不只是出行,还包括整个世界的物流。信息流、交通流和能源流的三流汇聚,将是无人驾驶最精彩的绽放。 专家点评 田丰 阿里云研究中心主任。专注于云计算、物联网/工业互联网、大数据、vr/ar科技战略的研究。工信部人才交流中心工业和信息化特邀专家,中国互联网协会核心专家。 新技术开拓新的市场空间。民航飞机除“起飞”和“降落”外的航程,都由自动飞行系统接替人类飞行员。因长时间行驶在封闭的高速公路上,自动驾驶货车的司机仅负责驶入高速、驶出高速、过关检查,其他的全部路程都由人工智能来执行。从“自动驾驶”到“无人驾驶”仍需一段时间,昂贵的激光雷达、复杂变化的路况、自然界变幻莫测的气候,都限制了自动驾驶技术在乘用车中的广泛普及。目前一套激光雷达的价格比一辆整车的价格还贵,而不用激光雷达的无人驾驶又存在较大的安全隐患。高速公路屏蔽了行人、摩托车、自行车、宠物等复杂路况,而雇佣货运司机的2年工资就能买一辆新货车(10万~14万美元)。即便激光雷达的价格不菲,还是存在可观的利润空间,所以自动驾驶货车成为自动驾驶产业的第一个突破口,汽车厂商和零部件供应商都积极进行战略并购、研发自动驾驶技术,担心一旦错过科技升级的产业风口就会被时代永远淘汰。 一辆自动驾驶货车除传统零部件外,新增的成本主要集中在环境感知设备(含lidar激光雷达、超声波雷达、摄像头、传感器等)、导航设备(gps系统)、智能计算机(类gpu计算机)、自动控制装置(转向、刹车、油门自动控制器)。这一套设备的整体成本仍需减少90%,才能让众多“未来概念车”变成“产业用车”,真正走入每一家货运企业甚至寻常百姓家。另外,5g通信、v2x技术、交通云、互联网汽车服务等配套产业链都在快速发展。 安全与就业永远是新科技发展的争论焦点。未来10年最危险的不是自动驾驶货车本身,而是人类驾驶货车与自动驾驶货车的混合行驶状态。谷歌、特斯拉、福特、奔驰、宝马、通用、大众、本田、尼桑、博世及德尔福共11家主机厂和零部件企业已在美国加州获得了资质上路测试,据美国加州交通管理局在2017年公布的相关报告显示,以人工干预前自动驾驶平均里程数衡量,位列前三名的是: (1)谷歌:自动驾驶5127.97公里人工干预一次; (2)宝马:自动驾驶638公里人工干预一次; (3)福特:自动驾驶196.67公里人工干预一次。 而我们所熟知的特斯拉的排名并不靠前,其自动驾驶3.02公里人工干预一次。 当然,这份报告并不能全面体现各家厂商的技术实力,因为各大公司的测试环境存在差异,包括公路、封闭测试场、赛车场等难易不同的行驶环境,而塔塔elxsi公司则计划在路况异常复杂的印度班加罗尔市(摩托、三轮车、汽车、行人混行)测试自动驾驶技术。无论哪一家自动驾驶公司胜出,都是全人类的福音。全球每年的车祸死亡人数接近100万人,汽车发明至今,车祸死亡人数已经超过第一次世界大战中的死亡人数。而自动驾驶技术将大幅降低人为交通事故的发生概率与伤亡影响。 另外,虽然收入较高,但全球货运司机非常短缺,仅美国货运司机的短缺量就约为75000名,而且每年的缺口仍在快速增长。半自动驾驶系统的引入将缓解货车司机紧张的供需关系。美国自动驾驶方面的创业公司正在为货车司机提供新的工作岗位,雇佣经验丰富的货车司机在远程控制中心“训练”“遥控”行驶中的大量自动驾驶货车,这是无人机、无人船、无人车集群的运营监控保障。而从长期来看, 200年前,90%的地球人都是农民;随着食物科技的发展,现在只有2%的人是农民,更多的人转变为工程师、服务员、研究者、开发者、设计师等,而人类的生活变得更糟糕了吗? paying with your face 刷脸支付 撰文:杨一鸣 突破技术 人脸识别技术如今已经十分精确,可以被网络交易以及相关领域所应用。 重要意义 该技术提供了一种安全且快捷的支付方式,但是也许存在隐私问题。 技术成熟期 现在 主要研究者 - face++ - 百度 - 阿里巴巴 -腾讯优图 得益于网络支付平台的兴起,现在的支付方式已经变得越来越便捷,特别是手机端的支付宝和微信支付,让手机成为另一个可以傍身的钱包。在吃完饭准备买单时,或是在超市买完东西付账时,店家刷一下消费者手机中的二维码,消费者输入密码确认转账信息后,就可以将钱付给店家。支付过程只不过几秒钟,是不是很方便?但是在方便的同时,我们也在担心密码的安全级别,谁也不希望别人不经过自己的同意就从自己的钱包里面掏钱吧。所以除了增加密码的复杂度,指纹识别等生物识别技术也出现在网络支付环节中。因为生物识别技术的识别对象往往具有个体差异性,比如指纹、虹膜甚至声波都是每个人特有的,如此一来就能够保证支付的安全性,远比单纯由数字和字母组成的密码要安全。另外,手机端支付的指纹识别也在实际应用中将支付行为进一步简化。相信大家都或多或少地使用过指纹识别进行支付,或者解锁手机锁屏。这已经不是一项新技术了,投入市场应用已经有几年的时间了,的确改变了我们的支付行为。而随着近几年人工智能技术的兴起,又一项生物识别技术也达到了相当精确的程度,并融入到网络支付中,这就是“刷脸支付”,就像阿里巴巴ceo马云在2015年的汉诺威消费电子、信息及通信博览会上展示的一样。这项崭新的支付认证技术由蚂蚁金服与face++ financial合作研发,在购物后的支付认证阶段通过扫脸取代传统密码。 那么你也许会担忧,人脸识别精确吗?人脸识别技术发展了这么多年,也只是作为计算机端的登录工具,现在作为金融服务的支付密匙能提供相对应的安全性吗?答案是肯定的。蚂蚁金服与face++合作开发的人脸识别机器人在电视节目《最强大脑》中与人类同台竞技,就人脸识别能力进行pk,最终的结果是机器人以2∶1战胜了人类代表“水哥”王昱珩。可见其准确度已经超越了大部分人类。 具体的应用情况也能从侧面证明人脸识别的精确性:人脸识别曾作为军方以及警方识别身份的重要手段,常见于远程打击的身份验证环节。电影《天空之眼》中就展现了十分精确的人脸识别系统,该系统由无人机携带的超高清摄像头以及地面情报人员设法获取的实时影像作为信息来源,再由精确的识别软件对目标面部的特征点进行交叉对比,识别身份,最后由军方人员操作无人机进行远程精确打击。该电影中展现的人脸识别技术,采用了多个特征点的识别,并将实时传输的图像与系统中已存在的目标图像进行多点对比。一旦多个特征点甚至全部特征点与预设目标符合,系统将给出结论,并询问是否可以开始进行攻击。而在实施远程打击之后,还需要对击杀目标进行生存确认。电影中此时的目标早已面目全非,系统则针对目标的耳部的多个特征点进行识别,以获取目标的身份信息。 刷脸与密码 处于信息社会,我们的身份信息以及授权有了越来越多的识别手段。而自从密码被发明出来以后,各式各样的密码就充斥了我们的生活。相信你也曾经被自己的密码折磨过,银行密码、游戏登录密码、无线密码混在一团,分不清楚。密码的复杂程度与记忆难度以及安全性一般都是成正相关的,难记但是很安全,这也是我们在设置密码的时候需要权衡的地方。可是再复杂的密码也存在理论上被破解的可能,毕竟对于机器而言密码只是一小段字符串,有规律无规律只是对我们而言的。笔者记得2011年12月发生过的某知名网站密码外泄事件, 600万名用户的登录名、密码及邮箱遭到泄露,顿时轰动了整个互联网。许多网民不得不将自己的很多有创意的密码更换,并对整个互联网的保密安全持有深深的怀疑。如此一来,新的加密系统或身份验证方式就成了解决密码难题的关键。 密码难设且存在泄露的危险,所以在涉及公众以及个人敏感信息的领域并不常见,如金融服务。而且这些领域的授权往往都采用更加安全的方式辅助密码,或者直接成为主要的授权方式。于是一些带有个人生物特征的指纹、掌纹甚至虹膜相继成为个人身份验证的依据。如今,指纹识别在我们的智能手机上已经十分常见,解锁手机以及支付宝的快捷支付都给予了我们很多便利:不仅方便快捷,不用记忆那些挖空心思编出来的密码,还免除了密码外泄的担忧。其实,指纹识别早就因为其超高的准确性被应用于刑事鉴定中,因为几乎找不到指纹完全相同的两个人,这也成为刑事鉴定中最为准确的定罪信息之一国际公开测试中更是达到世界最高的99.5%,而2016年的6月腾讯旗下的优图实验室再次打破世界纪录,将自己的99.65%人脸识别率写入历史。所以说,人工智能的加入必然会将人脸识别的精度提高;但是绝对需要大量的数据输入,比如face++已经将自己的人脸识别系统免费推向大众,期望获得更多的数据及素材,也能够帮助人工智能更早地完成迭代,实现更强有力的人脸识别功能 [3,4]。 不过,对于长相非常相似的双胞胎或多胞胎,以及通过整容变得判若两人的情况,人脸识别技术也可能失效。在此情况下,可以采用其他的验证信息作为辅助识别。毕竟识别技术都有弊端,准确率只可能无限接近100%,但采用双重保险交叉识别的话,安全级别就会上升很多。就行业的发展来看,采用两种或两种以上的生物识别技术与最原始的密码相结合的做法,能够大大增加支付的安全性和准确性,比如用户在登录时增加一层指纹、掌纹、虹膜、声纹等生物特征作为辅助密码。 在实际应用方面,腾讯优图还推出了自己独创的唇语辅助识别功能,能提高人脸识别的精度,更能提高识别的安全性。用户在进行人脸识别时,需要按照屏幕的指令读出屏幕上出现的一行数字,系统则会实时识别用户说话时嘴唇的动作以及语音,而且唇动和语音的同步情况也列在识别的判定依据中。这其实就像现在已经出现的智能验证码,比如著名视频网站bilibili登录时的“验证码”就需要用户拖动鼠标拼好一块拼图。类似的,唇语辅助识别也具有相当的随机性,百万级别的随机唇语模式可以抵挡照片、视频、静态3d模型的攻击,而且还不受方言甚至语种对识别的影响。如此一来,就实实在在地将人脸识别列为了活体检测,也提高了用户在进行识别时的参与度。 人脸识别技术成熟以后,的确能给人们带来很多方便,但是随之而来的安全隐私问题却常常被我们忽视。安全隐私问题确实是一个绕不过去的难题,这是因为人脸识别技术是为数不多的不需要被测者合作的生物识别技术,能在远距离使用摄像头获得高质量的检测信息,而被测者往往不知情。一旦能够象征我们身份的图像信息与网络连接,那么个人信息的安全与隐私问题也就随之而来,这也是自互联网出现以来就有的问题。解决方案可以从技术和制度入手:技术方面,能够采用不储存图像信息或身份信息的人脸识别系统,人脸识别的结果只是一条条冗长的代码,这样即使结果泄露了也不会对用户的个人信息造成威胁;制度方面,就只能依靠国家的法律法规以及相关职能部门,也只有国家加大力度监管网络安全以及个人信息安全,才能更好地建立稳定的网络环境。比如最新公布的谷歌街景软件,能够自动识别街景中的各种元素。虽然谷歌还在软件中加入了人脸识别功能,但该功能一上线就被人弹劾,谷歌公司勒令停止提供这样的服务,并将谷歌街景中的人脸都打上了马赛克。 人脸识别与生活 清华大学的唐杰教授曾以学生的身份参与建设face++。对于人脸识别的发展前景,唐教授说:“其实不只是刷脸支付,人脸识别还能应用于很多地方。”他表示,这样的技术将会吸引中国大多数的民众。一些商品住宅区就能使用这样的技术来授权通行,商店和餐馆也能利用此项技术来提供更方便的支付服务。人脸识别在用于网络支付之前,曾出现在我们使用的手提电脑上,也就是刷脸登录。face++最开始也是从联想电脑的刷脸登录开始崭露头角的,而后相继在金融、安防、零售领域分别开始了商业化探索,并成功开发出“face++financial”“face++security”以及“face++bi”等人脸识别系统。其中,人脸识别在安防和监控系统中的应用也得到了中国政府的大力支持。有别于指纹识别和虹膜识别,人脸识别作为远距离生物识别技术,能监控人群,并在其中识别犯罪嫌疑人以及恐怖分子。而且一旦人脸识别的效率和准确率上升了,无所不在的24小时不间断的监控系统的确能组成一道恢恢天网,让犯罪分子和恐怖分子无所遁形。除此之外,人脸识别作为一项图像处理技术,自然也“逃不过”人类对于图像编辑的狂热。人脸识别技术与图像编辑软件的结合数不胜数。face++就曾经和“魔漫相机”合作,这是一款能够在识别人脸之后个性化生成漫画人物形象的软件。简单来说,它就是可以把真人变成漫画人物的手机app。“魔漫相机”软件十分火爆,全球的使用人数已经超过了2亿人。而人脸识别技术在其中也充当了核心的角色,首先软件需要识别用户上传的图像中的人脸,再按照用户的要求对人像进行修饰,成为一幅漫画。不得不提的还有“美颜相机”,这是一款能够提升“颜值”的手机app,正好顺应了这个看脸世界的潮流。其中,软件能够识别人脸,并对用户面部的皮肤、肤色、色彩以及光泽进行编辑,它也是一款好评如潮的软件。特别来讲,该款软件中还有很多有意思的功能,比如给用户加上猫耳朵、狗鼻子,或者将拍摄风格变为恐怖风格,让人忍俊不禁,而这些都是人脸识别和图像处理带来的乐趣。 而在公众身份验证的应用中也能看到人脸识别的身影。在打车软件“滴滴出行”中也使用了人脸比对技术,注册司机需要进行身份验证,人脸比对技术确保注册司机的容貌与证件照相符,提高了司机注册的效率,更保障了乘客的安全。更加引人注目的是2016年公安部传来的消息:公安部第一研究所研发的网络可信身份认证服务平台即将在多个地方投入试点;通过这个平台,每个人都可以在网上生成一个终身唯一编号的“身份证网上副本”,通过“刷脸”等技术手段读取。这也意味着需要身份证的地方在未来都能被刷脸所替代,比如住宾馆登记时可能不再需要出示身份证,“刷个脸”就可以了。值得一提的是,百度正在开发一种能识别人脸、帮助人们取火车票的系统,试点选在了乌镇。这需要将数百万张人脸输入数据库才能达到99%的识别率,而乌镇这一座中国著名的旅游城市有着足够的人流量,能为人脸识别系统提供最好的实验条件。 而人脸识别在授权方面的应用也远不止支付授权,授权通行也是一个较早采用人脸识别的领域。《麻省理工科技评论》特邀记者威尔·奈特(will knight)去face++采访时,就看见自己的脸出现在了大门一旁的屏幕上。进入公司后, face++的员工将他的脸收集到公司的门禁数据库中,之后当威尔再次拜访face++时,就能自如地进出了。之后,据威尔描述:“当我走进face++的办公室的,发现里面有很多屏幕,这些屏幕上有着以各种角度拍摄的办公室的画面。这时,我瞥见我的脸出现在一个屏幕上,软件自动识别我脸上的83个点。我稍感不适,但是远不及技术给我带来的震撼感觉。”想象一下,若是自己居住的小区或者是工作单位也有这样的刷脸授权通行,势必会很方便,不用携带钥匙或门禁卡、刷指纹或是记忆门禁密码,只需将脸对着摄像头,系统就能自动识别,开放通行。类似的应用还出现在一些企业的考勤系统中,员工需要刷脸才能完成当天的考勤,这也杜绝了找人代刷考勤的现象。 说起face++的起源,就不得不提到一款手机游戏“乌鸦来了”(crowsing),这是face++现任ceo唐文斌在2011年刚从清华大学本科毕业时与好友印奇设计的一款手机体感游戏,玩家需要摇头晃脑躲过稻草人,得到游戏分数。该游戏就是利用手机的前置摄像头,采用人脸识别技术识别玩家的动作。这样的设计既增加了玩家的动作感,也增加了玩家在玩游戏时的参与度;如果在游戏结束之后还能够生成代表玩家的乌鸦的飞行状况的动画,相信会吸引更多的玩家。而在游戏中采用人脸识别技术可不是唐文斌的专利,其他的游戏包括我们熟知的“口袋妖怪”系列游戏,玩家在培育自己的宠物时,游戏能够识别玩家的反应,并在宠物培育界面给出相应的反馈。这也使得之前枯燥的打怪升级游戏变得丰富多彩、贴近真实,玩法也更加全面、立体。不过,人脸识别技术还只是常见于掌机上的游戏,因为玩家玩掌机的距离刚好是人脸识别的最佳状态;再远一点,摄像头的视角就大了,而此时往往采用的是动作识别,即时下受广大玩家欢迎的体感游戏。体感游戏识别动作的原理和人脸识别十分类似,也因为体感游戏能让宅男宅女们在游戏中体验到在室外游戏的感受而大受好评,这背后也是游戏的高参与度。 谈到游戏,还要提起最近几年兴起的虚拟现实游戏。虚拟现实游戏能够带给玩家十分真实的游戏感观,魔法世界中的声音、场景以及触感都能实现。而为了加入更多的个性化元素,游戏开发者往往会赋予玩家在游戏中的独特的外形,而在此环节就需要人脸识别技术。它与“魔漫相机”中的应用类似,也是将玩家的脸提取出来,做成游戏中的角色放到游戏环境中。想象一下自己穿着中世纪的盔甲、甘道夫的白袍或美军101空降师的军装,是不是很炫酷?与之相似,人脸技术也被应用于电影制作,有些饰演效果不好的魔幻角色,比如《贝奥武夫》中安吉丽娜·朱莉饰演的格兰戴尔的母亲就是人脸识别之后再经过图像处理合成的。另外,还有一些演员在拍摄电影的时候不幸去世或者早已去世了,也需要使用人脸识别技术及图像处理合成影像,典型代表就是《速度与激情》中的保罗·沃克以及《星球大战外传:侠盗一号》中的高级星区总督塔金。在老版《星战》中塔金由彼得·库欣饰演,但这位演员已经于1994年去世了,剧组找了一位和彼得·库欣身材相貌接近的演员。在这位和彼得·库欣相似的演员表演完后,再采用后期制作的计算机cg动画合成了彼得·库欣的脸。 另外,与虚拟现实同时上线的增强现实也使用了多种图像识别技术。不过,人脸识别技术的核心还是图像处理算法,最终目的还是实现数据和信息的可视化,这一点与增强现实不谋而合。而人脸识别技术已经使用在一些有增强现实概念的软件中了,如video++公司开发的“明星认脸”,这是一款能够在视频和图片中认出明星的软件,用户随时点击明星即可获得明星及其代言的商品的信息。如果用于体育直播,识别其中的运动员并显示出其运动生涯的数据,相信也会受到观众的欢迎。其实,随着虚拟现实和增强现实的面世,许多与图像处理及图像采集相关的算法、软件和硬件如雨后春笋般出现了。同时入选“2017年《麻省理工科技评论》10大突破性技术”的“360°自拍”就是为虚拟现实服务的,它能为虚拟现实提供大量的图像素材。可以说,这些新技术都在为之后的虚拟现实和增强现实铺路,虽然目前还没有好的盈利模式,仍处于技术积累的状态。 写在最后 为了解决10大哲学问题之一的“我是谁”,我们有几个途径来进行身份验证:你有的东西、你知道的东西(如密码),还有你的生物特征。前两种东西的独特性都没有第三种强,而我们身份的独特性正是身份识别的意义所在,一串串密码或是一行行数字都不能诠释我们的身份,而这正是生物特征识别存在的意义。指纹、虹膜以及人脸识别都曾在身份识别系统中有着自己的优势与特点,而随着计算机技术的飞速发展,这些生物识别技术都纷纷转入应用面更广、更加灵活的民用市场。其中,指纹识别已经给我们的生活带来了很大的变化,我们的支付方式也得到了改善。现在的智能手机解锁或是网上支付都能使用指纹识别了,这也使得一些操作变得方便快捷。类似地,现在进入支付系统的“刷脸识别”也有着十分利好的发展前景。以人脸识别技术为核心的识别系统与人工智能联结之后,效率和识别准确度都大大提高,并会持续发展。而更为精确的人脸识别不仅能符合金融服务的安全性标准,还能广泛应用于人们的生活中,如安防、监控、网络用户登录与验证、人脸p图,以及以游戏和电影为代表的娱乐行业,可以说是深入到了生活的各个方面。这也意味着人脸识别将会从更高层面影响我们的世界。改变世界从刷脸开始。 专家点评 余晨 易宝支付联合创始人、总裁,畅销书《看见未来:改变互联网世界的人们》的作者,央视大型纪录片《互联网时代》顾问,亲自采访全球互联网企业领军人物。 刷脸支付的技术基础是机器视觉,本质则是一种生物识别技术。不同的生物识别技术,如声音、掌纹、笔迹等,未来会被运用到不同的场景。但是视觉始终是最为直观和便利的,个人标签也最为明显。毕竟不是每个人都能准确辨认自己的声音和掌纹,但是面孔是再熟悉不过的了。 生物识别相对于传统的字符密码而言,极大地提高了效率,但也增加了模糊性。把正确身份识别为错误(拒识率)和把错误身份认为正确(误识率)的比率都要降低到1%以下,才能基本满足大规模应用的标准。 生物识别有一个问题是生物信息改变的成本极高(除非整容等),所以信息泄露的伤害比字符密码更加严重。生物信息一旦数字化后,就不可避免地面临被复制传播的危险。而被窃信息的所有人不可能像改密码一样进行止损,这就给生物识别应用提出了极高的安全要求。这也是为什么各大公司即使掌握了相关技术,也只能小规模试水,尤其在金融领域更是慎之又慎。还有一个问题,就是刚才提到的拒识率和误识率的水平,因为人的生物信息不像字符密码一样定死,可能会出现变胖变瘦、手指受伤、感冒哑声等。这就要求系统有一定的容错率,允许在一定范围内识别指标的浮动。 刷脸支付并不是横空出世,实际上也是一个渐进的过程。早在2013年,芬兰的一家初创公司uniqul就已经推出了刷脸支付系统unique,而且宣称数据会受到“军工级别”的保护。square早在2011年就开始尝试无需手动的支付方式,pay pal也尝试过类似的功能。2015年,谷歌也推出了刷脸支付hands free,但未获广泛应用,并于2017年年初宣布关闭。2016年,万事达选择在欧洲推出刷脸支付,并于2017年推广到北美。日本同样有nec公司在三井住友集团试点刷脸支付。 国内的刷脸支付也是百舸争流。2014年,中科院率先在国内开发出人脸识别系统,首创了人脸数据采集阵列,并在此基础上开发出人脸识别移动支付系统。旷视科技开发出了face++平台,向阿里巴巴的蚂蚁金服提供人脸识别技术,并成就了马云在德国ce bit上的刷脸支付演示。2015年,支付宝已经开始试水部分用户使用人脸登录,并于2016年3月向全部用户开放。 可以说,刷脸支付是生物识别技术(尤其是机器视觉技术)达到一定的精细化水平和安全性要求的情况下,水到渠成的科技突破。目前,刷脸支付还局限于少部分平台,线下应用场景还较少,因此不妨期待一下未来它在便利店、餐馆、超市等高频场景的应用。 支付的最高境界,其实就是没有支付行为,这也是刷脸支付向我们提供的美好图景。 专家点评 田丰 阿里云研究中心主任,专注于云计算、物联网/工业互联网、大数据、vr/ar科技战略的研究,工信部人才交流中心工业和信息化特邀专家,中国互联网协会核心专家。 “人脸识别”是技术,“刷脸支付”是场景,没有技术支撑的场景是空谈,没有场景需求的技术是鸡肋。中国高科技企业正在探索将“人脸识别”技术应用于金融支付、家居安防、城市交通、政务服务、公安反恐、企业管理、在线教育、市场营销、游戏娱乐等领域,并与物联网、大数据、云计算、增强现实技术融合演进。 “人脸识别”从实验室算法到大规模商用,具有较高的技术门槛。在众多的生活类场景中,以金融界人脸识别的要求最高,必须具备高安全性(照片与视频防伪)、高准确率(误识率在0.001%以下,高识别通过率在90%以上)、高可用性(海量并发人脸比对服务的系统吞吐量tps>1000)、高实时性(响应时间小于100微秒)。目前在全球的人脸识别研究领域,一批杰出的华人研究学者是推动技术不断发展的重要力量,可以说在世界范围内,中国“人脸识别”科技的实力无论技术还是应用都处于全球领先地位,所以本次上榜企业均被中国的高科技公司包揽。比如,“刷脸支付”由蚂蚁金服与face++合作研发,这一突破性技术的解决方案由人脸比对算法、活体识别算法、风控防攻击策略体系三部分组成,人脸识别构建在公共云上,借助高可用、动态扩展的服务架构,才能支撑“双11”购物节、新春红包等刷脸服务高并发峰值。 “刷脸支付”等应用场景依靠数据回流,进一步加速技术的迭代进化,“大用户”沉淀“大数据”,“大数据”训练“大智能”。刷脸支付技术经过最近几年的产品优化,现在能够保证在各种复杂的环境下仍有不错的刷脸体验。比如,支付宝有超过1.5亿名用户使用过刷脸技术登录支付宝账户、实名认证、找回密码,以及在高风险交易中进行身份验证等。这是目前全球用户量和访问量最大的人脸识别系统,更是在全球金融领域范围内第一家大规模商用的在线系统。刷脸支付诞生于比较独特的互联网金融业务场景,真实场景十分复杂,用户会在不同光线(夜晚低光照)、不同角度(大角度侧脸)、不同姿势、不同表情(夸张表情)、不同妆面(重度化妆)、不同年龄(老化)下使用刷脸;用户有时躺在床上刷脸,有时在敷面膜时刷脸;如何解决各种复杂的真实环境中的刷脸体验,保证正常用户便捷通过,是很大的挑战。2016年,蚂蚁金服在云栖大会开设的“未来咖啡馆”,让消费者对着摄像头刷刷脸就能完成o2o移动支付。 安全是“刷脸支付”普及的关键。在提升真实用户刷脸通过率的同时,还要抵挡各种黑客攻击手段。照片和视频攻击已经过时,现在黑客利用机器学习网红大量视频中的表情数据、声音数据,采用人脸建模软件,能够实时合成“换脸”“换声”,在网上假扮别人直播表演。人脸活体检测技术将是持续攻防和不断改进的过程。 专家点评 杨铭 地平线机器人技术联合创始人&软件副总裁,算法与工程专家,前facebook人工智能实验室创始成员。 作为社会性动物的人类,精准识别人脸是关键的社交技能之一。这项技能如此重要,以致人类在漫长的进化中,在大脑中专门形成了一个负责人脸识别的脑区——梭状回(fusiform gyrus)。因此,人类十分擅长这项技能,能从“惊鸿一瞥”中瞬间记住一个人,也能从“回眸一笑”中想象出这个人的各种音容笑貌,甚至在“少小离家老大回”时能仍依稀认出儿时的好友。然而,作为一种非侵入式的生物识别方法,计算机识别人脸图像却困难重重:亿万张不同的人脸,粗略地看只是脸型五官的细微差异,而同一个人的人脸,在不同的视角光照条件下,从图像上看也是千差万别。因而,机器识别人脸在过去30年里一直是计算机视觉和模式识别研究领域最有挑战性的“明星”课题,从早期基于规则的识别、“特征脸”(eigenface)、高维局部特征点,发展到近年来火热的深度卷积神经网络方法。 2012年,深度神经网络在图像识别领域取得了技术突破;到2014年,其通过并行训练学习应用于海量人脸数据,使得计算机识别人脸的准确度有了从量变到质变的提高。特别是对于比较两张人脸是否为同一个人的人脸验证任务,错误率下降到1‰的量级,同时也逐渐打破了只识别正面人脸的限制,能够容忍更大幅度的人脸图像差异。因而, facebook、google、microsof、百度、apple等互联网公司都逐渐采用了深度神经网络的人脸识别算法,改善其人脸识别服务和产品。比如,facebook运营着世界上最大的云端人脸识别服务,在全球10多亿名用户的照片中识别人脸。国内的创业公司如旷视科技、依图科技、商汤科技、云从科技也将人脸识别应用于互联网金融和安防刑侦等领域。在人脸识别技术提升的基础上,刷脸支付也应运而生,为用户提供了一种便捷、创新的支付体验。在支付的应用中,快速方便的活体验证,即确认支付使用者是真实用户而不是假冒者预先录制的照片或视频,是一个关键技术点。相信随着深度学习技术的演进、计算平台能力的提升,人脸识别将扩大其在各个领域的产品化。 [1].自2007年以来,lfw数据库成为事实上的真实条件下的人脸识别问题的测试基准。lfw数据库包括来源于因特网的5749人的13233张人脸图像,其中有1680人有两张或两张以上的图像。lfw的标准测试协议包括6000对人脸的十折确认任务,每折包括300对正例和300对反例,采用十折平均精度作为性能评价指标。 practical quantum computers 实用型量子计算机 撰文:宋杰 突破技术 制造出稳定的量子比特。比特是传统计算机中的信息单位,而量子比特是量子计算机的信息单位。 重要意义 在运行人工智能程序以及处理复杂的模拟和规划问题时,量子计算机的速度可能是传统计算机的指数倍,而量子计算机甚至能制造出无法破解的密码。 技术成熟期 4~5年 主要研究者 - 荷兰量子技术研究所qutech - 英特尔 -微软 -谷歌 -ibm 量子通信卫星“墨子号”的成功发射,在全世界范围内再次掀起了一股量子信息研究的热潮。量子信息是以量子物理学为基础的新一代信息科学技术,它包含两个方面:一方面是信息的传输,即量子通信;另一方面是信息的处理,即量子计算。量子通信属于量子信息领域中最先实用化和产业化的方向,“墨子号”就是量子通信实用化的典范。相比之下,目前的量子计算就像一头蹒跚学步的小狮子,要想成为真正的百兽之王,它还有很长的一段路要走。但是,千万别轻视这个小生命,假以时日,它必将震撼世界。 神奇的“量子计算” 量子计算的潜力到底有多大?打个比方,如果把量子计算机的运算速度比作长征五号运载火箭的话,那么今天的超级计算机的速度只能是一辆摩拜单车。 按照中科院量子信息与量子科技前沿卓越创新中心张文卓的话说:“如果一台量子计算机的单次运算速度达到目前民用计算机 cpu 的级别,那么一台 64 位量子计算机的速度将是目前世界上最快的‘天河二号’超级计算机的545 万亿倍。”换句话说,如果按照这样的运算速度求解一个数亿变量的方程组,“天河二号”需要 100 年,而万亿次的量子计算机理论上只需要0.01秒。 为什么量子计算机具有如此惊世骇俗的运算能力?我国科技部973项目“量子通信和量子信息技术”的首席科学家郭光灿是这样解释的[1]:“量子比特可以制备在两个逻辑态0和1的相干叠加态,换句话讲,它可以同时存储0和1。考虑一个n个物理比特的存储器,若它是经典存储器,则它只能存储2∧n个可能数据当中的任意一个;若它是量子存储器,则它可以同时存储2∧n个数,而且随着 n的增加,其存储信息的能力将呈指数上升。比如,一个250个量子比特的存储器(由250个原子构成)可能存储的数据达2∧250,比现有已知的宇宙中的全部原子数目还要多。 “由于数学操作可以同时对存储器中全部的数据进行计算,因此,量子计算机在实施一次运算时可以同时对2∧n个输入数进行数学运算。其效果相当于经典计算机要重复实施2∧n次操作,或者采用2∧n个不同处理器实行并行操作。可见,量子计算机可以节省大量的运算资源(如时间、记忆单元等)。” 因此,让世界快2n绝不是天方夜谭。但是,和所有改变人类历史进程的重大发现一样,量子计算的诞生之路并不平坦。从普朗克提出量子的概念至今,量子力学已经走了100多年的历程。在这100年中,量子力学给人类的生活带来了翻天覆地的变化,尤其是在20世纪后半叶,激光器的出现和半导体工业的突飞猛进,彰显了量子科学的巨大威力。但即便是这样成功的理论,围绕它的争论却从来未曾间断。对其提出质疑的人当中不乏这一领域的开创者,如薛定谔、爱因斯坦等人,而拥护量子力学的则是以玻尔和海森伯等人为代表的哥本哈根学派。他们争论的焦点在于:量子力学描述的物理存在具有无法消除的随机性,而这是以爱因斯坦为代表的持经典决定论观点的物理学家所不能接受的,他们认为量子力学对物理世界的描述是不完备的,世界应该被更为基础的理论来支配。 随着论战的升级,爱因斯坦等人提出了量子纠缠态的概念,进而引发了对量子力学基本原理的检验。虽然迄今为止,绝大多数的证据显示了哥本哈根学派的胜利,似乎围绕这一科学问题的争论暂时告一段落,但是,正是由于这两股科学洪流的不断砥砺和求索,使人们加深了对这门科学的认识,也为后来量子信息科学的诞生奠定了基础[2]。 20世纪微电子技术的迅速发展,大大提高了电子计算机集成电路的集成度,为现代信息化社会打下了物质基础。1965年,intel的创始人之一——摩尔提出了以他名字命名的摩尔定律。这个定律认为,差不多每18个月以同样价格所能买到的计算机的计算能力就可以翻上一番。随着集成电路集成度的日益提高,电路板蚀刻精度也将越来越高,中央处理器芯片上集成的晶体管器件就会越来越密,这将迫使电路线宽不断狭窄,直至狭窄到不得不考虑运动在电路中电子的波动性将在电路中产生新的物理现象——量子效应(当电路线宽小于0.1微米)时,现有的芯片制造理念将不再适应。为了克服这个困难,一门新的学科——量子信息学应运而生。量子信息不仅仅是利用量子力学的物化产品(如半导体器件),而是直接以量子力学原理为基础、充分利用量子独特的性质,如量子叠加、量子纠缠和量子不可克隆等,探索以全新的方式进行编码、信息传输和计算[3]。 量子信息是量子物理与信息科学相融合的新兴交叉学科,自其诞生以来就引起了国际学术界的巨大兴趣,受到西方各国的高度重视,得到迅速发展,迄今方兴未艾!量子信息技术基于量子特性,如量子相干性、非局域性、纠缠性、不可克隆性等,可以实现现有信息技术无法做到的诸多信息功能,比如,量子计算机可以加速某些函数的运算速度,攻破现有的密钥体系,量子因特网具有现有因特网所无法比拟的优点,量子密码可提供不可破译、不可窃听的保密通信等。量子信息技术可以突破现有信息技术的物理极限,为信息科学的发展提供新的原理和方法, 21世纪信息科学将从经典比特跨跃到量子比特时代。量子信息技术是后摩尔时代的重要新技术,将来有望形成量子信息技术(quantum information technology)新产业,因而,量子计算成为各国未来高技术的战略竞争焦点之一。 量子计算的超强能力来源于其绝无仅有的神奇特征。要想弄清楚量子计算为何如此强大,就必须了解它的3个秘密武器。 量子比特 传统的信息技术扎根于经典物理学,一个比特在特定时刻只有特定的状态,要么是0,要么是1,所有的计算都按照经典的物理学规律进行。量子信息扎根于量子物理学,一个量子比特(qubit)就是0和1的叠加态,相比一个经典比特只有0 和1 两个值,一个量子比特的值有无限个。 量子的不可克隆定理 为什么说量子不能被克隆呢?我们可以用反证法进行证明。如果任意量子态可以被精确克隆,那么我们就可以这么做:先把这个量子态精确地复制100份,然后用100种不同的测量方法来精确地得到100种不同的信息——如果100份还不够,那么就克隆10000份好了。通过选择测量方法,我们就可以知道每个特定备份的相关性质,再加上精确克隆的假定,我们就可以知道任意量子态的任何信息,海森堡测不准原理也就不可能成立了——这个结论与实验观测事实是矛盾的。所以说,量子不可克隆原理等价于海森堡测不准原理,也等价于测量会影响量子态的这个量子力学基本假定。 量子不可克隆原理告诉我们,如果你只有一个光子,而且事先不知道它的偏振状态,那么你就不可能复制出两个完全相同的光子,更别说100万个了。这就是“墨子号”量子通信卫星的理论基础。 量子纠缠 量子力学中最神秘的就是量子叠加态,而“量子纠缠”就是多粒子的一种量子叠加态。以双粒子为例,一个粒子a可以处于某个物理量的叠加态,同时另一个粒子b也可以处于叠加态。当2个粒子发生纠缠时,就会形成一个双粒子的叠加态,无论2个粒子相隔多远,只要没有外界干扰,当a粒子处于0 态时,b 粒子一定处于1 态;反之,当a粒子处于1 态时,b粒子一定处于0态。 用薛定谔的猫做比喻,就是a和b两只猫如果形成上面的纠缠态: 无论两只猫相距多远,即便在宇宙的两端,当a猫是“死”的时候,b 猫必然是“活”;当a猫是“活”的时候,b猫一定是“死”(当然,真实的情况是,猫这种宏观物体不可能把量子纠缠维持这么长的时间,10~30 秒内就会解除纠缠。但是基本粒子是可以长时间保持纠缠的,如光子)。 传统计算机的终结者 正是由于量子计算的独特性质,使其具有了传统计算机所无法企及的超强能力。量子计算可以说是传统计算机的“终结者”,它战胜传统计算机的两大致胜法宝到底是什么呢?法宝一,是量子计算相较于传统计算机呈指数级增长的计算能力。经典计算机中,一个经典比特只能存储一位信息,要么是1,要么是0。但是在量子计算机中,这个比特可以是 0 ,也可以是 1 ,关键是它们同时参与了计算,而只在你观测时才会塌缩成一个完全确定的解答。假如是 10 个经典比特,那么相当于 10 位数据参与运算。而10个量子比特就是2∧10,也就是1024位数据参与了运算,这是多么巨大的差距。 法宝二,是量子计算的可逆性。正是由于量子计算具有可逆性,才使它的能耗和传统计算机相比大幅降低。我们现在计算机的主要热量,来源于我们对存储器的不断读写和重置。假设我们的存储器内有 0 和 1 组成的杂乱无章的数据,现在我们全部清零,这一刻我们的存储器显然变得更加“有序”,即无序程度“熵”的降低,而根据热力学定律,这些熵就以热量的形式散发出去。因为微观粒子的幺正性,量子的运算是一种完全可逆计算,信息不会丢失而得到重用,几乎不会有热量的散失。设想一下,未来你的笔记本电脑可以用一个纽扣电池续航一周,而且运算速度是现在计算机的数亿倍,那是一件多么美好的事情! 量子计算的两大算法 读到这儿,你可能会说,量子计算的特点和法宝我已经明白了,看起来完成量子计算并不难,那么量子计算机的实现一定指日可待了吧?对不起,答案是否定的。虽然我们已经明确了量子计算的原理,但要想实现量子计算机这个终极目标,还有两个巨大的难题摆在科学家的面前——算法和物理实现。那么现在已经发明的量子计算的“明星算法”有哪些呢? shor算法 要想开拓出量子计算机巨大的并行处理能力,必须寻找适用于这种量子计算的有效算法。shor于1994年发明了第一个量子算法,它可以有效地用来进行大数因子分解。 大数因子分解是现在广泛用于电子银行、网络等领域的公开密钥体系 rsa安全性的依据。采用现有计算机对数n(二进制长度为log n)做因子分解,其运算步骤(时间)随输入长度(log n)指数增长。迄今在实验上被分解的最大数为129位,1994年在世界范围内同时使用1600个工作站花了8个月时间才成功地完成了这个分解。若用同样的计算功能来分解250位的数则要用80万年,而对于1000位的数,则要用10∧25年。 与此相反,量子计算机采用 shor算法可以在几分之一秒内实现1000位数的因子分解,而且操作时间仅随输入数的3次方增长。可见shor量子算法将这类“难解”问题变成了“易解”问题。在量子计算机面前,现有公开密钥rsa体系将无密可保! shor的开创性工作有力地刺激了量子计算机和量子密码术的发展,成为量子信息科学发展的重要里程碑之一。 grover算法 1997年,grover发现了另一种很有用的量子算法,即所谓的量子搜寻算法,它适用于解决以下问题:从 n个未分类的客体中寻找出某个特定的客体。经典算法只能是一个接一个地搜寻,直到找到所要的客体为止,这种算法平均地讲要寻找 n/2次,成功的概率为50%,而采用grover的量子算法则只需要次。比如,要从有着100万个电话号码的电话本中找出某个指定号码,该电话本是以姓名为顺序编排的。经典方法是一个个地找,平均要找50万次才能以50%的概率找到所要的电话号码。 grover的量子算法是每查询一次可以同时检查所有100万个号码。由于100万个量子比特处于叠加态,量子干涉的效应会使前次的结果影响到下一次的量子操作,这种干涉生成的操作运算重复1000(即)次后,获得正确答案的概率为50%。但若再多重复操作几次,那么找到 grover算法的用途很广,可以寻找最大值、最小值、平均值等,也可以用于下棋。最有趣的用途是可以有效地攻击密码体系,如des体系。这个问题的实质是从256=7x1016个可能的密钥中寻找一个正确的密钥。若以每秒100万密钥的运算速率操作,经典计算需要1000年,而采用grover算法的量子计算机则只需小于4分钟的时间。难怪grover以“量子力学可以帮助在稻草堆中寻找一根针”这样的题目在 prl上公布他的算法。 虽然量子计算领域已经诞生了一些非常有效的算法,但它们的数量还远远不够。各国科学家正从不同途径来探索实现量子计算的算法,虽然量子计算不断地取得进展,在《自然》《科学》杂志上每年都有许多重要的进展发表,但仍未从根本上取得突破。看来,量子计算在算法领域还有许多疆域需要我们去开拓。 量子计算的另一个挑战:物理实现 虽然“明星算法”为量子计算指明了前进的方向,但是如果不能将量子计算机的物理基础搭建起来,那这一切都是无源之水、无本之木。 制造量子计算机的困难在于要找到可以编码的量子比特,并且能够有效地被外界控制,但又与环境有很好的隔离,不会使系统很快消相干失去量子特性的物理系统。di vincenzo关于量子计算的物理实现技术提出了著名的7个判据[5]。他认为,对于任何一种可行的量子计算实现技术,以下条件是必要的。 (1)可扩展的具有良好特性的量子比特系统。 (2)能够制备量子比特到某个基准态。 (3)具有足够长的时间来完成量子逻辑门操作。 (4)能够实现一套通用的量子逻辑门操作。 (5)能够测量量子比特。 (6)能够使飞行量子比特和静止量子比特互相转化。 (7) 能够使飞行量子比特准确地在不同的地方之间传送。 虽然目前的科学和技术条件距离实现一个实用的量子计算机还有很大的距离,但是已经有一些科学技术手段可以实现对几个量子比特的控制操作。目前,学者们已经提出了多种量子计算的实现技术和方案,包括离子阱、光学、量子点、超导约瑟夫森结、腔量子电动力学、液体核磁共振、kane的硅基半导体方案、富勒球、中性原子和液氦表面电子等,其中有些实现技术已经成功地实现了简单的量子算法。 离子阱方法 利用离子阱技术实现量子计算是cirac和zoller在1995年首次提出来的。2003年,奥地利因斯布鲁克大学的tt研究小组利用离子阱技术成功地实现了cirac-zoller控制非门,同年,同一研究小组利用离子阱技术第一次成功地演示了deutsch -jozsa算法。离子阱技术的优点是具有较长的相干时间(可达10分钟),有较高的制备和读出量子比特的效率。目前,已经有人提出了建造大规模离子阱量子计算装置的设计方案。 离子阱方法有待解决的问题是引起离子运动消相干的电场波动的来源目前还不是十分清楚,能储存多条离子链的离子阱在实验上很难实现,离子的自发辐射会导致消相干,激光的相位和强度的波动会影响对离子的操作,也会导致消相干。量子信息和量子计算研究的一个重要目的就是把信息的特性与物理规律联系起来,离子阱量子计算为研究这种联系提供了具体和完整的研究途径。 光学方法 光学方法不仅在量子信息研究中非常重要,在量子计算领域也是一个十分重要的手段和研究方向。光学方法差不多在量子信息研究的每一个领域都有贡献,其中包括量子远程传态、量子密码、多粒子量子纠缠、量子态和量子过程的重建以及简单量子算法的实现等。事实上光子是一种十分理想的量子比特的载体:光子的偏振和光子的路径信息都可以用来编码量子比特;用各种半波片和半透镜等光学器件就可以完成对量子比特的单比特操作;而且目前的单光子探测技术可以对光子进行令人满意的测量。 一个通过事后选择实o门的光学方法(量子比特由光子的不同偏振态编码,光子之间的相互作用由事先制备的纠缠提供),光子与环境的相互作用很小,具有很好的相干性,但同时也带来了一个问题:光子之间几乎没有相互作用,无法实现2个量子比特直接的逻辑门操作。虽然基于线性光学器件和单光子源的量子计算方案在2001年就被提出来了,但在2003年研究人员才首次通过光学方法利用纠缠光子对明确地实现了2个量子比特的逻辑门控制,但这种现象是概率性的。 光学方法有很多其他方法所不能比拟的优点:光子是飞行比特,天然适合于分布式量子计算;精确的单比特操作;光学中有许多相当成熟的技术可以利用;与量子通信直接兼容;目前最成熟的纠缠源就是参量下转换过程(parametric down-conversion)所产生的纠缠光子源。 量子点方法 量子点方法是指利用半导体制备技术制造的一种砷化镓量子点(ga as qds)。量子点中的电子自旋可以作为量子比特,在一个典型条件下(300m k,5t),平衡态的量子点中的电子自旋向上的概率为99%。利用电子的泡利不相容原理,通过自旋和电荷之间的关联,可以通过普通的电子开关对电子自旋进行控制。原理上可以通过电子的电荷及电子的库仑相互作用完成对电子自旋编码的量子比特的各种操作,包括单量子比特操作和两量子比特操作及结果的读出。 目前的量子点量子计算处于装置结构的制造和基本性质的研究的阶段,距离实现量子计算的7个条件还有很多工作要做。但作为一种固体量子计算实现技术,它可以借助很多现在的半导体制造技术和经典电子技术。 10种量子计算物理实现方法:divincenzo判据[1] 军事与商业:量子计算的用武之地 近几年,无论是量子计算的硬件规模还是操作的保真度和可控性,都在稳定地增长,可以预见,在未来的几年内量子计算系统会在很多特定任务上表现出比传统计算机显著的优势。无论是在军事方面,还是在商业方面。 军事领域 当今时代,人类战争的形态已经由机械化转化为信息化,而实现这一转变的里程碑事件是1946年世界上第一台计算机的诞生。但是,随着信息技术的进一步发展,电子计算的瓶颈也逐渐凸显出来。为了进一步提高计算能力,世界各国的军事机构和公司都在相继开展量子计算的研究工作。自美国的“量子信息科学和技术发展规划”和旨在研发量子芯片的“微型曼哈顿计划”开始,不甘落后的日本、法国、德国等国家也制定了一系列关于量子计算的军事计划。作为军事大国,我国在量子计算的研究和应用上也不落人后,对光晶格中超冷原子自旋比特纠缠态操纵的首次实现,就是我国在量子计算领域研究的代表之作,这一成果也为量子计算的扩展应用奠定了基础。 量子计算可以应用在军事通信领域,将量子比特用作信息传输的载体,不仅可以使通信过程的传输速度更快、容量更大,还可以提高信息传输的安全性。量子通信可以提供一种相对于传统的密码体系来说更安全的新型密码体制。利用量子叠加原理,一旦有窃听者存在,在发送的信息中就会存在额外的误码,能被迅速地检测到,从而使密码传输具有极高的安全性。而更安全的密码传输,可以使军队在纷繁复杂的未来战斗的过程中,相互连通的方式更有保障,从而占据更大的主动性。值得一提的是,量子通信与传播介质无关,这与传统的通信技术相比是一个极大的优势;在一些特殊环境中,如深海等,仍然可以保证远距离通信。 随着量子卫星的成功发射,科研工作者如果后续将量子卫星组网,并与地面的通信网络协同合作,在可见的未来构建空间广域量子保密通信网络,甚至是可达全球覆盖,这在军事行动中将成为一柄利剑,未战先立于不败之地。通信技术将构建跨区域范围甚至是全球范围的量子通信网络系统,并具有极高的通信安全保障。 雷达系统是现代军队作战的探测器和指挥官,量子计算在雷达领域也具有巨大的应用潜力。现代战争中使用的雷达是发射电磁信号的相控阵雷达,雷达发射的电磁信号经过目标发射后,返回到雷达系统的接收机中,经过信号处理,我们就会知道敌方军事目标的位置、速度等重要信息。但是,隐身技术的飞速发展,向现代雷达的探测能力提出了巨大的挑战,提高雷达信号的探测灵敏度就成为各个军事机构研究的重点课题。利用量子不可克隆原理和量子叠加原理,将量子信息调制到雷达信号中,可以获得量子雷达,其灵敏度将远高于传统雷达。利用量子计算机对量子信号分析处理,将使我们迅速获得敌方军事目标的活动轨迹,这些信息会为我方部队提供精确打击的基础,对敌方而言则是“死亡的丧钟”。量子计算在雷达领域的使用,有望使未来军队在探测与反隐身作战方面迈上新的台阶。 除去军事通信和雷达领域之外,量子计算在军事成像领域也可以大显身手。利用量子计算的独特性质,可以实现量子光场,进而提高军事成像的分辨率。量子成像技术,可在没有目标的光路上得到探测目标的图像,在未来战场上具有的应用前景同样不可限量。 商业领域 我们相信,在未来的某日,稳定可控的量子计算机将会在众人期待中登上历史的舞台。从理论上来讲,这种计算机能够解决一切计算难题,因此投资界一致认为关于量子计算的投资将会带来长远的收益。实际上,虽然目前能解决实际问题的量子计算机还在研制中,但一旦有与量子计算相关的小设备投入生产和使用,对于投资者来说也必然是一笔可观的收入;而且这一天不会来得太晚,随着研究的不断突破, 3~5年内发生是大概率事件。在商业范畴,时间就代表着金钱甚至生命。更快的计算速度代表着更高的效率,基于量子计算开发的设备在金融、医疗、生物甚至人工智能等领域具有广阔的应用前景,并将带来可观的商业回报。 有关量子计算的设备崭露头角时,将会在哪些技术领域得到商业运用呢?根据量子计算的特点和相对于传统计算系统的优势,我们在这里做出大胆的假设:量子计算的初步应用应该会涉及数值模拟、优化和采样等需要处理庞大数据的领域。 数值模拟即通过数值计算和图像显示的方法,达到对工程问题和物理问题乃至自然界各类问题研究的目的。以对材料的性能极其相关的化学反应模拟为例,使用传统方法需要花费极大的财力和时间,而且很难研究出量子层面的分子间互动;而一旦引入量子计算,大规模短时间建模计算将不再是梦。基于量子计算,甚至可以在短时间之内建立庞大的备选材料数据库。传统方法对材料的模拟只能达到定性分析的水平,而量子计算能达到定量模拟的高度,并且还有预测新型材料的能力。不管是为了化学反应开发高效的催化剂,还是为了航天航空领域开发特殊性能的材料,或是为了医学领域开发更适合人体的医疗设备材料,量子力学的大容量和超快速都可以带来巨大的商业价值。ibm试验性量子计算集团的经理杰瑞·周(jerry chow)说:“在药物制造、药物设计、化工设计以及生物制药等领域,量子模拟很有潜力。” 优化是各行各业中都会面临的问题,在物理、社会等各种计量学科中,中心任务都是优化。下面以制造业的参数优化为例来简单地介绍一下优化的概念。参数优化是达到设计目标的一种方法,通过将设计目标参数化,采用优化方法,不断地调整设计变量,使得设计结果不断接近参数化的目标值。随着增材技术的稳定性应用,与之配套的优化技术也相应成为制造业在近几年的热点。但传统算法由于其本身的局限性,并不能为优化的发展提供基础,在解决优化问题上屡屡遇到困难;其原因在于传统算法中优化的核心是尝试寻找数学上可能存在的解,而好的方案的获得往往需要克服巨大的计算障碍。如果换一种思路,使用统计学的方法,同时在经典采样中引入量子现象,就可以利用量子现象的隧穿效应找到稀有但高质量的解决方案,事半功倍。这就比如面前有一堵墙挡住了我们的去路,传统方法在高墙之下一筹莫展,而量子辅助优化却宛如“崂山道士”般穿墙而过。 另外,量子计算还可被应用于采样技术。与统计学中常用的概率分布函数抽样不同,理想的量子电路可以从更大的概率分布函数中进行采样。而且有研究表明,只需要一个25层的网络,每层使用了一个7x7 量子比特的量子电路,就有望从经典方法不能采样的概率分布函数中采样。量子采样在机器学习中的推理和模式识别等方面将有极大的应用前景。 量子计算应用的先行者 量子计算强大的运算能力,使其成为诸如复杂问题优化、量子加密通信等领域的不二选择。为了在这个极富前景的领域开疆拓土,众多公司不惜投入极大的财力与人力开展相关的应用研究。 谷歌 作为搜索行业的巨头,谷歌公司希望通过量子计算来获得更好的人工智能和更好的复杂优化问题的解决方案。 谷歌在量子人工智能实验室(quantum artifcial intelligenceb,qu ail)拥有一台 d-wave systems 的量子计算机。该实验室由美国宇航局(nasa)以及位于加利福尼亚州芒廷维尤的美国宇航局艾姆斯研究中心(nasaames research center)的大学空间研究协会(universities space research association)共同办。 d-wave systems inc是世界上第一家商用量子计算机公司,它与谷歌的交易是 d-wave 历史上最大的一笔。谷歌及其合作伙伴拥有长达7年的最新 d-wave 机器的访问权限,期间新一代d-wave 系统将被安装在美国宇航局艾姆斯研究中心的设备上供其使用。d-wave公司是量子计算机研究的开拓者。2007年,加拿大初创公司d-wave systems宣布,他们使用16个超导量子比特成功制成了量子计算机,这一消息震惊了世界。但是d-wave的机器并没有使所有的量子比特发生纠缠,并且不能一个量子比特接着一个量子比特地编程(be programmed qubit by qubit),而是另辟蹊径,使用了一项名为“量子模拟退火”(quantum annealing)的技术。在该技术下,每个量子比特只和邻近的量子比特纠缠并交互,这并没有建立起一组并行计算,而是一个整体上的、单一的量子状态。d-wave开发者希望把复杂的数学问题映射到该状态,然后使用量子效应寻找最小值。对于优化问题(比如提高空中交通的效率)来说,这是一项很有潜力的技术。 但批评者们立刻指出:d-wave并没有攻克许多公认的量子计算难题,如错误修正(error correction)。包括谷歌和洛克希德马丁在内的几家公司购买并测试了d-wave的设备,他们初步的共识是,d-wave做到了一些能称之为量子计算的东西,而且在处理一些特定任务时,他们的设备确实比传统计算机要快。无论这到底算不算量子计算,d-wave把it行业的巨头们震醒了。硅谷企业家chris monroe说:“d-wave确实打开了人们的眼界。他们让大家意识到量子计算机是有市场的,并且有强烈的需求。”几年内,各个公司纷纷投入到与它们的专业知识相关的量子计算领域去。 领导谷歌 qu ail 工作的 hartmut neven 及其团队最近发表了一篇有关其 d-wave 2x 计算机的论文,它展示了该机器的计算执行速度能比一块经典的计算机芯片快 1 亿倍速的初步测试结果。早在 2013 年,该团队已利用 d-wave 的机器在 web 搜索、语音/图像模式识别、规划和行程安排、空中交通管理、机器人外太空任务等应用中进行了量子计算的探索,并支持任务控制中心的操作。 2014 年,为了减少机器学习与人类智能之间的差距——且为了在人工智能的新兴领域中取得领先地位——谷歌开始利用其在 d-wave 机器上的经验并专注于开发自己的量子硬件。谷歌为此雇佣了圣巴巴拉市加利福尼亚大学(university of california,santa barbara)的一位超导量子比特专家john martinis 及其团队,来建立谷歌的专属量子芯片。这之后,john martinis团队宣布,他们已经建成了9个量子比特的机器,是目前世界上可编程的最大的量子计算机之一,而且他们正在尝试扩大规模。为了避免大堆缠绕的电线,他们正在2d平面结构上重建该系统。系统会铺设在一块晶圆上,所有的控制电路都被蚀刻在上面。 john martinis团队如今已有30名科学家和工程师。2016年7月,他们用了3个超导量子比特来模拟氢分子的基态(ground state)能量,这展示了在模拟简单的量子系统上,量子计算机可以做到和传统计算机一样好。martinis表示,这个结果预示了拥有“量子霸权”的计算设备的力量。他还认为,谷歌用1年时间创造出49个量子比特计算机的计划很赶时间,但有可能实现。 英特尔 与谷歌公司的出发点不同,英特尔公司对量子计算的研究则专注于利用量子计算在先进制造业、电子工业和更好的系统架构设计中受益。 对量子计算最大的投资也来自英特尔。2015年,英特尔公司宣布将向荷兰代尔夫特理工大学的量子技术研究项目qu tech以及荷兰应用研究组织投资5000万美元,用于 10 年合作期的工程支持供给。英特尔专注于硅量子点(silicon quantum dots)技术,它经常被称作“人造原子”。一个量子点的量子比特是一块极小的材料,像原子一样,它身上的电子的量子态可以用0或1来表示。不同于离子或原子,量子点不需要激光来困住它。 早期的电子点用几近完美的砷化镓晶体制作,但研究人员们更倾向于硅,希望能借用半导体产业的巨大产能。qu tech技术负责人leo kouwenhoven说:“我认为英特尔属意于硅,毕竟那是他们最擅长的材料。”但是基于硅的量子比特研究大大落后于囚禁离子技术和超导量子技术。2016年,澳大利亚新南威尔士大学的一个研究团队才完成2个量子比特的逻辑门。 英特尔公司首席执行官brian krzanich 曾发表了一篇博客,详细描述了公司在量子计算领域的战略利益,以及电子工业和制造业的专业知识在量子计算实践方面的相关性。这也从侧面反映了英特尔公司在量子计算领域开疆拓土的雄心壮志。 微软 作为全球最大的计算机操作系统供应商,微软正在为量子计算机制造专用软件和硬件。 早在2005年,微软带领的一支研究团队就提出了一种在半导体——超导体混合结构中建造拓扑保护量子比特的方法。而微软公司量子计算研究的核心部门——qu ar c 部门成立于2011 年 12 月,其关注的重点是为可扩展的、容错的量子计算机的使用设计软件架构和算法。该机构值得关注的一项成就是liqui——一种用于量子计算的软件架构和工具套件。微软的qu ar c团队与全世界的许多大学都建立了紧密的合作关系,其中包括代尔夫特理工大学、nils bohr 研究所、悉尼大学、普渡大学、马里兰大学、苏黎世联邦理工学院和加州大学圣巴巴拉分校(ucsb)等知名学府。 2014年,微软透露自己在ucsb的校园内有一个名叫station q的小组正在研究拓扑量子计算(topological quantumputing)——旨在改善量子状态的控制设计。在qu ar c团队的软件和算法工作的基础上,station q 是微软一项跨世界的工作:将全世界的数学家、计算机科学家、量子物理学家和工程师集合起来构建混合超导/半导体设备,以用于受控环境中的应用,其最终目标是创造一种可扩展的、容错的通用量子计算机。 微软团队的研究表明,理论上拓扑量子计算机不需要在错误修正上花费那么多量子比特。 在量子计算研究火速发展的今天,微软绝不会停止自己前进的步伐。近期,微软已经投资了数个团队进行量子计算的研究尝试。这些团队近期的研究显示,量子计算中的关键载体“任意子”以电路中电流的模式进行移动。这些科学家已经很接近展示真正的量子比特了。微软研究团队的首席科学家preskill说:“我认为在一两年内,我们就可以看到结果——拓扑量子比特确实存在。” 在国外的it行业巨头重点研究量子计算的同时,我国的科学家和企业家们也不遑多让。2015 年 7 月,阿里巴巴的阿里云与中国科学院在上海建立了一个研究机构,叫作阿里巴巴量子计算实验室(alibaba quantumputingboratory)。该实验室的目标是为电子商务和数据中心研究量子安全技术。阿里巴巴打算用量子计算机来开发更安全的电子商务和支持电子商务的数据中心。 致力于量子计算研究的公司和机构还远不止这些。自进入工业时代起,人类已经走过了蒸汽时代、电气时代和信息时代,而蒸汽机、电灯和电子计算机的发明,正是人类叩开新时代的大门的钥匙。在众多科研工作者的努力下,相信在不久的将来量子计算机就会实现,人类社会会随之进入“量子时代”吗?让我们拭目以待。 专家点评 张云泉 中国科学院计算机技术研究所研究员、博导,国家超级计算济南中心主任。 人类对新计算工具的创新和更快的计算速度的追求是永无止境的。 最早期的人类用绳子结绳计数,还只是满足于对自己猎取收获的统计和管理功能,那时的计算工具就是绳子,仅仅能够起到统计数量的目的。 中国是世界上最早发明算盘这一先进计算工具的国家,而且我个人认为算盘也是世界上最早具有并行计算能力的计算工具。算盘与绳子相比,已经具有加减的基本计算能力,根据珠算口诀,人的10个手指可以同时参与这一过程,从而有效地提高了人类对数据的处理速度。直到现在,仍然有一批熟练使用算盘的人,而且他们还举办比赛。 此后的中国人几乎满足于算盘的作用,基本没有再发明更先进的计算工具。而欧洲随着文艺复兴走出黑暗的中世纪时代,随着蒸汽机的发明和广泛使用以及资本主义商业活动的日益活跃,对计算速度的需求快速提升,人们急需一种新的计算工具。于是,以英国人为主的欧洲科学家们开始了对自动差分机的机械计算工具的研究竞赛。这也为后来的图灵计算机的提出奠定了坚实的基础。 基于此前对机械自动计算工具的坚实的研究基础,英国人在第二次世界大战中基于破译德军密码这一对计算能力的强烈需求,投入了最精锐的科学家研制自动破译密码的机械计算工具,并成功地破译了德军传奇式的恩尼格码密码机,对盟军赢得第二次世界大战做出了卓越的贡献。而在这其中起到关键作用的就是现代计算机的理论奠基人图灵。图灵最早提出了图灵计算机的理论基础,并提出了图灵测试。 真正意义上的现代计算机,是在第二次世界大战之后由美国人主导发明的,这其中的关键人物就是美国曼哈顿工程的科学家冯·诺依曼教授。他提出的存储程序计算机,也就是我们常说的冯·诺依曼体系结构计算机,是直到现在还在使用的计算机体系架构。虽然有科学家提出过非冯的新体系架构,但实际上其本质还是冯氏体系架构的范围,只不过做了一些扩充而已。所谓“孙悟空即使有七十二变和筋斗云,也翻不出如来佛的手掌心”。 而真正能够“跳出如来佛手掌心”的是拥有量子叠加能力的量子计算机。量子计算的概念最早是由美国物理学家费曼在1982年提出的。量子计算机是基于量子理论提出的,特别是量子同时处于0和1两种状态的特性,这与半导体同一时间只能处于0或1的状态截然不同。但是量子计算机的研制充满了艰难曲折,此前一直处于理论研究的阶段。 虽然美国宇航局、谷歌公司等机构合作开发的d-wave量子模拟机对某些问题的求解速度已超过传统计算机的1亿倍,但学术界还是有许多人认为这不是真正的通用量子计算机。d-wave 的机器并没有使所有的量子比特发生纠缠,并且不能一个量子比特接着一个量子比特地编程,而是另辟蹊径,使用了一项名为“量子模拟退火”(quantum annealing)的技术。该技术中,每个量子比特只和邻近的量子比特纠缠。最新版的d-wave 2000q量子计算机包含约2000个超导量子比特(qubits),是前一代量子计算机的2倍,售价仅为1500万美元,但是其性能也仅仅比当前最快的单个cpu或gpu快一些。就像《自然》杂志所解释的那样:d-wave使用的量子比特相对来说比较简单,这使该公司能研制出首台经济可行的量子计算机,但成也萧何败也萧何,这种量子比特非常脆弱,且比其他实验室正在研发的量子比特更容易失去量子状态。 谷歌是世界公认的量子计算机领域的领头羊。谷歌进入量子计算的路径是极小的超导电路。原理是用一股无电阻电流沿着电流回路来回振荡,注入的微波信号使电流兴奋,从而让它进入叠加态。目前,谷歌已制造出9个量子比特的机器,并计划在2018年增加至 49个量子比特。这是一个极为关键的门槛。有学者预计,在50个量子比特左右,量子计算机就能达到“量子霸权”(quantum supremacy)。微软不久前也公布了自己的开发路径,它的选择是拓扑量子比特技术,是以“任意子”(anyons)作为基础。“任意子”是一种以 2d 形式存在的粒子,可用于构建超级计算机的模块并激发亚原子的物理属性。其原理是电子通过半导体结构时会出现准粒子,它们的交叉路径可以用来编写量子信息。 与上述两家公司选择的技术路径不同,英特尔公司正在努力利用硅晶体管的能力来制造量子计算机。英特尔在美国俄勒冈州波特兰的量子硬件工程师团队正与荷兰代尔夫特理工大学qu tech量子研究所的研究人员展开合作。英特尔公司声称,已经可以在芯片工厂中将量子计算机所需的超纯硅层加到标准芯片上。这一技术路线使得英特尔在众多研究量子位的工业和学术团体中表现突出。其他公司利用超导电路去实现量子位,但这样的量子位数量有限。此外,相对于超导材料,硅量子位的可靠性更好。 在国内通过不同方法开展量子计算研究的有中国科技大学、南京大学和中科院物理所等单位,近期中国的阿里巴巴公司也携手中国科技大学加入战团。2017年年初,中国科技大学首次实现了10个光子纠缠,再次刷新了光子纠缠态制备的世界纪录,向实现20个、30个光子的纠缠在特定问题的处理能力上超越经典商用计算机迈出了重要一步。 乐观的估计,实用的量子计算机在未来的5年之内就会投入使用。2025年左右,具有50个量子位运算能力的量子计算机将投入使用,并在计算能力上超越同时代的最快的超级计算机。当然,也有一些科学家很悲观,认为50年内量子计算机很难投入使用。这是量子计算机的一体两面,必须辩证地看待这个问题。未来几十年,超级计算与量子计算将共同存在和发展,超级计算擅长解决科学计算问题,量子计算擅长解决优化问题和机器学习问题,二者是互补的。目前的量子计算机还需要计算机的驱动,可以作为加速卡来使用。量子计算希望一个问题的输入和输出尽量少,计算量尽量大,越大越好。 nature 以“2017年将使量子计算机从实验室走进现实”为题刊文,预计2017年该领域具有值得期待的突破。量子计算长期以来都被认为是20年以后才会实现的技术,但是2017年可能是这个领域改变其“仅限于研究”的印象的一年,量子计算正在从纯粹的科学转变到工程建造。目前,已经可以做到20个量子位的同时操作。 总之,随着摩尔定律在提出50年后逐渐失效,整个it界都在期盼一种新的计算工具的出现,能够拯救摩尔定律。而量子计算机就是其中被寄予厚望的新计算工具之一。让我们拭目以待。 [1].#1-#7分别对应前面介绍的7个divincenzo判据,▲暂无方案,■原理上可行,★可行性得到了比较充分的证实 reversing paralysis 治愈瘫痪 撰文:赵伊zoe、verdi 突破技术 无线脑——体电子元件可绕过神经系统的损伤来实现运动。 重要意义 全球有数百万人被瘫痪所折磨,无时无刻都渴望着摆脱疾病的困扰。 技术成熟期 10~15年 主要研究者 -洛桑联邦理工学院(epfl) -韦斯生物和神经工程中心(wyss institute at harvard) -匹兹堡大学(university of pittsburgh) -凯斯西储大学(case western reserve university) 想象你在一个风华正茂的年纪,有一天发生了意外,苏醒后由于闭锁综合征而全身瘫痪。思维由此被闭锁在瘫痪的躯体中,想要沟通只能依赖全身上下唯一能自主控制的地方——左眼皮。这会是多么绝望而无助:你只能通过眨眼来拼写字母,表达想法。一次又一次艰难地眨眼,从字母组合成单词,从单词拼凑成句子,从句子连接成段落——最简单的交流变得如此烦琐而低效。你的大脑能够正常运转,却无法控制肌肉运动,无法走遍万水千山、领略世间精彩,甚至不能与亲朋好友正常交流、分享喜怒哀乐,更别提自主生活了。 这个真实的故事来自《潜水钟与蝴蝶》,发生在法国著名时尚杂志《elle》的总编辑尚·多明尼克·鲍比42岁的时候[1]。闭锁综合征的案例比较极端,但是类似的情节并不鲜见,因为瘫痪患者在现实生活中比比皆是:霍金、张海迪、史铁生,甚至我们的亲戚、邻居……他们的灵魂如蝴蝶般轻巧,“追求蝴蝶一样自由的思维”,身体却如潜水钟一般笨重不便。 瘫痪的主要表现是肌肉功能丧失,常常伴随有感觉的缺失。2013年的美国瘫痪流行病的数据表明,每50个人中就有1个人身患瘫痪。仅在美国就有近540万人深受瘫痪的折磨,且呈明显上升的趋势。2/3的患者的年龄在18~64岁,主要成因是中风和脊髓损伤[2]。 中风是指脑血管阻塞或破裂出血,导致脑细胞缺血死亡。中风虽不像癌症等疾病令人闻风丧胆,却极大地影响了患者的生活质量。许多精神矍铄的老人在中风后便垂垂老矣,英国前首相撒切尔夫人也因中风去世。中风的危险因素有年龄、高血压、高血胆固醇、糖尿病等。值得一提的是,我国脑中风的死亡率居全球第一,死亡人数的年增长率达到8.7%,其中70%为缺血性脑中风[3]。 脊髓负责接收和传递大脑控制机体感觉和运动的指令,脊髓损伤则直接影响这一过程。一场交通事故、一次意外的跌落、一次暴力事件,就可能不幸地增添脊髓损伤患者。脊髓损伤患者的死亡风险在损伤后的第一年最高,之后相较于一般人群也持续处于高水平,且死亡风险与损伤水平和严重程度成正比。 位列第三的瘫痪成因是多发性硬化症,多见于女性,发病率也逐年上升。多发性硬化症是自身免疫病,患者产生的大量自身免疫细胞浸润中枢神经系统,慢性炎症造成神经元脱髓鞘,影响轴突的信号传递。这一切使得大脑失去了对外周的控制,造成多部位肢体僵硬、视觉障碍等症状。多发性硬化症作为自身免疫病,死亡率不高,大多数患者能够存活20~30年,却与其他造成瘫痪的疾病一样无法根治。此外,其他自身免疫疾病如格林巴利综合症等也可能引发瘫痪[4]。 瘫痪的其他成因还包括神经疾病。英国著名物理学家霍金是肌萎缩性脊髓侧索硬化症(als)患者,2014年网络大v们争相尝试的“冰桶挑战”就是在为治疗此病募集资金。神经疾病还包括困扰拳王阿里的帕金森症,该病造成中脑黑质多巴胺能神经元大量丢失,导致肌肉不受控制地颤抖、四肢僵硬。 瘫痪对患者的身心健康和经济都造成了严重的影响。首先,瘫痪可引发多种继发性疾病,包括常见却致命的褥疮、自主神经反射异常、深静脉血栓形成、神经性膀胱功能障碍、休克、慢性疼痛、呼吸道并发症等[5]。这些继发疾病大多轻则降低生活质量,重则直接危及生命。 其次,瘫痪会给一个家庭带来难以想象的经济负担。无论是下身麻痹、低位瘫痪还是高位瘫痪,患者每年都要花费十几万美元甚至数十万美元用于护理、康复和健康维持,而这还没算上患者原有的薪资收入等不菲的直接损失。 雪上加霜的是,瘫痪给患者带来的突然打击和基本移动的障碍,使得患者对自己失去能力感到愤怒、羞耻,悲观厌世,产生抑郁倾向。这些由瘫痪引起的心理障碍很容易成为压垮病人的最后一根稻草。 瘫痪目前无法根治。 现有的治疗方法只能尽可能地帮助患者适应生活:轮椅助行、繁重的矫正器和支架帮助复健,还需预防和处理消化系统紊乱、神经疼痛等并发症。对于特定原因引起的瘫痪,医生还会采取对症治疗:痉挛性瘫痪使用肉毒杆菌或肌肉松弛剂,自身免疫病使用糖皮质激素、免疫制剂等药物缓解症状[6]。 现有的治疗方法的局限性不言而喻。高位或低位截瘫的严重脊髓损伤患者无法得以彻底治疗,只能终生卧床,失去独立生活的能力。对于肢体截瘫患者,即便安装假肢,也无法灵便地控制运动、复健。 那么,有没有什么方法能够把控制自己身体的权利再度交到瘫痪患者的手中? 在科幻片《阿凡达》里,双腿残废的男主角躺进机器中,思维便可以控制在另外一个星球的阿凡达。这个“黑科技”看似遥不可及,实际上却已经让聋者听见、让盲人看见,今后还要让截瘫患者行走,让闭锁综合征患者说话、让患者的躯体像蝴蝶一样自由——这个“黑科技”就叫“脑机接口”(brainputer interface, bci)。 脑机接口是科学技术改变生活的一大里程碑。脑机接口是人脑与计算机或其他设备之间建立的连接通路和控制渠道。通过计算机接收信号,人脑可以直接表达想法或者控制其他设备,而不需要通过语言或肢体工作,不依赖于外周神经和肌肉——用“意念”控制设备,解放四肢。 脑机接口现在已经在医学领域广泛应用,主要有恢复、提高以及替代机体的功能。在恢复感觉方面,脑机接口的研究比较成熟,商品化的“神经义肢”已经问世。植入式脑机接口可以恢复感官系统丧失的功能,如仿生耳(植入人工耳蜗恢复听力)、仿生眼(植入人工视网膜芯片恢复视觉)[7]。关于其他机体功能如运动、交流,商业化产品尚未问世,但是相关的动物研究已经取得很大进展。在替代机体功能方面,研究者希望脑机接口可以让患者用意念操纵计算机光标、机器臂、轮椅等设备。这个方向的人体试验正在进行。 那么,脑机接口是如何从科幻片中的内容变成现在蓬勃发展并已应用到临床上的时代前沿的呢?这要感谢神经科学、信号处理、传感器等学科的进步。 最早的脑机接口专注于恢复患者的感觉。研究者对耳蜗的结构与工作原理了解较早。耳蜗科蒂氏器的听觉转导位置和声音频率相关:共振频率从底部到顶部递减。按照此原理,根据声音频率向科蒂氏器的不同部位施加电流刺激就可以让患者听到声音[8]。1961年,医生和发明家威廉·豪斯(william f.house)测试了第一个人工耳蜗,这是人类历史上第一次成功地恢复失去的感觉[9]。1972年,商品化的人工耳蜗面世。截至2012年,人工耳蜗已经将超过32万人重新带入充满声音的世界。现在,人工耳蜗已成为最常见、最普及的脑机接口。 比起人工耳蜗,仿生眼的研究进展要慢一些,因为视网膜的工作机理比耳蜗的工作机理要复杂。1968年,研究者发现刺激大脑的视觉皮层可以让盲人“看见”光点,并且光点的数量和位置与电极的数量、距离和位置有关[10]。因此,犹他大学的william dobelle选择使用计算机将光信号翻译成电极活动规律,直接刺激患者的视觉皮层,使大脑感知光信号。1974年,william dobelle将包含有68个电极的单阵列脑机接口植入进两名盲人的大脑视觉皮层中。这两人的手术都很顺利。幸运的是,手术后两人都可以“看到”光点[11]。在一段时间的适应和训练后,两人甚至可以辨别很大的字母。值得一提的是,20多年后,植入的电极阵列仍然在这两名患者的体内正常工作。 后来成立的私人研究机构的william dobelle一直致力于改进自己的“仿生眼”,并在2002年将其商业化。不幸的是,在2004年他英年早逝之后,他的研究后继无人。 但是,让人们重新看见的“仿生眼”依然存在。 2013年,美国fda监管机构批准了由second sight公司研制的“人工视网膜”。该“人工视网膜”利用植入到视网膜的芯片绕过受伤的光感受器,将信号输送给视神经[12]。这种“人工视网膜”的雏形产生于20世纪80年代末,由两个研究组同时完成,其改良版于2002年进入一期临床试验。相比william dobelle的皮层“仿生眼”,“人工视网膜”的手术不用开颅,侵入性更小、更安全。术后患者可以辨别物体的轮廓,可以阅读字母或短的单词。 “人工视网膜”的研究还在继续进行。研究者致力于研制无线化、更小巧、视野更广、分辨率更高的植入感光设备,同时也在优化手术流程,减少对正常组织的影响[13]。也许有一天,“人工视网膜”能让患者看到一个清晰、多彩的世界。 由于“人工视网膜”获得的信号需要正常视神经的传导,只有视网膜疾病的患者才可以通过“人工视网膜”复明,视神经病变的患者无法借助这个设备。对于这些患者,william dobelle的方法是一种可能的选择。相关研究仍在进行。 研究者们除了关注如何将视觉信息转化成信号,还在关注如何将神经细胞的电信号重塑成视觉信息,也就是人们一直向往的“读心术”。1999年,加州大学伯克利分校的yang dan团队通过数学滤波的方法,成功地将猫的丘脑外侧膝状体的神经细胞放电信息重建成为视觉图像[14]。但是现实世界的环境远比研究中使用的影片复杂,所以现在还做不到对所有场景的重塑。 在很长一段时间,上文所述的人工耳蜗和“仿生眼”被称为“神经义肢”,而“脑机接口”更多的指通过计算机对神经信号的解读来操作机械或肢体的技术。现在这两个名词已经合并,大多数时候可以互换。 如果按照狭义的“脑机接口”概念,这一学科的曙光要追溯到20世纪六七十年代。1969年,华盛顿大学医学院fetz团队在操作性条件反射实验中,首次发现猕猴可以快速地学习并控制前额皮质单个神经元的放电频率[15]。猕猴通过被发放食物这个操作来控制其初级运动皮层的神经元放电频率。在表面脑电方面,多个研究组得到了相似的结果,发现在生物反馈训练后,人类、猫和狗都可以感知并控制自己的脑电波。这些研究为利用表面脑电和神经细胞电位的脑机接口奠定了基础。20世纪70年代,加州大学洛杉矶分校的脑机接口实验室发现可以利用视觉诱发电位,破解并预测人类被试的目光注视和移动计算机光标的方向[16]。“脑机接口”这一概念正是由该实验室的带头人jacques j.vidal于1973年提出的。 在随后的20世纪80年代,多个研究组实现了基于表面脑电的设备控制,如控制计算机光标、拼写单词、控制电视频道等[17];同时,约翰·霍普金斯大学的apostolos georgopoulos发现了恒河猴单个运动皮层神经细胞放电与其手臂运动方向的联系。这些都为20世纪90年代中期的脑机接口领域的飞速发展奠定了基础[18]。从1996年开始,佐治亚理工大学的philip kennedy在闭锁综合征患者的脑中植入电极,使患者可以用“意念”控制开关和计算机光标,选择字母。 philip kennedy专注于为思想被身体禁锢的闭锁综合症患者搭建与外界交流的桥梁,于1989年成立了neuro signals公司。该公司主要研发侵入式脑机接口,通过植入假体助语器帮助患者恢复语言功能,让世界聆听他们的思想和声音。philip kennedy的终极目标是研发一种“语言解码器”,通过分析患者的神经信号来合成 语言。不幸的是,由于fda撤销了他们的人体试验许可,在资金缺乏、没有被试的情况下, 67岁的philip kennedy本人自付25000美元,于2014年接受了脑部电极植入手术[19]。术后,他使用自己发音记录下的神经活动信号进行研究,初期发现在2015年的神经科学年会上得到广泛赞誉。我们期待看到这位勇者为闭锁综合症患者带来新的福音。 20世纪90年代,脑机接口的另一大突破是1999年美国杜克大学miguel nicolelis团队的研究。他们使用恒河猴的运动皮层神经元发出的信号成功控制机械臂。随后在21世纪初,不少研究团队可以捕捉和记录运动皮层中的复杂神经信号,同时控制外接设备[20]。2008年,匹兹堡大学的andrew schwartz团队通过实时解码猴子运动皮层神经元发出的信号,使猴子能够控制机械臂喂自己食物[21]。 匹兹堡大学由michael boninger、elizabeth tyler-kabara、andrew schwartz教授领衔的研究团队在人类被试脑机接口的研究与应用上也做出了重要贡献,他们的技术在2012年获得“受欢迎技术突破奖”(popr mechanics breakthrough award)[22]。他们通过植入脑机接口,成功地使脊髓损伤患者控制外接设备,比如假肢或计算机光标;还成功地让癫痫患者正常地移动光标,甚至玩计算机游戏。 在1999年开辟了脑机接口的新纪元后,杜克大学miguel nicolelis团队让一系列科幻片中才有的场景变成了现实。2011年,这个团队让猴子不仅可以通过脑机接口操纵机器臂,还可以接受来自触觉的反馈,使冷冰冰的机器臂更像身体的一部分[23];2013年,该团队成功地将猴子的大脑信号通过互联网从美国发送到日本,从而引发了机器人在跑步机上行走的运动[24];同年,该团队使猴子可以像使用双手一样同时操纵双机器臂[25];最令人称奇的是,他们成功地在两只大鼠之间建立了“脑间接口”,使两只大鼠之间共享感觉信息,实现了“意念传送”。 这些在动物身上的脑机接口研究极大地推动了研究者解读神经信号的能力以及在人类身上应用的信心。2012年,在患者使用脑机接口移动光标、控制设备之后,布朗大学的john donoghue团队成功地让两名四肢瘫痪的患者使用机器臂进行抓握,甚至喂自己喝水[26]。2013年,john donoghue 在瑞士创建了韦斯生物和神经工程中心(wyss center for bio and neuroengineering),致力于整合神经科学与工程学,推进基础研究和临床研究并转化为商业应用。该中心现有人类神经科学、临床前神经科学、神经微系统、系统集成四大平台,支持神经通路的测试、大脑信号和生理指标的测量、神经传感器的研发设计、计算机技术支持等研究[27]。 多项脑机接口方向的重磅研究让2016年成为脑机接口的奇迹之年。 2016年4月,俄亥俄州立大学ali rezai团队成功地让瘫痪患者使用自己的手玩“吉他英雄”游戏!他们建立了一个“神经旁路”,使用植入在肩部的电子元件向控制手臂的肌肉发送信号,从而绕过了患者的脊柱损伤[28]。这项研究使19岁时因为一场车祸而高位截瘫的 ian burkhart得以重新使用自己的手臂[29]。美中不足的是,自身刺激装置尚未达到家用的程度, ian burkhart需要去实验室,将自己和专用计算机连在一起才可以使用自己的手[30,65]。 像 ian burkhart这样的瘫痪病人还需要脑机接口的进一步发展才能享受到商品化脑机接口带来的便捷。但是,脑机接口的发展已经足以为截肢患者带来福音。2014年,“卢克臂”通过了fda的审批,并于2016年进入市场[31,66]。熟悉“星战”系列电影的朋友一定记得,卢克·天行者在与自己的堕入黑暗面的父亲达斯维达交战时被砍去右手,随后被莉亚公主装上机械义肢。“卢克臂”在严格意义上应称为“神经义肢”,因为它靠肌电图、压力开关、惯性测量装置(inertial measurement units)等获得手臂活动的信号,通过无线电控制,并可以给佩戴者以握力反馈。“卢克臂”能提供10种自由度,包括腕屈、桡偏、尺偏、肩部运动等,且这些动作能够同时进行[32]。它和常人手臂的重量相当,防水防尘,能屈伸过头,抚摸过背,能将一袋水果从地上提到桌面,佩戴者甚至可以用它捡起葡萄和鸡蛋!事实上,很多脑机接口的研究采用灵活的“卢克臂”作为实验用的机器臂。 虽然“卢克臂”存在一定程度的力学反馈,但还是无法媲美正常人每天都接触到的触觉反馈。2016年10月,匹兹堡大学的robert gaunt团队通过在大脑植入电极阵列,让28岁的截瘫患者nathan copnd不仅能够操控机器臂,还可以从机器臂获得像自己的手指一样逼真的触觉反馈[33]!“我可以感觉到每一根手指。”nathan说。在双眼被蒙住的情况下,nathan可以分辨出哪一个手指被触摸,准确率高达84%;他还成功地描述出93%的触觉,比如把棉球按在皮肤上的感觉。这种触觉反馈在进一步研发神经义肢的道路上具有重大意义,因为如果没有感觉反馈,实现准确的动作会十分艰辛。在美国前总统奥巴马访问实验室时,nathan操纵着他的“新手”与奥巴马顶拳庆祝[34]。 目前,瘫痪患者使用的可操纵机器臂的脑机接口都需要开颅手术,以植入电极阵列。这本身存在较大的风险,而且许多患者由于身体虚弱,不能接受手术。2016年12月,明尼苏达大学的bin he团队第一次成功地应用无创性的表面脑电来控制机器臂[35]!这项研究为脑机接口的无创性应用奠定了基础。 2016年,除了人体实验的重磅新闻,还有动物实验的新突破——神经旁路使脊髓损伤的猴子恢复了运动能力! 上文所述的植入式脑机接口在操控机器臂运动方面取得了巨大进步,手臂运动障碍的患者可以幸福洋溢地抚摸亲人的脸庞,甚至将一杯香浓的咖啡送到嘴边品味。但是,还没有人能做到让患者恢复行走。比起轮椅,能够再次使用自己的腿对于患者无疑是极其令人兴奋的事情,而且可以预防失去神经支配所带来的肌肉萎缩。但是,恢复腿部肌肉的运动比起手臂来更为复杂,而且由于平衡控制等理论和技术上的挑战,一直无人能及。单单是可以平衡自如地用双腿行走的机器人,也一直使研究者伤脑筋。 而今,神经调控技术已经能够在损伤部位通过刺激神经环路恢复运动,比如硬膜外脊髓电刺激术(ees)能恢复瘫痪大鼠的运动。计算机重构和功能学实验表明ees介导的脊髓环路需要本体感受的反馈,而这种反馈环路需要大脑的调控。2016年11月,瑞士洛桑理工学院的grégoire courtine博士作为核心研究团队的领导者打破了这层屏障,通过构建“脑脊柱接口”,在历史上首次成功地使脊髓损伤的猴子恢复了行走功能。该重磅研究被发表在《自然》(nature)杂志上[36]。 首先,为了证实“脑脊柱接口”的可能性, courtine团队首先构建了一个无线记录和刺激设备,在猕猴的大脑运动皮层中植入微电极阵列,掌握腿部运动皮层的神经信号。随后他们解码了猴子运动皮层的活动状态,根据活动状态进行硬膜外电刺激术。为此,他们在猕猴的腰椎脊髓内植入电刺激装置,能够实时对控制腿部运动的神经元进行刺激。脑部神经系统的记录设备可以与脊髓处的电刺激器通过无线电相连,且猕猴右腿的伸肌和屈肌的肌电图信号 神经旁路中的里程碑事件 1961年:医生和发明家william f.house测试了第一个人工耳蜗,证明可以恢复听力。该设备使超过25万人受益。 1998年:医生在一个不能说话的瘫痪者的大脑中安装了一个电极,使其能通过计算机与人交流。 2008年:猴子的大脑信号通过互联网从美国发送到日本,从而激发了机器人在跑步机上行走。 2013年:美国监管机构批准了second sight公司研制的“仿生眼”。其原理是利用缝合到视网膜的芯片,绕过受伤的光感受器。 2014—2015年:俄亥俄大学医生开始努力使两个不同瘫痪类型的男人“重获新生”。他们的想法可以传递到他们手臂上的电极,从而实现手指的伸缩。 2016年:28岁的nathan copnd通过大脑植入物操控了一个机器臂,使他可以“感觉”到手指,还在奥巴马总统访问实验室时与他顶拳庆祝。 随着运动可被收集。 构建好脑机接口系统后,研究团队用手术刀将猕猴脊髓损伤了一半,导致其右腿瘫痪,想通过脑机接口这个“黑科技”使其再次行走。脑部安装的系统分析出猴子的移动意图,然后立即将其以无线电信号的形式传输到脊柱的电刺激装置,给予特定的脉冲刺激让右腿恢复行走。 这一系统得以证实。在受伤仅仅数天之后,猕猴就借助“脑脊柱接口”恢复了行走。开关打开后,猕猴的右腿开始缓慢移动,向前蹒跚着。这个结果十分振奋人心,也意味着人类智慧再次将脑机接口恢复四肢运动的实现向前迈进了一步。 虽然猕猴行走的节奏并不完美,但是它损伤的右腿成功地恢复了功能,足够协调和支持猕猴的体重。无线脑—体电子元件构建的神经旁路,开辟了治疗瘫痪病人的新途径,为行动不便的人群带来了福音。 但将来真正应用在人体的研究,道阻且长。毕竟人脑的解码更为烦琐复杂。在猕猴实验中,需要记录其脊髓损伤之前的神经活动信号,损伤后根据算法将信号“重新播放”,而这一方法在真正的脊髓损伤患者身上无法实现[37]。今后的研究还需细化恢复走路的其他细节,比如走路节奏的协调。理想中能恢复瘫痪患者行走能力的设备,应该包括脑机接口、激活肌肉的电刺激、支撑体重的类似骨骼的装置,以及更智能地控制步态的电子处理系统。 看罢脑机接口的历史,相信大家已经对脑机接口这一振奋人心的领域有了一个初步的认识。在讨论脑机接口的前景与挑战之前,让我们回顾一下脑机接口的分类。 脑机接口可分为非侵入式和侵入式两大类[38]。非侵入式脑机接口无需植入颅骨中,主要类别有以下几种。 1.基于表面脑电(eeg)的脑机接口 这种“脑电帽”基于表面脑电来控制计算机光标或其他设备。脑电是通过记录神经元树突的突触兴奋时产生的离子电流来记录大脑的活动,于头皮处收集,且对于次级电流十分敏感。基于脑电图的脑机接口操作简单、方便佩戴、安全,可以避免脑部手术存在的风险。 表面脑电可以反映视觉刺激、注视角度、运动意图和一些认知状态。现在的表面脑电(eeg)脑机接口大多通过分析皮层慢电位、快缪波、贝塔波、视觉诱发电位和事件相关的电位成分p300等来揣测被试的意图[39]。第一个成功并应用广泛的案例是基于皮层慢电位的电脑辅助拼写系统。 但基于表面脑电的设备提供的信号频率和空间分辨率有限。颅骨、头皮会削弱信号以及神经元发射的电磁波,且易受脑内或头皮外的噪声影响。它的传递效率通常为每秒5~25比特,但带宽有限,不足以控制假肢这种具有高自由度的物体移动,也不能解码心理活动,无法解读你所看的报纸的文字。 2.基于脑磁信号(meg)的脑机接口 脑磁图描技术(maoencephalography,meg)使用超导的量子干涉设备,可以灵敏地捕捉大脑活动时产生的微弱的电磁生理信号,同样具有无创性。利用脑磁信号的优势在于脑活动时产生的磁场不会受到头皮和颅骨的电场干扰,具有更高的时空分辨率[39]。但这种脑机接口(meg-based bcis)不常使用,因其价格昂贵、体积庞大、地点受限制,且不可穿戴。基于脑磁信号的脑机接口于2005年问世,与“脑电帽”相比仍处于初级阶段。 3.基于功能性磁共振(f mri)的脑机接口 功能性磁共振同样具有无创性,且空间分辨率高。通过3t或7t磁场强度的核磁共振仪记录电磁场的变化,探测神经元活动导致的血液动力学变化,包括血氧含量、局部脑血流量等。在脑机接口系统中,其常用以测量血氧水平依赖。但功能性磁共振时间的分辨率低,通常为1~2秒,加上血液动力本身造成的生理延时,可至3~6秒,不常用于快速交流类脑机接口,且其同样花费昂贵、体积庞大[40]。 侵入式脑机接口需要植入颅内,通常植入到大脑灰质,具有创伤性和一定的手术风险。其主要类别有以下几种。 1.基于皮质内神经元记录的脑机接口 这种脑机接口用来探测大脑灰质的电位活动。这种侵入性装置需要将微电极阵植入皮层内,从而捕捉神经元的放电信号和局部场电位。皮质内神经元电位记录能捕捉3种信号:单细胞神经元活动、多细胞神经元活动、局部场电位。单细胞神经元活动通过高通滤波(>300 赫兹)获得,多细胞神经元活动的记录方式与之相同,其电信号来自多个神经元。而局部场电位通过低通滤波(<300赫兹)获得[41]。 皮质内神经元记录的空间分辨率和时间分辨率明显高于eeg信号,但信号质量会被脑组织对于植入的微电极阵的排斥反应、微电极阵的灵敏度(长年累月地运转后微电极阵的灵敏度会下降)所影响。 2.基于皮质脑电图(eco g)的脑机接口将电极直接置于脑表面来记录大脑活动,与eeg相比有更高的时间和空间分辨率、更高的振幅,且不易受眨眼或眼球运动的影响。但这同样是一款侵入式脑机接口,需要开颅放置电极栅,会造成健康风险。不过最新的恒河猴研究表明,硬膜下的电极信号能够在数月之内维持稳定,精确度不受影响,无需再校准[42]。 在人体研究中,皮质脑电图用于自主运动产生的alpha波、beta波或gamma波。近年来,基于皮质脑电图的脑机接口已经成功地实现了对一维光标甚至二维光标的控制,且比基于eeg的脑机接口更快速、更精准。这些结果使此类脑机接口对帮助严重运动障碍的患者进行交流和控制成为可能。 前景展望与技术挑战 将脑机接口技术真正地应用在临床恢复患者运动上,具有广阔的前景,面临着如下技术挑战。 1.长期稳定地获取大量的神经元信号记录,且机器能维持数年运转 现阶段,侵入性脑机接口的表现比非侵入性脑机接口要更稳定、更精确,应用也更加广泛。但是,侵入性脑机接口需要进行手术放入“异物”,会使大脑产生胶质瘢痕和纤维组织,从而影响信号传导,并有可能引起电极附近的细胞死亡。这项任务需要研发出生物兼容性强的3d电极矩阵,能够产生上千个记录通道,同时工作稳定、使用寿命长[42]。一些研究者提出,在电极外包裹神经营养物质(如神经生长因子、脑源性神经营养因子)和不同的抗炎药物(如地塞米松)有利于解决问题。科学家也提出了不少新方案以提高神经元信号记录,比如陶制的多电极阵列,以及能通过血管的纳米电极,无需伤害大脑软组织也能记录神经元。这些天马行空的想法尚需实验验证。同时,推进非侵入性脑机接口的表现也是许多研究者的研究目标。 2.研发高计算效率的算法,理解并高效地翻译神经活动的信号,从而控制义肢运动 现在尚无商品化的脑机接口面市,主要原因是在研究中,个体中和个体间脑机接口的表现均存在差异,而且差异也会随着时间变化[42]。另外,有研究团队问过四肢瘫痪的患者最想恢复的动作是什么,他们大多数的回答出人意料——最想揉揉鼻子和眼睛。再简单不过的动作,于他们而言都是奢望。这些挑战都需要研究者对神经活动的信号有更深入的认识,也需要足够高效的算法来处理这些数据。毕竟,一次简单的实验就可以产生上兆字节的数据!近年来,机器学习算法与量子计算机的不断进步,将会大大促进脑机接口算法的突破。 3.利用大脑的可塑性,使大脑像控制自己的肢体一样灵活地控制义肢 很多患者被称为“脑机盲”,因为他们学不会脑机接口。如何最大化地帮助患者的学习过程,通过多感官和本体感觉环路使大脑灵活地控制义肢,是未来的一大挑战[42,43]。在能够使用脑机接口的患者中,学习熟练地使用脑机接口也需要不断的训练。此外,要使神经义肢能够完全“融入”身体,则需提供多通道的“感觉”信息回输到大脑。在动物通过视觉反馈接收助行器的感觉信息的脑机接口设计中,失去视觉反馈,运动参数测量的稳定性会降低。同样,感觉反馈可以让患者感觉义肢的使用更自然、更逼真。这些已经由匹兹堡大学最近的研究证明。 4.研发新型义肢,实现更灵活的移动 同时恢复感觉与运动功能的脑机接口是新型义肢的一大趋势。此外,一些充满未来感的设计如机械外骨骼也有希望进一步发展。2016年8月,杜克大学miguel nicolelis团队使用机械外骨骼和虚拟现实技术,帮助8位腿部瘫痪患者恢复了部分运动能力和知觉。也许有一天,四肢瘫痪患者可以借助机械外骨骼自如运动,甚至成为“超人”![44] 5.开发“云脑机接口” 生活在互联网时代,大家对兼容性的重要性一定感同身受。近年来,随着amazon echo、google home等家用人工智能助手的出现,我们正在进入一个“万物互联”的时代。如果能将瘫痪患者的脑机接口与家用设备互联,那么将会大大减少患者生活中的困难。 机器手对触屏和快速使用键盘、鼠标还无能为力。寻找一个高速的人机交互方法会帮助瘫痪患者恢复高效交流和通信的能力,使他们能与虚拟的网络世界接轨。2017年2月,斯坦福大学的jaimie henderson团队通过brain gate脑机接口,大大地提高了瘫痪患者对光标的操作速度,最快的一位一分钟甚至能拼写出8个单词。这些都让我们看到一个乐观的脑机接口前景[45,46]。 此外,未来脑机接口的应用方向还可向意识障碍患者(disorderof consciousness,doc)延伸,包括持续植物状态(pvs)和微意识状态(mcs)的患者[7]。意识状态的评定方法尚缺乏标准,因此意识障碍患者信号的提取与处理可以帮助我们判定患者的意识情况,甚至可以说出患者的心声!意识障碍患者无法使用基于视觉的脑机接口,不过可尝试头戴式耳机或加在四肢的振动刺激器这些基于声音或振动刺激的脑机接口。如何准确识别、迅速处理、寻找合适的算法,有待进一步研究。 脑机接口的飞速发展和巨大潜力,使无数人士嗅到了商机。2014年,全球脑机接口的市值为723.64百万美元,且预计未来的复合年增长率(cagr)将超过10%。美国市场研究公司(grand view research)的一项新研究显示,全球脑机接口的市值在2022年将达到17亿美元[47]。 脑机接口应用广泛,从医疗保健到通信、游戏娱乐、智能家居控制等方面都有极大的需求。其中,医疗保健的应用在2014年所占的市场份额超过50%。脑机接口在通信和控制方面的应用和引进也会日益提高。 在侵入式和非侵入式脑机接口中,非侵入式脑机接口产品在2014年占有最大的市场份额,因其具有使用方便、可穿戴、创伤小的优点。其中,基于脑电图(eeg)脑机接口的流行程度在将来会不断提高,与未来“干”电极和高频技术相结合。侵入式脑机接口在预测期内呈现高复合年增长率[48]。 在地理位置分布方面,北美占有脑机接口市场的主要份额,超过40%。由于此技术在该地区处于领先地位,渗透性高,且神经退行性疾病发病率和虚拟游戏的需求不断增加。亚太地区也是主要贡献者,包括日本、中国等。欧洲市场也将日益重要,且欧洲政府对肢体残疾人群采取了积极措施(decoder项目)[48,49]。 近年来,脑机接口的相关企业如雨后春笋般活跃在各个区域。在未来的5~10年内,脑机接口的商业化产物会遍布世界,改变我们的生活方式。应用脑机接口的游戏娱乐产品已经问世;改善认知、评估,监控用户状态和与教育培训相关的产品将在3~5年内大规模上市;与设备控制和安全保障相关的脑机接口将在5~10年内研发完善并问世[50]。 1.医疗设备升级方面 上文所述的“卢克臂”来自美国新罕布什尔州的dekaresearchand development公司,由发明家dean kamen于1982年创立。该公司致力于医疗创新,将所有天马行空的想法付诸实践,促进创新[51]。这家企业的“黑科技”涵盖范围广泛,产品独树一帜,如下所示。 i bot轮椅,拥有先进的移动系统,可恢复瘫痪患者的自由活动,是deka与强生集团的independence technology合作的产物。第一代i bot于1999年进入临床实验,而此前强生在此项目中已投入5000万美元。产品于2003年通过fda的批准。但第一代i bot价格昂贵,25000美元的售价让大多数人无法承担。2016年在丰田投资后,第二代i bot技术已将平衡技术运用得淋漓尽致,“会站起来的轮椅”就此诞生。一般轮椅大多不能爬坡或爬楼梯,而i bot可以通过轮子的旋转变换来上下楼梯,穿越草地、坡地、沙地等多种环境,甚至可以“两脚着地”,直立行走,达到180厘米的高度[52]。 此外,公司的产品还包括帮助用户在家中进行透析的home choice、可携带式净水系统slingshot、由电池驱动的私人运输装置segway、提供术后保护系统且防止患者康复早期受到损伤的硅制踝足矫正器(safo)等。 2.在用“意念”控制设备方面,不少新企业引领风骚 美国加州旧金山的emotiv systems公司是脑机接口研发企业的领头羊。该公司的核心技术为高分辨率、多通道的eeg系统,是脑电波识别科技的先锋。该公司主要有两代产品,分别是emotiv epoc+和emotiv insight,具有可移动和无线连接的优点[53]。这套编译系统具有高空间分辨率,可以进行全脑探测,全方位监控来自大脑不同功能区的信号,包括视觉皮层、颞叶皮层、顶叶皮层以及边缘系统等,可检测到感情输入、情绪和面部表情、记忆等。该产品目前能够检测到多种表现:专注、参与、吸引、激动、亲密、放松和压力等,以及多种表情:可怜、苦恼、惊喜、微笑、生气等。该公司给残障人士带来福音,用他们的“意念”控制行动,也为科学研究提供了3d实时全脑分析等技术保障。 2012年成立的瑞士mind maze企业,两轮融资共获得1.085亿美元。其技术亮点在于用可穿戴式显示器和3d动态捕捉技术,帮助神经系统疾病患者创造vr环境和运动捕捉技术,同时提供患者多感觉反馈通路,从身体移动到视觉反馈,通过“意念”操纵设备[54]。 brain robotics公司的创始人为哈佛大学博士bicheng han,其于2015年获得500万美元融资,该企业的目的在于提供价格亲民的智能机器臂、提高手臂截肢患者的生活质量、降低他们的经济负担。这种义肢由肌电图(emg)控制,通过肌肉信号直接控制机器臂做出不同的手势,无需烦琐的手术[55]。 2007年在美国密苏里州成立的neuro lutions公司,共获得215万美元的投资。他们基于脑机接口技术,开发了一个革命性的平台,帮助神经受损的患者恢复功能。公司的第一代产品ipsi hand,是一种非侵入性脑机接口,促使大脑向肢体发送信号,信号通过大脑收集处理,在不断刺激后建立新的突触连接,使瘫痪部位恢复功能[56]。 3.实时监控用户状态方面 脑机接口的应用大幅度地提高了医生对患者病情的实时掌控,且为用户提供实时监控自身的身体状况的便利。 neuro pace提供一款治疗癫痫的大脑可植入设备,该设备的核心技术为旧金山硅谷开发的rns系统:包括一个微小的可移植的神经刺激器(即神经芯片)、脑电波记录器(最多可移植到两处癫痫发作区域)和一个远程监控器。设备可通过无线连接,在家逛微博的同时就可收集信息,同时转移到病人数据管理系统(patient data management system,pdms)[57]。医生能随时登录pdms,实时掌握最精确的癫痫活动和治疗情况。该企业于2011年和2013年分别获得4900万美元和1800万美元的风险投资。这种多闭环、开环脑部刺激设备最终将替代具有伤害性、破坏性的手术疗法。 neurosky公司以心电图(ekg)和脑电图(eeg)为核心技术,提供便携式脑电传感器和心电传感器。通过脑电波传感器耳机输入信号,根据不同算法可检测出对任务的学习、适应和理解的相对程度,以及用脑量和情绪(放松、焦虑等)。而心电传感器可检测到人的心脏的各种指标,经过量化处理后,得出人的身体的健康状况及潜在风险[58]。 open bci提供商业化的、低成本的、开源的脑机接口平台,便于获得高质量的脑电波数据。由joel murphy和conor russomanno开创的项目,在kickstarter得到了947个赞助者的215438美元筹款支持此项目,第一批产品即将发送[59]。该项目旨在让人们实时获取自己的eeg、emg和ekg信息。 美国华盛顿州的cadwell industries由john cadwell创建,为神经生理学提供医学设备,包括脑电图(eeg)、肌电图(emg)、术中神经检测(ionm)、睡眠监测等[60]。该企业的销售额超过1000万美元,并以每年40%的增长率在众多企业中脱颖而出。 4.教育与培训方面 脑机接口的相关产品将走入课堂,帮助教师读取学生在课堂中大脑活动的状态,掌控学生上课时的注意力。 brain co于2015年在哈佛创新实验室成立,并获得550万美元的投资,目前拥有25位来自哈佛大学和麻省理工学院的成员。该企业的目标是通过可穿戴设备和神经反馈,结合脑机接口,提高人的注意力。主要产品有focus系列和lucy系列[61]。其中,focus 1 edu为教师提供实时掌控学生注意力反馈的系统。教师通过可穿戴设备查看学生大脑的信息反馈,或无聊或专注,从而帮助教师改变教学方法,提高教学质量。 在认知改善方面,brain co公司的focus 1 family产品提供实时脑波和注意力程度的数据,通过一系列认知训练的游戏、教育训练的任务等,帮助学生提高注意力,了解其大脑的活动,改善认知。 intera xon是于2007年成立的加拿大企业,迄今完成了1720万美元的融资。该公司的产品muse是基于eeg信号的可穿戴脑电波检测设备,帮助用户通过实时监控脑电波的数据和音频反馈,提升冥想质量[62]。 而kernel是一个瞄准人类智能的企业,致力于研发先进的神经接口技术来治疗疾病。该公司于2016年10月从bryan johnson获得1亿美元的融资[63]。该企业目前研究的人工智能芯片读取负责记忆功能的海马体的内容,并且具有高准确率。 5.脑机接口基础技术方面 专注于脑机接口基础技术革新的,是成立于2001年的cyberkics。该公司致力于brain gate研究,旨在用创新技术帮助患者恢复与外部世界的交流与联系。公司在2003年获得430万美元的融资,其共同创始人都是脑机接口和神经科学研究领域的顶尖学者,包括布朗大学的john donoghue、哈佛大学的leigh hochberg和robert brown、杜克大学的miguel nicolelis等。这些顶尖学者在脑机接口方面数年来的研究背景下成就了先进的平台技术,使得神经元的语言的解码和处理变得更加容易[64-67]。 该公司已获得和正在申请的专利超过30个,其中包括阿司匹林药片大小的硅质阵列。微阵列中包含上百个细如发丝的电极,植入大脑后可实时掌控大量神经元的活动。在神经元活动的信号传递和分析方面,brain gate提供了精密的算法和先进的电子设备,帮助脑机接口读出大脑这台“超级计算机”的想法,从而控制行为。brain gate芯片现在被多个研究组采用,包括斯坦福大学jaimie henderson团队。 让聋者听见,让盲人看见,让截瘫患者行走,让闭锁综合征患者说话,让后人不必再承受当年尚多明尼克鲍比“潜水钟”一般的绝望——脑机接口的进步,让躯体像蝴蝶一样自由。 专家点评 孙隽 北京金准基因科技有限公司副总裁。 很多电影中都会出现用“意念”控制物体或机器人移动的桥段。随着科学技术的进步,利用“意念”控制物体已经不再是空想。2017年全球10大突破性技术榜单上的“治愈瘫痪”就是基于这样一个基础,捕捉“意念”,翻译“意念”,传输“意念”,控制行动。 人就像一个精妙的机器,所有的行动受大脑的控制。而瘫痪患者身体的一部分完全或不完全地丧失了运动的能力,其根本原因是身体无法接收来自大脑的信号,类似连接电灯和开关的电线被破坏了。早期的治疗方法是修复断了的“电线”。被研究得较为深入的是通过刺激或移植手术让被切断的神经纤维重新生长,这样的做法相当复杂,甚至有引起二次损伤的可能。 当开关无法控制灯泡时,当复杂的内部结构使得我们无法找到具体原因、阻碍修复时,另外接起一条电线是个很好的办法;当计算机无法开机时,如果我们无法准确地定位到是主板上某个元件的故障时,工程师也会选择换上一块新的主板。这样的思路对于治疗瘫痪同样适用,2016年,神经学家gregoire courtine教授领导的研究小组在《自然》杂志上发表的成果验证了这一想法:在下肢瘫痪的猴子的大脑内植入芯片,感应大脑中指导腿部神经元的活动;当猴子有行走的意愿时,利用无线发射器将信号传递到接收器上,触发脊髓中的预编程序,从而实现了猴子的行走。 猴子是与人类非常接近的灵长类生物,这个了不起的成果同样也有在人类身上应用的可能。 这一技术不仅有可能治疗瘫痪,甚至可能赋予人类更强大的能力。目前已有一些研究团队使用类似的技术原理在一些患者中获得了可喜的结果。 虽然这项技术已展现出其可行性,但仍存在相当多的目前未能解决的问题。准确地收集、处理、翻译人类大脑中的复杂的信号以及准确地传达了需要建立在对复杂的神经系统深入认知的基础上。在这项技术走向成熟的道路上,还有很多这样的挑战有待解决。治愈瘫痪若要达到能够应用于临床的水平,可能还需要相当长的时间,然而目前所获得的成果足以让人欢欣鼓舞。我们有理由相信,该技术会让更多的瘫痪患者重获新生。 专家点评 慈宏亮 博士,科特勒国际精准医学园科学总监。 bill kochevar是一位几年前由于自行车运动事故导致高位截瘫的患者。如今他已经可以通过植入脑运动皮层的多个芯片(intracortical brainputer interface,i bci)控制植入肌肉的功能电刺激设备(functional electrical stimtion,fes)实现进食、饮水等一系列复杂动作。这是2017年3月28日robert kirsch 团队在《柳叶刀》杂志上发表的在治愈瘫痪方向上的最新进展。治愈瘫痪被麻省理工科技评论评选为10大突破性技术之一,在转化的道路上又迈出了里程碑式的一步。 治愈瘫痪将随着几大技术体系的基础和转化研究逐步实现,这包括人们对脑功能网络认识的不断提升;对参与精细运动的运动皮层及皮层下多个功能网络的持续研究;i bci芯片采集信号质量的提高;设备的小型化、便携化、低成本化以及复杂数据分析处理能力的提高;控制精细运动的fes技术的发展以及减少对辅助运动机械臂的依赖等。同时由于这一技术的临床试验周期较长(bill花了717天才完成了自我喂食),决定了此项目的转化周期达10~15年。 随着脑科学与类脑研究被列入“十三五”体现中国国家战略的百大工程项目,中国的投资界对治愈瘫痪表现出了极大的热情。我们预期中国的治愈瘫痪技术将与世界前沿同步发展。 botnets of things 僵尸物联网 撰文:杨?帆 突破技术 可以感染并控制摄像头、监视器以及其他消费类电子产品的恶意软件,可造成大规模的网络瘫痪。 重要意义 基于这种恶意软件的僵尸网络对互联网的破坏能力将会越来越大,也将越来越难以阻止。 技术成熟期 现在 主要研究者 -mirai僵尸网络软件的创造者 -任何使网络有安全隐患的人——其中有你吗? 这是黑客史上新的一页。 2016年10月21日清晨的美国东海岸,平静得就像人们以往生活中的任何一天。上班族们像往常一样从睡梦中醒来,像往常一样吃过早饭,像往常一样拖着仍有倦意的身体前往办公室,像往常一样打开计算机,却惊讶地发现自己往常使用的网站大大咧咧地显示着“无法访问”。而还打着瞌睡、一脸懵懂的白领们中,大概很少有人意识到自己正在经历一场世界级的大规模网络瘫痪,而即使是少部分意识到发生了什么事的人,也绝对无法想象这次可能创纪录的网络瘫痪所造成的巨大后续影响。这一次的黑客攻击行为是如此划时代的,完全改变了人们对网络攻击的现有认识。可以说这次网络瘫痪犹如一个巨大的霓虹灯标语,插进了人类科技史的洪流中,向所有的人宣告着:黑客攻击的历史掀开了新的一页。 据被攻击的dyn公司描述,当天第一波ddo s (分布式拒绝服务)攻击从早上7点开始,至9点20分dyn公司解决了这次攻击。紧接着, 11点52分第二波攻击袭来,下午4点后黑客又进行了第三波攻击。尽管dyn公司极力抵抗并努力修复,但仍然有包括推特、亚马逊、bbcn、airbnb、github、spotify、paypal等众多知名公司受到波及。这是因为dyn公司的主要业务是dns(域名系统)管理。众所周知,dns系统是因特网的重要一环,缺少了dns,用户将无法获取网站服务器的真实地址,这也就是为什么针对一个公司的攻击会波及如此多的重要网站。 尽管有关方面指出这次的黑客攻击很有可能是目前为止世界范围内最大的一次ddo s攻击,高峰数据流量达到了惊人的1.2tb/s,但是单从这一点出发仍然无法产生如此巨大的影响。毕竟我们生活在一个网络多元化又开放地时代,摩拳擦掌的黑客们几乎每隔一段时间就会炫技般地跳出来彰显自己的存在。 而真正让这次黑客攻击载入史册的原因,是在这次攻击中第一次出现了以物联网为主的僵尸网络(bos)。报告指出,有证据显示黑客在这次攻击中使用了包括打印机、网络摄像头、家庭网关甚至婴儿监控器等物联网设备作为僵尸网络的攻击平台。 提到bo或中文名“僵尸网络”,在今天其实已经不算是新闻了,早在2004年年初,就已经出现了第一起大规模使用bo作为攻击手段的黑客行为。目前已知的第一个僵尸网络病毒“bagle”的作者这样写道: 2016年10月21日的dyn攻击事件中,美国本土的网络大面积中断服务 “greetztoantivirupanies inadifcultworld, inanamelesstime, iwanttosurvive, so,youwillbemine!!” “问候你们,杀毒公司们 在一个不同的世界, 在未名的一刻, 我要生存, 为此你们都将属于我!!” 别看这样的自我介绍显得木讷,当年的“bagle”也确实具有相当的实力。“bagle”侵占目标windows系统后,会使用病毒开发者的smtp服务器向大量的目标发送含有以病毒本身作为附件的邮件,而一旦有目标系统用户打开附件,系统就会被迅速攻占并在病毒的挟持下继续向更多的目标发送病毒邮件,导致病毒呈指数级大规模地传播。这也是直到今天各大邮件提供商仍然建议用户不要打开陌生邮件的附件或链接的原因。 这就是僵尸网络主要的特点,即僵尸网络的操作者用病毒程序侵入他人的网络设备,利用c&c(命令与控制)软件,可以使众多被感染的设备完成多种一般难以使用单一设备完成的操作,如bagle大规模发送病毒邮件,形成指数级的传播,又如ddo s能大规模发送dns请求,导致服务器瘫痪。不过,僵尸网络病毒自诞生以来,一般选择在个人计算机以及企业主机平台间传播,而在这次黑客攻击中首次亮相的基于物联网设备的攻击方式,也把这种已经诞生十几年的“古老”手段升级到了一个新的层次。 那么为什么加入了物联网的黑客攻击会产生这么大的影响呢?这要从物联网本身说起。 物联网或许是当前it领域最有融资潜力的几个互联网关键词之一。作为已有的因特网的延伸,物联网旨在把网络从传统的人与人之间的网络拓展到人与物的网络以及物与物(m2m)的网络。不仅使个人可以更方便地获取身边的多种信息,操控联网的设备,还可以在没有人为干涉的情况下将设备与设备之间建立关联,根据从物联网上的传感器或其他输入设备获得的信息,智能高效地运作。按照cisco公司的预测,到2020年世界上将有501亿台物联网设备联网运作[1],那么地球上每人平均会接触到10个左右的物联网设备。考虑到世界人口的分布并不平均,在发达地区平均每个人将能接触到几十个甚至上百个物联网设备。 在这些设备中,智能停车场的设备可以实时帮助车主找到车位;智能办公的设备可以改善工作环境;智能家居的设备可以防火防盗;智能建筑可以调节能量消耗,节约能源;智能工厂的设备可以监控操作参数,协助工业4.0;智能城市的设备可以帮助人们合理调控市政,管理城市的交通、照明、垃圾清理等。更多的例子无法一一列举,可以说物联网即将、甚至已经开始全面进入了我们生活的方方面面。在这样的情况下,我们也就不难理解为什么这一次的黑客攻击看似与往常类似,却在随后的报道中掀起了如此巨大的恐慌——它的攻击不仅影响到网络本身,更是将网络攻击延伸到了我们的生活环境,一个由物联网组成的生活环境。试想在不久的将来,使用数以百亿计的设备对目标发起黑客攻击的情景,到那时被挟持的物联网设备将迅速攻克任何由操纵者指定的目标服务器。 更可怕的是,将来物联网设备被挟持也就意味着物联网上众多的隐私数据将非常容易地被获得。想象一下,某个恶意的控制者将可以通过众多的物联网设备掌握人们生活的方方面面,能知晓一个人的从上班时间到睡眠习惯等信息,也能控制从城市的交通灯到工厂生产等城市设施。那将是一个令人更加绝望的情景。 接下来我们会花一点时间简单讨论僵尸物联网的产生及现状、物联网时代的安全困境及针对物联网设备可能存在的劫持方法、恶意软件利用僵尸物联网盈利的可能性,以及对未来的展望。 僵尸物联网的过去与现在 僵尸网络并不算是最新的技术,然而在与物联网的结合下,僵尸网络重新获得了活力。现在我们回过头来,再梳理一下僵尸网络是如何发展到今天的。既然僵尸物联网算是一个新词,我们就从两个方面来看:僵尸网络和物联网。“僵尸网络”(bo)一词是由“机器人”(robot,通常指病毒机器人)与“网络”work)两个词组合而来的,也形象地表明了这一技术的特点,即大量的恶意病毒机器人组成网络。僵尸网络指的是一定数量的拥有互联网连接的设备被僵尸网络拥有者所控制、操纵,从而执行一系列的任务。僵尸网络可以用来执行ddo s(分布式拒绝服务)、窃取数据、发送垃圾邮件以及使攻击者接触到被攻占设备的信息及其网络连接。攻击者通常使用c&c(命令与控制)软件掌控僵尸网络。 一个典型的僵尸网络一般包括以下两个部分:c&c(命令与控制)和僵尸计算机。 命令与控制系统指由那些为恶意软件(特别是僵尸网络)服务的服务器以及其他相关设备所组成的系统;僵尸计算机指的是被恶意软件入侵、连接到网络、可以被远程控制用来作恶的计算机。在僵尸网络中,僵尸计算机被命令与控制系统利用来大量发送垃圾邮件或发起ddo s攻击。而大多数僵尸计算机的真实拥有者并不会意识到他们的计算机已经“背叛”了他们。 命令与控制系统既有可能是在恶意软件的操作者的设备上运行,也可能是在被攻击侵占的设备上运行。真正实施黑客攻击的命令与控制系统普遍使用大量的dns代理、p2p网络结构、分布式命令方式、网络负载均衡及多次代理跳转等方法增强系统面对反病毒软件的抵抗性和面对调查的隐蔽性。不仅如此,这些服务器通常也会在多个dns域名之间快速转换,不断改变自己的实际地址,令受害一方往往非常难以确定命令与控制服务器的来源。 经过多年与僵尸网络的对抗,网络安全的专家们也破解了多起僵尸网络袭击。根据早期命令与控制系统的特点,破解的方法大多集中在找到并切断与命令与控制系统服务器的链接,拒绝可能是命令与控制服务器的访问。 为了再反对抗这些对抗措施,新一代的命令与控制系统普遍不再使用单一服务器架构,转而通过irc通信协议或tor匿名通信协议等,建立点对点(p2p)系统架构,就像我们常用的下载方式,不再是从单一服务器获取指令,而是可以将多个设备作为指令来源。这样做的结果是从此命令与控制系统不再依靠单一服务器来运行,即使反病毒一方打掉一个或多个命令与控制设备,整个系统仍能正常工作,大大提高了生存能力。 我们举一个使用僵尸网络恶意攻击的例子来说明典型僵尸网络的攻击模式。 1.黑客通过购买或自己开发木马病毒或开发工具,使用这些病毒或软件来感染其他用户的计算机,这些感染计算机的软件就叫作“病毒机器人”(bot)。 2.这些病毒机器人通过被感染的计算机链接到特定的命令与控制在线服务器。至此,病毒机器人的控制者已经可以查看或操纵被感染的计算机了。 3.此时控制者就可以根据其需求进行各种网络破坏行为,包括监控用户的输入输出来盗取密匙、使用被感染的计算机发起网络攻击,或是出售控制权及用户信息来牟取利润。 4.根据需求,控制者可以增加或减少被感染计算机的数量。 僵尸网络容易产生规模巨大的攻击。从2004年年初的第一次大型僵尸网络攻击开始,僵尸网络以平均每年3次的大型攻击的频率不断出现在网络安全的舞台上。感染的规模从十万一级一直到千万一级的数量。 物联网是物理设备、车辆、建筑物和其他物品的网络,在系统嵌入了微处理器、软件、传感器、驱动器和网络连接,使这些设备之间能够互相收集和交换数据。2013年,物联网全球标准计划(io t-gsi)将物联网定义为“信息社会的基础设施”(the infrastructure of the information society)。物联网允许物体通过现有的网络基础设施远程观测或控制,提供了将物理世界更直接集成到基于计算机的系统的平台。物联网除了能提高整个物理世界的智能化水平、减少人力劳动之外,也能提高效率、准确性和经济效益。 物联网的典型应用包括智能电网、智能家居、智能交通和智能城市等。每个设备都使用通过其嵌入式计算系统实现独一无二的身份、地址信息,能够在现有的互联网基础设施内进行互操作。 典型的物联网节点设备有以下一系列特征。 1、由于物联网设备多需要在远离电源的位置工作,因此大部分的物联网节点设备都采用电池供电。 2、受限于体积和电池的电量寿命,物联网设备需要将功耗大幅度降低,并长时间处于休眠状态,周期性地运行或给予系统反馈,来延长依靠电池的使用时间。 3、为了将功耗降低,物联网设备往往选用低端微控制器(mcu),运算速度慢,内存容量与闪存容量都较小。 4、因为存储空间的限制,物联网设备无法支持过于庞大的系统和软件。 5、由于仍处于发展的初期,物联网硬件系统缺少专门针对物联网开发的芯片,低端微控制器并不一定包含硬件加密等安全手段。 为了使2020年之际所有的501亿台以及未来更多的设备同时联网,并实现不同网络间的互相联通,大多数的物联网设备都支持新一代ipv6协议。ipv6协议将逐步取代现在已经地址不足的ipv4协议,成为未来网络的主流协议。按照协议的设定,ipv6理论上至多可以提供3.4x1038个地址给联网的设备。在这些地址的支持下,物联网的所有设备都可以直接地通过网络联通。 物联网时代的安全隐患 说了这么多,现在我们来详细梳理一下在使用物联网的过程中到底有哪些容易被利用的安全隐患。 安全隐患的来源 前面我们已经比较详细地介绍了物联网的特点,也给出了若干个可以使用物联网的情景。现在我们再从另一个角度了解一下物联网的哪些关键点会给我们带来安全上的隐患。根据物联网的结构,我们知道攻击的主要来源有以下3种。[2] 1、恶意的物联网用户。这类用户通过正常渠道购买或获取物联网设备,使用拆解、实验、测试等手段来寻找设备的弱点或可以被利用的缺陷。在找到可以恶意使用物联网设备的方法后,恶意的物联网用户可以利用这些漏洞攻占其他用户的同一种设备;逆向获取生产厂商烧录在设备中的信息,如安全协议的公匙,或是转手出售这些安全漏洞的信息。 2、不良设备生产商。这类生产厂商会在所生产的设备中蓄意留下漏洞或是之后可以被利用的缺陷,然后利用这些漏洞和缺陷盗取用户的信息和数据,根据网络情况甚至可以盗取在同一网络下其他厂商的设备信息。除了使用户的隐私和安全受损之外,也可以把“锅”甩给其他生产商,用以诋毁其他生产商的名誉。 3、心怀不轨的第三方。这类人并不在物联网的系统内,也没有系统的权限,我们一般说的黑客就属于这一类。他们往往会通过各种手段搜集、获取物联网上的信息,阻止数据的传输,甚至操纵外部的信号干扰来扰乱发送的数据。他们的目的多种多样,有的是为了获取信息,有的仅仅是为了破坏系统的正常使用。 物联网攻击的方法论 对物联网形形色色的潜在攻击方式,我们把它们根据载体分成以下几类。 1、设备拆解。物联网的设备通常都是小型的嵌入式系统,它们的具体应用决定了其在大多数情况下都处于随手可得的地方(如智能灯光的设备多数紧邻灯光控制开关),这使得它们很难确保在无人看守的情况下保持完备。一旦这些设备落入黑客的手中,它们将相当容易被破解,黑客可以查看用户的应用信息、重新烧录软件、改变硬件。这样一个被破解的设备可以被放回原有的网络中,为黑客带来更有价值的信息,或者更直接——被永远窃取。[3] 2、信息泄露。是指把信息透露给本不具有权限的利益方。其中有意外泄露、有针对目标信息的袭击,以及根据其他信息的相关性推理。黑客通常可以选择窃听特定的网络频道,从硬件拆解中获取,或是通过网络入侵。 3、隐私疏漏。与上面的信息泄露不同,隐私疏漏往往并不都依靠系统漏洞或接触权限。实际上,由于人们在物联网时代之前对隐私保护的警惕性不高,黑客很多时候可以通过非加密的信息分析推测出用户的一系列隐私信息。而专业黑客也可以通过其他用户的信息来源和数据流通的分析来做出判断。[2] 4、拒绝服务。是指当用户需要用到物联网的某些服务时,这些服务无法使用。不要与之前的僵尸网络中的分布式拒绝服务搞混,这里特指物联网上的服务无法使用。相比前面几种情况,拒绝服务的方法众多且相对容易。[3] 5、窃取密匙。是指使用其他用户的密匙进入其他用户的加密的物联网设备。密匙的获取方式不限,如来源于钓鱼网站。 6、权限提升。是指恶意用户通过虚假的高权限来接触本不属于其权限范围内的服务和利益。 7、虚假数据。有时为了干扰物联网系统的某些服务的正常运行,黑客会设法干扰或操纵传感器数据,如电磁波或物理手段的干扰。 8、间接方法。基于一系列对公开信息的分析从而得到加密信息的方法。比如黑客可以监控网络、执行特定命令的时间、特定命令的能量消耗、数据流量、电磁信号的变化等技术手段,来揭示加密的信息。 针对物联网攻击的潜在危害 为了更加清晰地认识使用物联网网络攻击的严重性,笔者认为有必要指出一些常见情况下针对物联网的攻击可能造成的危害。同时也因为我们主要在讨论具体的技术可能性,对于很多人来说并不太容易理解这些安全与隐私隐患对用户有哪些影响。现在让我们暂时抛开技术细节,从具体应用的角度来审视安全与隐私问题,看看哪里需要我们重视。[2] 驱动器 在物联网词汇中,驱动器的作用类似于计算机中很多对特定任务的控制操作。在物联网的世界中,所谓的驱动器可以被网络中的用户通过一定的信号远程操纵,或通过现实中的开关操纵,用来控制其他物联网系统以外的设备。 安全方面:针对驱动器的恶意攻击会在几个不同方面带来危害。在能源管理中,如果驱动器被黑客入侵并在未授权的情况下更改能源开关,会造成能源损失,进而造成经济损失。在更加严格的能源使用场景中还会因为能源消耗过多或不足造成更多问题,如冰箱或恒温温室。在智能汽车领域,这种攻击造成的后果更为严重,比如对汽车油门刹车的控制攻击可能危及车辆驾驶人员的生命。更为极端的情况,比如在智能医疗领域,驱动器很可能被用于控制药物注射等,黑客的攻击将非常容易引起医疗事故,造成致命的伤害。 传感器 传感器是物联网中的重要组成部分,作为整个系统大部分数据输入的来源,可以说整个物联网系统的运行和服务都必须依靠不同传感器的数据作为依据。 安全方面:正如前文所说的,传感器收集的数据很有可能会成为黑客攻击的源头之一。比如通过物理方法操纵数据,可能会对网络造成意想之外的破坏,或者造成物联网其他设备的异常行为。在能源管理应用中,驱动器会因错误的传感器数据而执行错误的命令,在错误的时机意外开启或关闭,这样一来会造成与上文讲到的类似的结果,直接或间接地造成经济损失;但这种情况下至少用户不用操心泄露大量的信息。然而在智能医疗使用场景中,虚假传感器数据将对病人造成错误诊断,随后使用不恰当的应对方法,很容易造成过敏反应甚至致命的严重后果。[4] 隐私方面:这里我们需要着重讨论,因为在很多情况下,传感器的数据汇总起来可以很容易地推导出使用者的很多习惯,有一些甚至连使用者本人也不一定会意识到。物联网比你更了解你自己,但你却不想让黑客也比你更了解你自己。举例来说,在能源管理情景中,黑客可以通过传感器的数据,推算出使用者出门离家的时间、晚上入睡及早上起床的时间、根据能量消耗对比特定设备的能量签名(耗电设备工作时产生的独特能量消耗曲线)来推测使用者在使用哪些电器。在智能医疗情景中,传感器的数据可以直接转换成病人的病情、治疗的阶段、治疗的效果等。 rfid(射频识别)标签 rfid(射频识别)是一种广泛用来识别设备身份的技术,通常由两部分组成:rfid阅读器和rfid标签。rfid标签是一种被动的身份标签,如今被广泛附加在各种设备上,而标签中的身份id可以通过rfid阅读器来读取。rfid的推广在很大程度上是因为它们方便好用、价格低廉,而且被标签的设备不需提供额外的电力或数据连接。然而rfid在安全和隐私方面却让人充满疑虑。 安全方面:正是由于rfid简单的结构,导致它们很难为专业的安全机制提供足够的支持。比如,只要处于同一个标准频率,任何人都可以轻易用阅读器读取任意设备的rfid标签并获取其中的身份信息。因此,为了方便设备识别所开发的技术很可能会造成信息的外泄。在智能汽车中,黑客可以使用改造过的阅读器在较远的位置读取使用者与汽车之间的通信,有些通信内容则可以被用来破译加密密匙,导致汽车被盗。[5] 隐私方面:rfid的一大特色应用是追踪被标签的设备,因此在黑客攻击的情况下可能造成严重的地理位置隐私泄露。在智能医疗中, rfid标签可以与病人的电子病历结合,因此rfid信息外泄也就意味着病人的病例及医疗系统的信息都有被破解的危险。[5] 网络、nfc(近场通信)以及因特网 物联网设备依靠网络连接在彼此之间通信。根据具体应用的不同,通信协议之间也有很多区别。同样,它们的安全协议与隐私保护政策也不尽相同。 安全方面:由于物联网的规模巨大,在同一个应用中使用多个生产商的设备平台几乎是必然的,不同平台间通信协议的安全协议也不同,这本身就增加了潜在漏洞存在的可能性。进一步来说,物联网设备大部分都将使用无线网络来通信,这也增加了网络被恶意攻击的风险。如果黑客已经入侵了特定的网络频道,将可以轻易地获得几乎所有的通过网络传输的设备信息和数据。在很多情况下,如两辆智能汽车通过网络交换位置信息来规避对方时,这类攻击将可能导致两车相撞。 隐私方面:网络是物联网设备之间传输数据的主要方式,因此也是隐私泄露的重灾区。比如在智能汽车使用临近数据节点下载本地地图及交通数据时,黑客可以通过这些信息知晓使用者的目的地、汽车状态等。而且由于智能汽车往往集成一系列电子设备,黑客可以通过监控网络信息来了解使用者的很多其他信息,如歌曲列表或中意的电台等。 物联网时代的安全防范及隐私保护 当然,前文所述的各种安全和隐私方面的隐患,绝不是想阻止物联网设备的普及和发展。我们应当明确,在智能化的道路上物联网是非常有必要也是相当重要的一环。因此,我们想着重从行业的发展以及赢取用户的信任角度,总结一下为了达到对安全和隐私有所保障的物联网产品究竟应该满足哪些要求。 安全特性 物联网中的所有安全特性的最终目标都是为了保证用户的保密信息不被泄露和保证物联网本身不被恶意攻击侵入。具体到实际问题,物联网提供方应在产品中努力做到提供以下安全特性。 1、物联网中的设备应当杜绝被非授权方破解、重新编程或丢失信息的可能。物联网的设备必须在可能存在的物理恶意攻击以及拒绝服务下始终保持自身的绝对安全,在此基础之上保持整个系统的安全信息与用户的数据,同时又不影响用户更新设备的驱动程序等正常操作。 2、物联网中的设备必须有被保护的存储空间,用来存放加密的用户信息与系统信息。比如arm芯片中集成的trust zone硬件安全模块。 3、物联网的每一个设备都应内嵌一个完整的访问控制机制,用以防止设备被未被授权的恶意一方访问,进而成为进攻整个系统的漏洞。在传感器或是驱动器等物联网设备上实现这样的访问机制可能会比较困难,因为这类设备普遍只有非常有限的内存容量。然而我们仍然认为所有的物联网设备必须有一套访问机制,因为一旦一台设备的访问被黑客突破,整个网络的信息都会面临泄露的危险,就像前文所讲的那样。[6] 4、应该保证用户和物联网之间交换数据的安全,以保持系统的完整性和保密性。如果数据的完整性被破坏,则意味着系统的正常运作被中断,将可能导致对用户的财务甚至人身损害。[7] 5、应采用识别和授权机制。只有授权的实体可以访问具有读写权限的物联网设备。理想的物联网设备需要拥有识别系统中的其他设备的能力,即拥有能够识别假冒者的能力。比如驱动器、传感器、rfid及网络。 6、整个系统必须在使用正常范围的参数情况时保持正常运作。除此之外,还需在恶意用户执行某些异样的行为时能够及时调整、适应,比如对设备的物理损坏,而且对手所造成的损害对系统运行的影响必须尽可能小。 7、在最坏的情况下,当系统中有物联网设备已经被黑客攻占时,整个系统应具备对于可能不再信任的设备一定的识别能力,比如当一个设备在本应该周期性更新数据时中断,或是暂时从网络中断开,则系统有理由怀疑该设备有可能已经不可被继续信任。相应的措施包括不再向该设备发送包含保密数据的通信,以及向使用方汇报可疑设备,直到有理由认定该设备已经被“消毒”为止。 8、与上一条相关的,系统提供方应当具有对所有设备是否被黑客攻占的诊断机制,以决定该设备是否可以继续在网络中使用。通常来说,只需清除所有数据并重新编程即可。然而当面对包含针对开发者的木马或是用户机密数据的情况,仍然需要谨慎。 隐私特性 介绍完安全特性后,我们接下来介绍一下物联网应提供的隐私保护特性。[8] 1、在用户和物联网设备之间交换的数据应该被保护,以使攻击者即使窃听通信也无法推断出关于用户的信息。攻击者不应通过推断获得任何关于用户的使用特定应用的时间、用户的身份或任何其他敏感信息。 2、物联网设备之间交换的消息不得泄露用户的身份或个人信息。 3、来自设备的信号必须以保护隐私的方式发送,以便不暴露设备的功能,因为这些信息可以被用来推测关于用户应用的信息。 4、物联网设备应该仅仅在绝对必要时保存个人用户信息的记录,而即使是在这种情况下,设备也应该只保存有限的时间。 5、物联网系统只应收集不会暴露用户的个人信息的数据,如整合后的数据。具体来说就是保存建筑物中的人数的记录,而不是与他们的身份相关的数据,如姓名、身份及视觉图像。 6、应该让用户知道正在捕获数据的内容和时间。 7、用户必须能够安全地从设备中删除所有的私人数据,比如在设备要转售时。 黑客使用僵尸物联网如何牟利 在讲完用户和生产商角度的情况后,我们换一个角度,设想一下使用僵尸物联网的黑客如何用这类技术牟取经济利益。 以前僵尸网络的一大使用方法是制造所谓的“点击欺骗”。点击欺骗的目的是让广告商误以为很多人在点击、阅读他们的广告内容。制造点击欺骗的方法有很多,最简单的通常就是将谷歌广告的广告插入到黑客名下的网页中。因为谷歌广告会根据广告被浏览和点击的次数来给予网页拥有者相应的报酬,所以这时黑客只要调动自己控制的几百万台设备轮番点击,钱就到手了。 而由于物联网的加入,同样的情况下黑客可调集的设备将呈几何数量增长。同时,未来的更多公司将开展基于点击量或浏览量的报酬机制,这类网络欺诈行为将会一而再再而三地出现。 类似地,很多垃圾邮件过滤功能都依靠能识别出每天群发大量邮件的计算机,进而屏蔽这类计算机的邮件。而使用僵尸网络则完全避开了这类垃圾邮件过滤功能,因为邮件不再由同一台计算机发出,而是分散到了几百万台设备上。 黑客可以利用僵尸网络庞大的设备数量和分布式计算能力,更快地破解密码,入侵多种在线账户、比特币挖矿,或是做任意一种需要大量联网计算机能做的工作。 这也是僵尸网络被认为是“三大生意”之一的原因。 迄今为止我们所见到的大都是ddo s攻击,如本文一开始所举的dyn的例子,可能就只是因为dyn惹恼了一些黑客。 然而更多的黑客团体将被经济利益驱使加入。不良政客会利用僵尸网络来关停其不喜欢的媒体新闻。这类攻击在将来势必成为网络安全战争中重要的技术手段。 未来展望 我们可以断言,物联网在未来几年会逐步加快部署和扩大联网规模,完成初步的先行热门应用建设。在这些数以百亿计的新鲜的网络设备投入使用后,僵尸网络这一攻击形式将乘着这股风头达到一个新的高度。 现在市场上已经出现了针对物联网而设计的安全软件以及隐私加密服务[9,10]。然而在真正的大规模攻击开始之前,很难说这些软件和服务能发挥多少效力。毕竟物联网服务面临着我们从未面对过的大量信息的产生、加密、传输、应用以及存储,而物联网本身的特征又无法调用无限的资源和处理能力来保护每一个环节。 很遗憾,但是就现在的情况来看,在与僵尸物联网的攻防战中,黑客的攻击一方有更多的优势。我们有理由相信,类似对dyn的攻击,利用物联网作为载体的攻击模式不会是个例,更多的攻击将会出现。 最后,我们不应感到失落,毕竟所有新技术的发展和应用都会伴随着恶意的破坏和阻挠。而要真正消除这些破坏所带来的影响,需要的正是更多的科研与工程力量的投入。 专家点评 邬贺铨 中国互联网协会理事长、中国工程院院士。 美国《麻省理工科技评论》发布了2017年10大突破性技术,僵尸物联网(bos of tings)被列入其中,而且这种过去就有的僵尸网络从以pc为对象转到以物联网节点为对象。2016年10月,美国东部的网络因物联网设备被木马控制引发域名解析遭受拒绝服务攻击(ddo s)而瘫痪,僵尸物联网受到全球的关注,这也是将其入选2017年10大突破性技术的主要原因。 一般情况下,物联网比互联网安全。因为相对智能手机操作系统上百万行代码和pc操作系统数千万行代码,传感器操作系统也就一万行代码,传感器因软件程序简单而少有漏洞,而且物联网通常是企业性或区域性,不需要连到公众互联网,避免了遭遇外部黑客和木马的攻击。 管理上的疏忽会将外网病毒引入内部物联网。2010年,一种名为“震网”的蠕虫病毒通过u盘被带入伊朗的核电站设备,侵入了西门子公司提供的工控系统,导致20%的离心机报废。2015年年底,乌克兰伊万诺-弗兰科夫斯克地区首府的电网局部停电事件,也是因为u盘将邮件的木马带入了电网控制系统。另外,当物联网节点以无线自组织网方式互联时,可能无法识别恶意加入的物联网节点,该异己节点不仅获取物联网信息还可能有潜伏的木马。 接入到公网的物联网节点的安全问题更严峻。首先,一些物联网节点是通过公众网络相连的,例如城市交通摄像头可能会通过公网连到监管中心,上述的美国发生的互联网部分瘫痪事件就是众多摄像头被木马控制而发起ddo s攻击所致,由于摄像头一般是8mbps甚至是高清视频,其持续流量比pc和手机还要高,发生ddo s攻击的峰值流量就更高。其次,虽然pc和手机会被木马控制但并非都处于工作状态,而物联网节点是永远在线的,这就增加了物联网被木马控制的机会,被称为“物联网谷歌”的shodan是提供互联网在线设备的搜索引擎,可搜索并破解全球在线且有信息漏洞的网络摄像头、路由器和信号灯等设备。然后,通常大量廉价的物联网节点没有什么安全措施或虽有访问密码但较pc和手机而言相对简单且容易被破解,也无法像pc那样安装功能复杂的防火墙,因此出现了无人机被植入黑客套件后受控在指定位置悬停或着陆偷窥,无人驾驶车被木马控制在行进中打开车门或其他操作,由此可见,人们对机器人杀人的担心也不是没有道理。最后,通常pc 和手机并不直接与被控制的物品或设备相连,而物联网与控制系统却直接关联,尤其是随着产业互联网的发展,物联网会被嵌入到基础设施和生产管理流程中,物联网节点一旦被控制其危害就更大。 物联网的安全需要从源头做起。物联网在没有必要通过公众互联网连接时就不要联到外网,在需要连接到外网时,物联网最好通过具有隔离功能的网关再联。但仍然有分布的物联网设备(如城市摄像头)可能需要通过公网相连,加大物联网设备的访问密码的长度是一种保护方法,但还需要定期对全网物联网设备用ddo s清理软件来扫描。最近出现的区块链技术的p2p互联特征适用于物联网应用,区块链的验证和共识机制及数据加密技术可验证登录到物联网节点的任意网络终端的身份,有助于识别恶意加入的物联网节点,避免利用物联网的ddo s攻击,但对节点的计算能力要求很高,一般物联网可望而不即。僵尸物联网因为其危害性以及目前还没有有效的防御手段,被列为2017年10大突破性技术的原因也希望能引起足够的重视。 专家点评 方春生 美国辛辛那提大学计算机博士,现任美国硅谷fire eye公司首席数据科学家。他从2012年起在硅谷从事大数据和人工智能在世界五百强企业安全应用的研发工作,拥有12项美国专利,发表了20余篇关于机器学习的学术文章,对于apt(高持续性威胁)、bo(僵尸网络)、内部威胁有比较深入的研究。曾担任emc(易安信)/pivotal、greylock投资硅谷初创公司首席数据科学家。 不久前,《麻省理工科技评论》2017年全球10大突破性技术排行榜出炉,其中有一个“不速之客”登上榜单,那便是“僵尸物联网”。这是一种可以感染并控制摄像头、监视器以及其他消费类电子产品的恶意软件,是会造成大规模网络瘫痪的技术。有人说,其他突破性技术都是用来造福人类的,而这项技术是来“坏菜”的。最近它坏得最严重的一次菜是在2016年10月,黑客操控感染了恶意软件mirai(日语“未来”的意思)的物联网设备,发起了ddo s攻击,影响波及twitter、reddit等知名网站,引起了美国大面积的网络瘫痪。然而,mirai也只是僵尸物联网的一种,哪怕杀死了mirai,还有qbot、luabot、bashlight、zord、remaiten、ktn-rm等更多的“寄生虫”。僵尸物联网作为两大技术热点——物联网和僵尸网络的交集,让我们一起来了解一下它的背景。 其实从科技史上看,任何快速发展的技术都会带来安全方面的暂时性漏洞。回想当年的互联网,也在安全问题上炸过锅,比如在互联网早期ftp服务器的用户名密码都是明文在网上传送的。目前对于僵尸物联网的畏惧,更多的是来自于对未知的畏惧。我们熟识的《失控》这本书的作者、被称为先知的kevin kelly,在1994年就对互联网的发展给出了预言,如今看来都是真知灼见。现在我们对物联网及僵尸物联网这样的科技新物种持有的心态,与当年站在互联网风口迷茫的人们别无二致。凯文·凯利(kevin kelly)的新作《必然》再一次预言了我们面前的科技新物种的未来走向,并给出了其变迁的12条路径。现在的我们,恰是站在了凯文·凯利所说的巨变时代的第一步“形成”,也就是雏形的阶段。在这个阶段最应该做的就是:正视僵尸物联网以及它身后的时代。 我们已经知道了僵尸物联网是什么,那么它通常通过什么方式入侵呢?以mirai为例,mirai 是一种自动识别物联网设备的软件,它能识别并让物联网上具有安全漏洞的设备染上病毒,变成僵尸网络的一部分,然后对它们进行集中控制。之后,物联网就会被嵌入分布式拒绝服务(ddo s)攻击,然后大量的垃圾流量会涌入目标服务器,从而使服务器瘫痪。 其实,ddo s只是僵尸物联网的牛刀小试,是众多攻击方式中的一种而已。据统计,僵尸网络的潜伏期可以长达200多天却不被发现,而入侵的入口往往非常简单而不易察觉。譬如一些看似正常的钓鱼邮件,附件是带有病毒的恶意文件,一旦点击便中招。这里常用的漏洞就是zero day(零日攻击)。病毒进入后会在局域网内进行扫描,寻找其他设备,以非常智能的一整套攻击方式(advanced persistent treat,apt)一步步入侵。针对企业、政府、医院等大型机构,黑客利用僵尸网络,窃取数据等有价值的信息,再以隐蔽、持久的方式把数据发送出去。 僵尸物联网的发展态势如何?gartner 在2017年1月的报告中提到,2017年全世界会有84亿个io t设备,到2020年世界上会有200亿个。这个天文数字意味着未来的设备将不计其数,比全球人口的数量还要多。据gartner统计,未来to c(消费者物联网产品)的设备会比to b(企业物联网产品)稍微多一些。io t设备量大,计算能力相对较弱,功耗较低,海量的io t设备被各种各样的厂商生产出来之后,在给大众提供各种便利和智能的同时,如果安全漏洞没有及时补上,将有可能带来一些意想不到的甚至毁灭性的影响。目前的mirai用作ddo s攻击只是冰山一角,预计以后会有更多的攻击浮出水面。 然而,说起目前对抗僵尸物联网的措施,我们无法将所有的力量倾注于技术的原因是:第一,io t设备的覆盖面太广,目前监测和防治的成本太高;第二,退一步说,即使有了有效的安全产品,谁来部署呢?消费者家里的设备被用来作ddo s,对消费者个人并没有太大的损失,所以不太可能寄望于消费者会部署家用防火墙等安全产品;第三,我们也还不知道谁来买单:消费者不太可能带来推动力;io t厂商本来利润已经很低,更不愿意承担这个责任。那么就只能寄望于to b(企业用户、isp)或to g(政府)有可能会牵头来制定io t安全的行业标准。 对于后知后觉的个体来说,我们需要正视的是,未来我们与越来越多的设备之间将产生越来越紧密的联系,我们将会过上“少了一样就脱节”的生活,也正如凯文·凯利所说的,未来是一种“霍洛思(holos)世界”。 目前,对僵尸物联网的“全民认知度”和“以企业和政府牵头的io t生态的构建”是不可或缺的。 在生活中又有哪些关键点可以让我们防患于未然?一要意识到你枕边的闹钟、手腕上的手表都可能成为僵尸物联网的一部分;二要做到经常升级,经常监控;三是经常修改你的io t设备的密码并保护好密码。在我们享受io t的便利和炫酷的同时,也要让其成为防范僵尸物联网的关键环节。 专家点评 邬怡 拥有10余年的安全体系架构设计经验,阿里云高级安全专家。 物联网已经广泛应用在国防公安、工业互联网、个人智能终端等各个领域,未来将彻底改变人类的生活方式。安全已经成为物联网产业面临的最大挑战,尤其是“工业物联网”,其安全性方面造成的危害远超普通的个人设备。由于物联网技术仍处于发展初期,尚未构筑一整套成熟的物联网安全保障体系。 全球范围内不设防的海量物联网设备,为黑客提供了大量的入侵操纵机会。2013年,linux.darlloz蠕虫利用php漏洞感染路由器、摄像头、家用路由器;2015年,菲亚特-克莱斯勒召回了100多万辆存在安全漏洞的汽车;2016年,mirai蠕虫采用分布式拒绝服务攻击dyn,造成美国互联网大面积瘫痪,引发各国政府和民众对物联网安全威胁的重大关注。 现在,黑客能轻易买到任何的物联网设备,通过细致分析某类设备的弱点后,通过远程攻击操控“物联网肉鸡”。一旦其中一台设备被入侵,任何相同厂商和型号的设备都将被黑客批量控制。而设备厂商很难对全球已售出的数百万台设备全面升级或关闭。这将导致即使发现物联网设备的安全问题,也很难在短时间内彻底解决根源隐患,大量的物联网设备因为无人管理而沦为黑客的“肉鸡”。分布式拒绝服务攻击仅仅是物联网设备广为人知的安全问题之一,全球跨国物联网攻防大战刚刚开始,在云计算高度安全的保障下,针对智能终端的更多攻击方法将持续被黑客开发出来,会给各国带来巨大损失。 因为涉及国家安全、商业健康、个人财产等几乎所有的领域,现在急需各国政府、物联网厂商和网络安全厂商联手积极解决物联网的安全问题,防止物联网安全威胁愈演愈烈,最后造成整个物联网技术体系的崩溃。安全厂商应和设备厂商紧密合作,设计构建一套更安全的物联网生态。建议国家从政策层面对物联网安全立法,制定合规标准。物联网安全应该用系统工程思路来设计和管理物联网,将安全融入物联网设备的完整的生命周期。在架构上引入更丰富的安全体系,从平台访问到数据交互验证,从账户信息加密到纵深防御,从设备云端到应用云端鉴权,强化在端和系统之间的安全防护。 缺乏安全防护能力的中小物联网企业应使用公共云服务商提供的物联网平台,这样不仅能大大加快物联网系统的开发进度,同时还能够应用全球领先的安全技术保证自身物联网系统的安全。通过跨产业的共同努力,打造出更加安全健康的物联网世界。 参考文献 强化学习(reinforcement learning) [1]?mittechnology review.10breakthrough technologies 2013.2014.https://.technologyreview/lists/technologies/2013/. [2]?knight,w.reinforcement learning.2017.https://.technologyreview/s/603501/10-breakthrough-technologies-2017-reinforcement-learning/. [3]?silver,d.,et al.mastering the game of go with deep neuraworksandtreesearch.nature,2016,529. [4]?sutton,r.,et al.reinforcement learning.mit press,1998. [5]?schultz,w,dayan,p & montague,pr.a neural substrate of prediction and reward.science,1997,275 (5306):1593–1599. [6]?thorndike,e.l.,animal intelligence: an experimental study of the associative processes in animals.psychological monographs: general and applied,,1898.2(4)i-109. [7]?bernstein,j.,marvin minsky’s vision of the future.the new yorker,1981. [8]?minsky,m..a neural-analogue calctor based upon a probability model of reinforcement.psychologicalboratories,harvard university,cambridge,ma.1952. [9]?bellman,r..a markovian decision process.journal of mathematicsand mechanics.1957,6. [10] ghahramani,z..unsupervised learning,university college london,uk.2004. [11]?kaelbling,l.p.,et al..reinforcement learning:a survey.journal of artiicial intelligence research submitted,1996,4(9995),pp.237–285. [12]?coggan,m..exploration and exploitation in reinforcement learning.2004. [13]?huys,q.j.m.,et al.reward-based learning,model-basedand model-free.2014. [14]?knight,w..this factory robot learns a new job overnight.mittechnology review,2016. [15]?knight,w..japanese robotics giant gives its arms some brains,mittechnology review,2016. [16]?levine,s.,et al..learning hand-eye coordination for robotic grasping with deep learning andrge-scale data collection.2016. [17]?cai,h.,etal..real-time biddingby reinforcement learningin disy advertising.2017. [18]?mao,h.,et al..resource management with deep reinforcement learning.2017. [19]?j.gao and r.evans.deepmind ai reduces google data centre cooling bill by 40%.2016.https://deepmind/blog/deepmind-ai-reducesgoogle-data-centre-cooling-bill-40/. [20]?kober,j.,et al.reinforcement learning in robotics:asurvey.2013. 360°自拍(the360-degree selfie) [1]?李文方.世界摄影史:1825—2002[m].黑龙江人民出版社,2004. [2]?belbachir a n,schraml s,mayerhofer m,et al.a novel hdrdepth camerafor real-time3d360° panoramic vision[c]// ieee conference onputer vision and pattern recognition workshops.ieee,2014:425-432. [3]?martinez g.3d panoramic stereo vision reconstruction[j].av akademikerveg,2014. [4]?ritchey k j.panoramic image based virtual reality/telepresence audio-visual system and method: us 20070182812a1[p].2007. 基因疗法2.0(gene therapy2.0) [1]?friedmann t,roblin r.gene therapy for human gicdisease?science.1972nov10;178(4061):648-9. [2]?kohn db,weinberg ki,nolta ja,heiss ln,lenarsky c,crooks gm,hanley me,at g,brooks js,el-khoureiy a,et al.engraftment of gene-modified umbilical cord blood cells in neonates with adenosine deaminase deficiency.nat med,1995, 1(10):1017-23. [3]?stolberg sg.the biotech death of jesse gelsinger.new york times,1999. [4]?lewis r.gene therapy’s second act.sci am,2014 , 310(3):52-7.gherapy’ssecondact. [5]?hacein-bey-abina et al.insertional oncogenesis in 4 patients after retrovirus-mediated gene therapy of scid-x1.journal of clinical investigation,2008; doi:10.1172/jci35700. [6]?pan jj,zhang sw,chen cb,xiao sw,sun y,liu cq,su x,li dm,xu g,xu b,lu yy.effectof. [7]?rbinant adenovirus-p53bined with radiotherapy on long-term prognosis of advanced nasopharyngeal carcinoma.j clin oncol,2009 , 27(5):799-804.doi:10.1200/jco.2008.18.9670. [8]?王勇.赛百诺:基因之殇.中国企业家,2009. 太阳能热光伏电池(hot sr cells) [1]?loubriel a.50 percent of the energy produced in germany is sr: new record[eb/ol].(2014).http://guardianlv/2014/06/50-percent-of-the-energy-produced-in-germany-is-sr-new-record/. [2]?masson g,brunisholz m.2015 snapshot of globalphotovoltaicmarkets[r].2016. [3]?饶毅,沈志勋.爱因斯坦之光电效应——一个世纪的认知与创新[j].知识分子,2016. [4]?vanguard 1[eb/ol].wikipedia,https://en.wikipedia.org/wiki/vanguard_1. [5]?photovoltaics[eb/ol].wikipedia,https://en.wikipedia.org/wiki/photovoltaics. [6]?renewables information (2016 edition)-key renewables trends[r].international energy agency,2016. [7]?shockleyw,queisserhj.detailed bnce limit of effciency of p‐n junction sr cells[j].journal of applied physics,american institute of physics,1961,32(3):510–519. [8]?林伯强.解决“弃风弃光”问题刻不容缓[eb/ol].中国证券报·中证网,2017.(2017).http://.cs/xwzx/hg/201702/t20170215_5177966.html. [9]?刘鉴民.太阳能利用:原理·技术·工程[m].北京:电子工业出版社,2010. [10]?biermandm,lenerta,chanwr,etal.enhanced photovoltaic energy conversion using thermally based spectralshaping[j].nature energy,2016,1(6):16068. [11]?sr cell efficiency[eb/ol].wikipedia,https://en.wikipedia.org/wiki/sr_cell_effciency. [12]?dimroth f,grave m,beutel p,et al.wafer bonded four-junction ga in p/ga as//ga in as p/ga in as concentrator sr cells with 44.7% efficiency[j].progress in photovoltaics: research and applications,2014,22(3):277–282. [13]?chandler d l.hot new sr cell[eb/ol].(2016).http://news.mit.edu/2016/hot-new-sr-cell-0523. [14]?陈雪,宣益民.热光伏技术基本原理与研究进展[j].半导体光电,2006(4). [15]?bitnar b,durisch w,holzner r.thermophotovoltaics on the move to applications[j].applied energy,2013,105:430–438. [16]?thermophotovoltaic[eb/ol].wikipedia,https://en.wikipedia.org/wiki/thermophotovoltaic. [17]?石景文.碳纳米管未来10年将大幅降低成本进入商业应用[j].工程塑料应用,2006(3). 细胞图谱(the cell as) [1]?gest h.thediscoveryofmicroorganismsby robert hooke and antoni van leeuwenhoek,fellows of the royal society[j].notes and records of the royal society,2004,58(2):187-201. [2]?becker w m,kleinsmith l j,hardin j,et al.the world ofthecell[m].san francisco:benjamin cummings,2003. [3]?robinson,richard.history of biology: cell theory and cell structure[j].advameg,inc.[2014-3-17].http://.biologyreference/gr-hi/history-of-biology-cell-theory-and-cell-structure.html. [4]?李相尧.拉蒙·卡哈尔和神经元学说[j].生物学教学,2004,29(11):56.doi:10.3969/j.issn.1004-7549.2004.11.042. [5]?mc grath,j.a.; eady,r.a.; pope,f.m.rook’s textbookof dermatology7th[j].ckwell publishing, 2004:3.1–3.6.isbn978-0-632-06429-8. [6]?breitkreutz d,mirancea n,nischt r.basement membranes in skin: unique matrix structures with perse functions?[j].histochemistry and cell biology,2009,132(1):1-10. [7]?npain c,fuchs e.epidermal stem cells of the skin[j].annu.rev.cell dev.biol.,2006,22:339-373. [8]?belkaid y,segre ja.dialoguebetweenskinmicrobiota andimmunity[j].science,2014,346(6212):954-959. [9]?darby i a,hewitson t d.fibrost differentiation in wound healing and fibrosis[j].international review ofcytology,2007,257:143-179. [10]?bayreuther k,rodemann h p,hommel r,et al.human skin fibrosts in vitro differentiate along a terminal cell lineage[j].proceedings of the national academyof sciences,1988,85(14):5112-5116. [11]?set r,wang z,rezza a,et al.an integrated transcriptome as of embryonic hair follicle progenitors,their niche,and the developing skin[j].developmentalcell,2015,34(5):577-591. [12]?tong p l,roediger b,kolesnikoff n,et al.the skin immune as: three-dimensional analysis of cutaneous leukocyte subsets by multiphoton microscopy[j].journal of investigative dermatology,2015,135(1):84-93. [13]?seung h s,sumbul u.neuronal cell types and connectivity: lessons from the retina[j].neuron,2014,83(6):1262-1272. [14]?saliba a e,westermann a j,gorski s a,et al.single-cell rna-seq: advances and future challenges[j].nucleic acids research,2014,42(14):8845-8860. [15]?kolodziejczyk a a,kim j k,svensson v,et al.the technology and biology of single-cell rna sequencing[j].molecrcell,2015,58(4):610-620. [16]?jaitin d a,kenigsberg e,keren-shaul h,et al.massively parallel single-cell rna-seq for marker-free dposition of tissues into cell types[j].science,2014,343(6172):776-779. [17]?treutlein b,lee q y,camp j g,et al.dissecting direct reprogramming from fibrost to neuron using single-cell rna-seq[j].nature,2016. [18]?tang f,barbacioru c,bao s,et al.tracing the derivation of embryonic stem cells from the inner cell mass by single-cell rna-seq analysis[j].cell stem cell,2010,6(5):468-478. [19]?saliba a e,westermann a j,gorski s a,et al.single-cell rna-seq: advances and future challenges[j].nucleic acids research,2014,42(14):8845-8860. [20]?wu a r,neff n f,kalisky t,et al.quantitative assessmentofsingle-cell rna-sequencingmethods[j].naturemethods,2014,11(1):41-46. [21]?tang f,barbacioru c,wang y,et al.m rna-seq whole-transcriptomeanalysisofasinglecell[j].nature methods,2009,6(5):377-382. [22]?ramsk?ld d,luo s,wang y c,et al.full-length m rna-seqfromsingle-celllevelsof rnaandinpidual circting tumor cells[j].nature biotechnology,2012,30(8):777-782. [23]?morris j,singh j m,eberwine j h.transcriptome analysis of single cells[j].jo ve (journal of visualized experiments),2011(50):e2634-e2634. [24]?kang y,norris m h,zarzycki-siek j,et al.transcript amplification from single bacterium for transcriptome analysis[j].genome research,2011,21(6):925-935. [25]?im s,kj?llquist u,moliner a,et al.highly multiplexed and strand-specific single-cell rna 5 [prime] end sequencing[j].nature protocols,2012,7(5):813-828. [26]?hashimshony t,wagner f,sher n,et al.cel-seq: single-cell rna-seq by multiplexed linear amplification[j].cellreports,2012,2(3):666-673. [27]?macosko e z,basu a,satija r,et al.highly parallel genome-wide expression profiling of inpidual cells using nanoliter droplets[j].cell,2015,161(5): 1202-1214. [28]?ziegenhain c,vieth b,parekh s,etalparative analysis of single-cell rna sequencing methods[j].bio rxiv,2016:035758. [29]?vermeulen l,todaro m,de sousa mello f,et al.single-cell cloning of colon cancer stem cells reveals a multi-lineage differentiation capacity[j].proceedings of the national academy of sciences,2008,105(36):13427-13432. [30]?hsiao a p,barbee k d,huang x.microfluidic device for capture and istion of single cells[c]//spie nano science+ engineering.international society for opticsand photonics,2010:77590w-77590w-9. [31]?suarez-quian c a,goldstein s r,pohida t,et alser capture microdissection of single cells fromplex tissues[j].biotechniques,1999,26(2): 328-335. [32]?im s,zeisel a,joost s,etal.quantitativesingle-cell rna-seq with unique molecr identifiers[j].naturemethods,2014,11(2):163-166. [33]?grun d,kester l,van oudenaarden a.validation of noise models for single-cell transcriptomics[j].naturemethods,2014,11(6):637-640. [34]?picelli s,bj?rklund ? k,faridani o r,et al.smart-seq2 for sensitive full-length transcriptome profiling in single cells[j].nature methods,2013,10(11): 1096-1098. [35]?sanger f,coulson a r.a rapid method for determining sequences in dna by primed synthesis with dna polymerase[j].journal of molecr biology,1975,94(3):441in19447-446in20448. [36]?caporaso jguber cl,walters wa,etal.ultra-high-throughput microbialmunity analysis on the illumina hi seq and mi seq tforms[j].the isme journal,2012,6(8):1621-1624. [37]?howorka s,cheley s,bayley h.sequence-specific detection of inpidual dna strands using engineered nanopores[j].nature biotechnology,2001,19(7): 636-639. [38]?stegle o,teichmann sa,marioni jcputational andanalyticalchallengesinsingle-celltranscriptomics[j].nature reviews gics,2015,16(3):133-145. [39]?molecr machines & industries.will theser damage the surrounding tissue?.[2014-02-13].https://.molecr-machines/support/faqs/general_faqs_mmi_cellcut_plus. [40]?hawrylycz m j,lein e s,guillozet-bongaarts a l,et al.an anatomicallyprehensive as of the adult human brain transcriptome[j].nature,2012,489(7416):391-399. [41]?miller j a,ding s l,sunkin s m,et al.transcriptionalndscape of the prenatal human brain[j].nature,2014,508(7495):199-206. [42]?zechel s,zajac p,l?nnerberg p,et al.topographical transcriptome mapping of the mouse medial ganglionic eminence by spatially resolved rna-seq[j].genome biology,2014,15(10):486. [43]?peng g,suo s,chen j,etal.spatialtranscriptomefor themolecrannotationoflineagefatesandcellidentity in mid-gastr mouse embryo[j].developmental cell,2016,36(6):681-697. [44]?lubeck e,coskun a f,zhiyentayev t,et al.single-cell in situ rna profiling by sequential hybridization[j].naturemethods,2014,11(4):360-361. [45]?chen k h,boettiger a n,mofftt j r,et al.spatially resolved,highly multiplexed rna profiling in single cells[j].science,2015,348(6233):aaa6090. [46]?myers a.getting rity: hydrogel process creates transparent brain[eb/ol].(2013) [2017-03-19].http://med.stanford.edu/news/all-news/2013/04/getting-rity-hydrogel-process-creates-transparent-brain.html. [47]?cadwell c r,psantza a,jiang x,et al.electrophysiological,transcriptomic and morphologic profiling of single neurons using patch-seq[j].nature biotechnology,2016,34(2):199-203. [48]?sanger institute.[2017-03-19].http//.sanger.ac.uk/about/who-we-are/sanger-institute. [49]?sangerinstitute.cellrgics[eb/ol].[2017-03-19].http://.sanger.ac.uk/science/programmes/cellr-gics. [50]?broad institute.[2017-03-19].https://.broadinstitute.org/research-highlights-human-cell-as. [51]?anwar y.uc berkeley to partner in $600m chan zuckerberg science‘biohub’[eb/ol].(2016)[2017-03-19].http://news.berkeley.edu/2016/09/21/biohub/. [52]?biohub.[2017-03-19].https://czbiohub.org/projects/cell-as/. 刷脸支付(payingwith your face) [1]?柴晓光,岑宝炽.民用指纹识别技术[m].人民邮电出版社,2004. [2]?daugman j.how iris recognition works[j].circuits& systems for video technology ieee transactions on,2004,14(1):21-30. [3]?y.sun,x.wang,and x.tang."deep learning face representation from predicting 10,000 sses",ieee conf.onputer vision and pattern recognition,2014,6. [4]?hu g,yang y,yi d,et al.when face recognition meetswith deep learning:an evaluationof convolutional neuralworksfor face recognition[j].2015:384-392. 实用型量子计算机(practical quantumputers) [1]?郭光灿.量子信息技术[j].重庆邮电大学学报(自然科学版),2010,22(05):521-525. [2]?周正威,黄运锋,张永生,等.量子计算的研究进展.物理学进展,2005(04):368-385. [3]?林功伟.量子网络的物理实现[d].中国科学技术大学,2011. [4]?徐爱胜,王建秋,胡喜飞.量子通信安全性研究.科技风,2008(4):50. [5]?薛飞,杜江峰,周先意,等.量子计算的物理实现.物理,2004(10):728-733. 治愈瘫痪(reversing paralysis) [1]?wikipedia.the diving bell and the butterfly[eb/ol].(2017-03-03) [2017-03-03].https://en.wikipedia.org/wiki/the_diving_bell_and_the_butterfly. [2]?christopher & dana reeve foundation.stats about paralysis[eb/ol].[2017-02-28].https://.christopherreeve.org/living-with-paralysis/stats-about-paralysis. [3]?全球医院网.我国脑中风死亡率全球第一[eb/ol].(2010-06-25) [2017-02-28].http://xinwen.qqyy/a/100625/5766.html. [4]?u.s.national library of medicine.paralysis[eb/ol].(2017-2-22) [2017-02-28].https://medlineplus.gov/paralysis.html. [5]?nhsplications of paralysis[eb/ol].[2014-08-28].http://.nhs.uk/conditions/paralysis/pagesplications.aspx. [6]?nhsplications of paralysis[eb/ol].[2014-08-28].http://.nhs.uk/conditions/paralysis/pages/treatment.aspx. [7]?wikipedia.brainputer interface[eb/ol].[2017-03-15].https://en.wikipedia.org/wiki/brainputer_interface. [8]?national institute of deafness and othermunication disorders,cochlear imnts[eb/ol].[2017-03-06].https://.nidcd.nih.gov/health/cochlear-imnts. [9]?wilson b s,dorman m f.cochlear imnts: a remarkable past and a brilliant future[j].hearing research,2008,242(1):3-21. [10]?brindley g s,lewin w s.the sensations produced by electrical stimtion of the visual cortex[j].the journalofphysiology,1968,196(2):479. [11]?dobelle w h,dejovsky m g,girvin j p.artificial vision for the blind: electrical stimtion of visual cortex offers hope for a functional prosthesis[j].science,1974,183(4123):440-444. [12]?american academy of ophthalmology.retina prosthesis[eb/ol].[2016-09-11].http://eyewiki.org/retina_prosthesis. [13]?rizzo iii j f.update on retinal prosthetic research:the boston retinal imnt project[j].journal of neuro-ophthalmology,2011,31(2):160-168. [14]?stanley g b,li f f,dan y.reconstruction of natural scenesfromensembleresponsesinthteralgenicte nucleus[j].journal of neuroscience,1999,19(18): 8036-8042. [15]?fetz e e,smith o a.operant conditioning of precentral cortical cell activity in awake monkeys[c].federation proceedings.9650 rockville pike,bethesda,md 20814-3998: federation amer soc expbiol,1969,28(2):521-&. [16]?vidal j j.toward direct brainputermunication[j].annual review of biophysics and bioengineering,1973,2(1):157-180. [17]?vidal j j.real-time detection of brain events in eeg[j].proceedingsofthe ieee,1977,65(5):633-641. [18]?he b,gao s,yuan h,et al.brainputer interfaces[m].neural engineering.springer us,2013: 87-151. [19]?adam piore,to study the brain,a doctor puts himself under the knife[eb/ol].mit technology review.(2015-11-09) [2017-2-28].https://.technologyreview/s/543246/to-study-the-brain-a-doctor-puts-himself-under-the-knife/. [20]?bartels j,andreasen d,ehirim p,et al.neurotrophic electrode: method of assembly and imntation into human motor speech cortex[j].journal of neuroscience methods,2008,174(2): 168-176. [21]?velliste m,perel s,spalding m c,et al.cortical control of a prosthetic arm for self-feeding[j].nature,2008,453(7198):1098-1101. [22]?the mc gowan institute for regenerative medicine,brainputer interface technology wins breakthrough award[eb/ol].(2012-10-1) [2017-2-28].http://.mirm.pitt.edu/news-archive/brainputer-interface-technology-wins-breakthrough-award/. [23]?o’doherty j e,lebedev m a,ifft p j,et al.active tactile exploration using a brain-machine-brain interface[j].nature,2011,479(7372):228-231. [24]?ifft p j,shokur s,li z,et al.a brain-machine interface enables bimanual arm movements in monkeys[j].science trantional medicine,2013,5(210):210ra154-210ra154. [25]?hochberg l r,bacher d,jarosiewicz b,et al.reach and grasp by people with tetraplegia using a neurally controlled robotic arm[j].nature,2012,485(7398): 372-375. [26]?the wyss center.tforms[eb/ol].[2017-2-28].http://.wysscenter.ch/en/tforms/. [27]?n rogers.brain imnt helps quadriplegic y guitar hero[eb/ol].science.(2016-04-13) [2017-2-28].http://.sciencemag.org/news/2016/04/brain-imnt-helps-quadriplegic-y-guitar-hero. [28]?antonio regdo.paralyzed man’s arm wired to receive brain signals[eb/ol].mit technology review,(2015-10-20) [2017-2-28].https://.technologyreview/s/542581/paralyzed-mans-arm-wired-to-receive-brain-signals/. [29]?linda geddes.first paralysed person to be ''reanimated'' offers neuroscience insights[eb/ol].nature news,(2016-4-13) [2017-2-28].http://.nature/news/first-paralysed-person-to-be-reanimated-offers-neuroscience-insights-1.19749. [30]?erico guizzo,dean kamen''s "luke arm" prosthesis receives fda approval[eb/ol].ieee spectrum,(2014-05-13) [2017-2-28].http://spectrum.ieee.org/automaton/biomedical/bionics/dean-kamen-luke-arm-prosthesis-receives-fda-approval. [31]?mobius bionics llc.luke arm[eb/ol].[2017-2-28].http://.mobiusbionics/the-luke-arm.html. [32]?flesher s n,collinger j l,foldes s t,et al.intracorticalmicrostimtion of human somatosensory cortex[j].science trantional medicine,2016,8(361):361ra141-361ra141. [33]?hannah devlin.mind-controlled robot arm gives backsenseoftouchtoparalysedman[eb/ol].guardian news and media,(2016-10-13) [2017-2-28].https://.theguardian/science/2016/oct/13/mind-controlled-robot-arm-gives-back-sense-of-touch-to-paralysed-man. [34]?university of of minnesota.umn research shows peoplecancontrolroboticarmwiththeirminds.(2016-12-14) [2017-2-28].https://twin-cities.umn.edu/news-events/umn-research-shows-people-can-control-robotic-arm-their-minds. [35]?capogrosso m,milekovic t,borton d,et al.a brain–spine interface alleviating gait deficits after spinal cord injury in primates[j].nature,2016,539(7628):284-288. [36]?david cyranoski.brain imnts allow paralysed monkeys to walk[eb/ol].nature new,(2016-11-09) [2017-2-28].http://.nature/news/brain-imnts-allow-paralysed-monkeys-to-walk-1.20967. [37]?bulárka s,gontean a.brainputer interface review[c]//electronics and telmunications (isetc),2016 12th ieee international symposium on.ieee,2016:219-222. [38]?wikipedia.electroencephalography[eb/ol].[2017-02-28].https://en.wikipedia.org/wiki/electroencephalography [39]?liew s l,santarnhi e,buch e r,et al.non-invasive brain stimtion in neurorehabilitation: local anddistanteffectsformotorrecovery[j].2014. [40]?wikipedia.functional maic resonance imaging[eb/ol].(2017-03-04) [2017-02-28].https://en.wikipedia.org/wiki/functional_maic_resonance_imaging. [41]?lebedev m a,nicolelis m a l.brain–machine interfaces: past,present and future[j].trends in neurosciences,2006,29(9):536-546. [42]?he b,gao s,yuan h,et al.brainputer interfaces[m].neural engineering.springer us,2013:87-151. [43]?john travis.robo-suit and virtual reality reverse some paralysis in people with spinal cord injuries[eb/ol].american association for the advancement of science,(2016-08-11) [2017-02-28].http://.sciencemag.org/news/2016/08/robo-suit-and-virtual-reality-reverse-some-paralysis-people-spinal-cord-injuries. [44]?bruce goldman.brainputer interface advance allows fast,urate typing by people with paralysis[eb/ol].stanford medicine,(2017-02-21) [2017-02-28].http://med.stanford.edu/news/all-news/2017/02/brainputer-interface-allows-fast-urate-typing-by-people-with-paralysis.html. [45]?pandarinath c,nuyujukian p,be ch,etal.high performancemunication by people with paralysis using an intracortical brainputer interface[j].e life,2017,6:e18554. [46]?grand view research inc,global brainputer interface market analysis by product to 2022[eb/ol].(2016-07) [2017-02-28].http://.grandviewresearch/industry-analysis/brainputer-interfaces-market. [47]?grand view research inc,brainputer interface (bci) market analysis by product (invasive,partially invasive,non-invasive brainputer interface)by application,by end-use(medical,military) is expected to research usd 1.73 billion by 2022[eb/ol].(2016-07).http://.grandviewresearch/press-release/global-brainputers-interface-market. [48]?markets and markets,brainputer interface market- by technology [bit brain,brain up,brain gate,emotiv,electroencephalography (eeg),direct neural interface (dni),synthetic telepathy interface (sti)]- worldwide market forecast and analysis (2014-2019)[eb/ol].http://.marketsandmarkets/market-reports/brainputer-interface-market-64821525.html. [49]?bulárka s,gontean a.brainputer interface review[c].electronics and telmunications (isetc),2016 12th ieee international symposium on.ieee,2016:219-222. [50]?dekaresearch&development corp.innovations[eb/ol].[2017-02-28].http://.dekaresearch/innovations/. [51]?hector morales.toyota and deka bring back the i bot.pulse headlines[eb/ol].(2016-05-23) [2017-02-28].http://.pulseheadlines/toyota-deka-bring-ibot/32330/. [52]?emotiv inc.brainwear wireless eeg technology[eb/ol].[2017-02-28].https://.emotiv. [53]?mind maze.[2017-02-28].https://.mindmaze. [54]?brain robotics.appearance customization[eb/ol].[2017-02-28].http://brainrobotics. [55]?gust.neurolutionspany summary[eb/ol].[2017-02-28].https://gustpanies/neurolutions. [56]?neuro pace.the rns system - designed to prevent seizures at their source[eb/ol].[2017-02-28].http://.neuropace. [57]?neurosky.eeg & ecg biosensor solutions[eb/ol].[2017-02-28].http://neurosky. [58]?kickstarter.open bci: an open source brainputer interface for makers[eb/ol].[2017-02-28].https://.kickstarter/projects/openbci/openbci-an-open-source-brainputer-interface-fo. [59]?cadwell industries inc.[2017-02-28].https://.cadwell. [60]?brain co.[2017-02-28].http://.brainco.tech/#/. [61]?interaxon.muse makes meditation easy[eb/ol].[2017-02-28].http://.choosemuse. [62]?crunchbase inc.[2017-02-28].https://.crunchbase/organization/kernel-co#/entity. [63]?cyberkics.brain gate: turning thoughts into action[eb/ol].[2017-02-28].http://cyberkics. [64]?tom simonite.this technology could finally make brain imnts practical[eb/ol].mittechnology review,(2017-02-09) [2017-02-28].https://.technologyreview/s/603602/this-technology-could-finally-make-brain-imnts-practical/. [65]?susan young rojahn.fda approval for robotic arm controlled by muscle activity[eb/ol].mit technology review,(2014-05-12) [2017-02-28].https://.technologyreview/s/527256/fda-approval-for-robotic-arm-controlled-by-muscle-activity/. [66]?kevin warwick.the future of artificial intelligence and cybeics[eb/ol].mit technology review,(2016-11-10) [2017-02-28].https://.technologyreview/s/602830/the-future-of-artificial-intelligence-and-cybeics/. 僵尸物联网(bosof things) [1]?dave evans.the inte of things:how the next evolution of the inte is changing everything is changing everything-cisco white paper[r/ol].(2011-04).http://.cisco/c/dam/en_us/about/ac79/docs/innov/io t_ibsg_0411final.pdf [2]?atamli a w,martin a.threat-based security analysis for the inte of things.2014 international workshop on secure inte of things[c].wrow,pnd. [3]?covington m,carskadden r.threat implications of the inte of things.5th international conference in cyber conflict, proceedings 2013[c].tallinn.ieee 978-9949-9211-4-0. [4]?benabdessalem r,hamdi m,kim t h.a survey on security models,techniques,and tools for the inte of things: 2014 7th international conference on advanced software engineering and its applications[c].hainan,china.ieee978-1-4799-7761-1 [5]?qiang c,quan g,yu b.research on security issues of the inte of things.international journal of future generationmunication andworking[j].2013,6(6):1-10.http://dx.doi.org/10.14257/ijf.2013.6.6.01. [6]?leo m,battisti f,carli m.a federated architecture approach for inte of things security: 2014 euro med telco conference (emtc)[c].naples.aict 978-8-8872-3720-7. [7]?granjal j,monteiro e,silva j s.security for the inte of things: a survey of existing protocols and open research issues[j].ieeemunication surveys & tutorials,vol.17,no.3,third quarter2015.ieee1553-877x. [8]?mahmoud r,yousuf t,aloul f.inteofthings(io t) security: current status,challenges and prospective measures.2015 10th international conference for inte technologyand secured transactions(icitst) [c].london,united kingdom.ieee978-1-908320-52-0. [9]?wind river.security in inte of things: lessons from the past for the connected future[z].white paper,[2017-3].https://.windriver/whitepapers/security-in-the-inte-of-things/wr_security-in-the-inte-of-things.pdf. [10]?cisco: cisco io t security: mitigate risk,simplifypliance,and build trust[z].white paper,[2017-3].https://.cisco/c/dam/en/us/products/coteral/se/inte-of-things/iot-system-security-wp.pdf.