科技一站

 找回密码
 立即注册
查看: 90|回复: 1

清华大学教授:唐杰——深度分析:人工智能的下个十年

[复制链接]

3

主题

7

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2022-12-10 08:13:11 | 显示全部楼层 |阅读模式
关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群

来源:图灵人工智能
唐杰教授从人工智能发展的历史开始,深入分析人工智能近十年的发展,阐述了人工智能在感知方面取得的重要成果,尤其提到算法是这个感知时代最重要、最具代表性的内容。
重点讲解了BERT、ALBERT、MoCo2等取得快速进展的算法。最后说到下一波人工智能浪潮的兴起,就是实现具有推理、可解释性、认知的人工智能



作者:唐杰教授
人工智能对社会和经济影响的日益凸显,各国政府也先后出台了对人工智能发展的政策,并将其上升到国家战略的高度。截至目前,包括美国、中国和欧盟在内的多国和地区颁布了国家层面的人工智能发展政策。



在这个时代背景下,我们需要考虑人工智能未来十年会怎样发展。首先,我们需要从人工智能的发展历史中找到灵感。













































我们再深入分析 AI 近十年的发展,会看到一个重要的标志:人工智能在感知方面取得重要成果人工智能在语音识别、文本识别、视频识别等方面已经超越了人类,我们可以说 AI 在感知方面已经逐渐接近人类的水平。从未来的趋势来看,人工智能将会有一个从感知到认知逐步发展的基本趋势,如下图所示:






首先,我们来看看 AI 在感知方面做了哪些事情。在感知方面,AlphaGo、无人驾驶、文本和图片之间的跨媒体计算等取得了快速发展。从宏观来看,算法是这个感知时代最重要、最具代表性的内容。如果把最近十年的重要算法进行归类,以深度学习为例进行展示的话,我们可以得到下图所示的发展脉络。




































这里,我想引用张钹院士提出来的第三代人工智能的理论体系。
2015 年,张钹院士提出第三代人工智能体系的雏形。
2017 年,DARPA 发起 XAI 项目,核心思想是从可解释的机器学习系统、人机交互技术以及可解释的心理学理论三个方面,全面开展可解释性 AI 系统的研究。
2018 年底,正式公开提出第三代人工智能的理论框架体系,核心思想为:
建立可解释、鲁棒性的人工智能理论和方法。发展安全、可靠、可信及可扩展的人工智能技术。推动人工智能创新应用。其中具体实施的路线图如下:
与脑科学融合,发展脑启发的人工智能理论。数据与知识融合的人工智能理论与方法。在这个思想框架下,我们做了一定的深入研究,我们称之为认知图谱。其核心概念是知识图谱+认知推理+逻辑表达。






当我们用传统算法(如 BIDAF, BERT, XLNet)进行解决的时候,计算机可能只会找到局部的片段,仍然缺乏一个在知识层面上的推理能力,这是计算机很欠缺的。人在这方面具有优势,而计算机缺乏类似的能力。
人在解决上述问题的过程中存在推理路径、推理节点,并且能理解整个过程,而 AI 系统,特别是在当下的 AI 系统中,深度学习算法将大部分这类问题都看作是一个黑盒子,如下图所示:






这个基本的思想是结合认知科学中的双通道理论。在人脑的认知系统中存在两个系统:System 1 和 System 2,如下图所示。System 1 是一个直觉系统,它可以通过人对相关信息的一个直觉匹配寻找答案,它是非常快速、简单的;而 System 2 是一个分析系统,它通过一定的推理、逻辑找到答案。



在去年的 NIPS 上,图灵奖获得者 Bengio 在大会主旨报告的 Keynote 也提到,System 1 到 System 2 的认知是深度学习未来发展的重要的方向,如下图所示:



因此,我们大概用这个思路构建了这个新的、我们称为认知图谱的这样一个方法。在 System 1 中我们主要做知识的扩展,在 System 2 中我们做逻辑推理和决策,如下图所示:



可以看到,我们在 System 1 中做知识的扩展,比如说针对前面的问题,我们首先找到相关的影片,然后用 System 2 来做决策。如果是标准答案,就结束整个推理的过程。如果不是标准答案,而相应的信息又有用,我们就把它作为一个有用信息提供给 System 1,System 1 继续做知识的扩展,System 2 再来做决策,直到最终找到答案。





现在,在这两个系统中,System 1 是一个直觉系统,我们用 BERT 来实现,实现了以后,我们就可以做相关的信息的匹配;System 2 就用一个图卷积网络来实现,在图卷积网络中可以做一定的推理和决策。通过这个思路,我们就可以实现一定的推理+决策。



这是一个总体的思路,要真正实现知识和推理,其实还需要万亿级的常识知识库的支持,如下图所示。也就是说,四五十年前费根鲍姆做过的事情,也许我们现在要重做一遍,但是我们要做到更大规模的常识知识图谱,并且用这样的方法,用这样的常识知识图谱来支撑上面的深度学习的计算,这样才能真正实现未来的 AI。









所以说,这一代人工智能浪潮也许到终点还是没有推理能力,没有可解释能力。而下一波人工智能浪潮的兴起,就是实现具有推理、具有可解释性、具有认知的人工智能,我们认为这是 AI 下一个 10 年要发展、也一定会发展的一个重要方向。



往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)


最新论文解析
SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索
回复

使用道具 举报

0

主题

6

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2022-12-10 08:13:34 | 显示全部楼层
给个摘要。说了啥
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|科技一站

GMT+8, 2025-4-19 20:52 , Processed in 0.094335 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表