欢迎来到网际学院,让您的头脑满载而归!

计算机视觉前沿·美国国家科学基金会白皮书

发布日期:2018-11-26 16:51:23 作者:管理员 阅读:477

计算机视觉前沿:美国国家科学基金会白皮书项目负责人:艾伦·尤尔^1;奥德·奥利瓦^2^1加州大学洛杉矶分校,统计系。客座教授:计算机科学与心理学。^2 麻省理工学院,人脑与认知科学系。    一、引言计算机视觉起源于制造

计算机视觉前沿:

美国国家科学基金会白皮书

项目负责人:艾伦·尤尔^1;奥德·奥利瓦^2

^1加州大学洛杉矶分校,统计系。客座教授:计算机科学与心理学。

^2 麻省理工学院,人脑与认知科学系。


   一、引言

计算机视觉起源于制造有人类视觉能力的机器或为机器人提供视觉,但现在其用途变得越来越广泛。各种应用都是未预料过的,如互联网图像搜索、计算摄影学、生物成像、图形学、地理信息系统、生物统计学、纳米技术;同时随着计算机视觉技术的发展,其他应用仍在不断产生。一些领域例如文档分析和医学图像分析等,由于快速的发展,已经有了专门学术会议。现在摄像机等识别似乎无处不在,因此只要计算机实现了对视频图像的初始理解,计算机视觉就帮助我们突破人类当前局限性,极大地改变我们的生活。相关技术的快速发展,如数码相机和电脑等,确保了计算机视觉系统将愈来愈经济实用。机器人学的领域本身拥有巨大的潜能来引起制造业革命,来让机器人提供服务和进行医学手术。这些应用都需要计算机视觉系统的感知输入。此外,在防御、国土安全和情报体系也有多种应用。

但当前各方面的因素阻碍了计算机视觉充分发挥其潜能。首先,某种程度上由于其跨学科性与迅速发展,计算机视觉领域仍显得零散。在计算机领域视觉中其他人工作成果没有被充分利用,存在大量重复工作。其次,计算机视觉没有像人工智能和机器人学一样,拥有其付出相匹配的知名度。这部分是因为计算机视觉难度被低估。人们只要睁开眼睛,就似乎可以毫不费力识别物体与场景。但是,这种表面上的容易具有高度的误导性。海量神经元(至少是一半大脑皮层)参与了这些视觉任务的完成。第三,计算机视觉学术界与工业之间的关系尚未建立。双方很大程度上是独立开展工作的,对于彼此的需求与成就知之甚少。

我们建议组织研讨会来帮助解决这些问题,并探索计算机视觉的新领域。本次研讨会目的是帮助制定关于计算机视觉的国家级别的议事日程,并规划发展蓝图(类似于最近给议会的关于机器人学的演讲)。发展蓝图旨在:(1)确定计算机视觉未来对经济、社会与国家安全需要的影响;(2)概述科学与技术需要解决的挑战;(3)起草解决挑战和实现收益的路线图


二、学术价值与广泛影响

计算机视觉是一项快速发展的技术,拥有大量的潜在应用。这是一个非常活跃的领域,其研究团队也在迅速发展。许多大公司(如微软、谷歌)里都有大型的研究/开发团队,这个领域的创业公司也愈来愈多(参阅David Lowe 的关于计算机视觉工业界描述的网页http://www.cs.ubc.ca/~lowe/vision.html)。最近很多应用表明计算机视觉终于正在到达可以实现其前景的成熟度。

例如,最近给美国议会一份关于机器人学发展蓝图的报告有力地论证了机器人产业的重要性与前景,并强调了其的对计算机视觉的需求(例如物体识别、精深估算)。但机器人学只是计算机视觉的诸多应用领域之一。简单列举一下,它还包括图像搜索(如微软、谷歌)、计算摄影、三维场景重建、监测、检查、医学图像分析、图像增强与去噪、对受损视力人群的帮助。

但计算机视觉如何克服现在仍存在的困难并实现成功呢?计算机视觉如何借助其越来越多参与者的成功与热忱达到目标?学术界如何能与工业建立联系?计算机视觉如何和其它领域进行更好的互动,如机器学习、机器人学、人工智能、神经系统科学与认知科学等领域?公众如何才能了解计算机视觉的重要性与前景?

计算机视觉的研究领域正处于迅速发展的关键时刻。其中美国发挥了先锋作用,但亚洲与欧洲的发展是最大规模的。然而,学术研究正在以非结构化的方式进行,且与工业之间很少有互相作用。该领域的快速增长与跨学科性质——计算机视觉研究和计算机科学、工程学、数学、统计学、心理学与神经科学系紧密相关——意味着视觉研究通常是分裂的。这个领域作为一个整体会大大得益于以下因素:与现实世界问题建立更紧密联系,奖学金,在计算机视觉、其他相关学科以及更广泛社区之间进行知识、数据集、计算机代码的交流。如何发展一个社区,鼓励其对现实世界问题进行长期研究并避免短期的短视性研究呢?

本会议将计算机视觉与相关学科在学术界与工业界的专家相聚一堂,来解决这些问题。我们目标是:为美国机构、大学与工业在计算机视觉研究与发展方面开发并推广统一的议程(同时我们也清楚研究需要一个灵活环境)。我们力图解决这些问题,譬如计算机视觉的开放性任务是什么(如物体识别、人类行为识别、场景理解);在完成这些任务中,必须克服的技术与科学障碍;哪种战略(科学的、组织的、资金的)更可能在解决这些挑战中引导最大的进展。


三、历史回顾

为了解决这些问题,我们从历史回顾入手,包括对之前仅有的两次研讨会进行回顾。这两次研讨会分别于1978年和1991年举办,都对计算机视觉的未来进行了直接的讨论。

计算机视觉的研究起始于二十世纪六七十年代,在八十年代随着主要期刊与会议(模式分析与机器智能汇刊1979,计算机视觉与模式识别 1983,国际计算机视觉杂志1987,国际计算机视觉大会1987 and 欧洲计算机视觉会议 1990)的建立,得到稳固发展。在八十年代末,许多大学聘请师资进行计算机视觉的研究、教授课程并对研究生进行培训。和如今计算机视觉领域的参与度相比,当时该领域涉及的人数相对尚少,其研究也几乎全部在北美进行。

在八十年代初与八十年代末,举办了两场全国研讨会,对计算机视觉的未来发展方向进行了探讨。第一场在马萨诸塞大学艾默斯特校区,由E·里斯曼与A·汉森组织,会议完成了《计算机视觉系统》的编写,由美国学术出版社出版。第二场于199167-8日在毛伊岛举办,由H·莫拉夫负责的美国国家科学基金会(美国国家科学基金会)赞助。这次研讨会由S·內加达利波尔(美国迈阿密)与A·K·杰恩(密歇根州)组织,最后整理出一份报告:“计算机视觉研究的挑战:未来的研究方向”。

1991年的报告是我们历史回顾的出发点。这份报告正文57页,附录97页,附录中大部分内容是计算机视觉研究者填写的关于未来发展方向的调查问卷。报告还包括了1978年报告的作者E·里斯曼与A·汉森的评论意见,表达了他们的观点。这一次,我们也与A·K·杰恩讨论了1991年的报告,从他的经验中获益。

我们首先简单总结了1991年报告的主要成果与建议,之后简要概述了计算机视觉在其后二十年的发展情况。

当时的研讨会为期1天半。与会人员约50人,大多数来自于学术界(90%),还有少量是项目经理人(5%)以及几位工业代表(5%)。所有参与者都在会前填写了一页问卷调查,对此次研讨会提出建议,并对计算机视觉的现状及未来预测给出了观点。

1991年报告中的很多建议,现在看来仍意义重大(虽然关于技术的讨论有些过时)。最重要的建议有:(i)需要在大型数据集上,对模型进行更多的实验验证;(ii)研究团队之间共享图片数据、算法和模型;(iii)学术界和工业之间更多的交互;(iv)需要实现完整的计算机视觉系统,以解决现实中的问题。

研讨会参与者对视觉的未来非常谨慎,部分人担心计算机视觉系统不足以处理真实的图像。但大多数人认为有理由乐观,认为过去十年中,计算机视觉的发展虽不够惊人,但稳步前行。E·里斯曼与A·汉森(1978年报告的作者)强烈认为1991年研究者们“几乎在计算机视觉所有的子领域中,都远超过1980年时我们所了解的”,这表明了计算机视觉取得了相当大的进展。1970年,这一领域尚处于起步阶段,那时所做的大部分工作都是对正确模式的摸索。他们还强调了计算机技术改进的重要性,例如,在1978年的研讨会上,“没有与动态影像分析相关的论文(某种程度上是因为其计算需求过大)”。

对于未来有多种预测。而关于计算机视觉将如何得益于计算机、传感技术、数学和计算机技术发展的较为低调的论述,或许是最为准确。例如:E·艾德森称进步即将发生,因为“人们正在学习如何适当使用应用数学与工程解决视觉问题……人们在控制理论、优化问题、信号处理等方面正变得更加擅长。”

1991年来,计算机视觉发生了什么大改观呢?总体说来,确实进行了大量的活动与持续稳定的发展。视觉研究界愈来愈大,也愈来愈乐观,大部分优质的文章都是基于真实图像的研究结果的,计算机视觉系统已取得了显著的成果,而这些在仅仅几年前还似乎是不切实际的。我们列出了一些较为明显的变化。

1)  技术变得更先进更实惠。计算机运算更快、存储更大、价格更便宜。网络急速发展,数据、运算法则与报告瞬间即可下载。还有性能更佳的传感设备——如:物美价廉的摄影设备内置于手机中。这些发展使得视觉研究者可以在大型共享的数据集基础上进行研究,在网页上共享代码,处理图像序列上的问题,更快地交流研究结果。

2) 计算机视觉研究者进一步学习、改进并发展应用数学、统计学、计算机科学与工程学工具。事实上,可应用的工具范围如此之广,需要专门的投入才能跟上它们的发展。此外,越来越多的研究通过反复试验,决定了各种的方法是否有效.

3) 研究团体已经得到极大的发展,研究人员的地域分布也已改变。1991年,计算机视觉研究由美国主导,在欧洲的活动数量有限,而在亚洲就更是少之又少。在过去二十年里,美国的计算机视觉有稳定的发展,而在欧洲却发生不容小觑的扩张,近年来,在亚洲更是取得了巨大的突破。很大程度上,亚洲和欧洲在这一领域的发展都是由强大的资金支持推动的。即使在美国,大多数研究者都是非本土出生的。

4) 计算机视觉研究者已经开发出新型工具,专为视觉所设计,我们简单列举几项。(例如:新的描述子,如SIFTHOG,它们对于某些真实的任务非常有效)。对某些类型的物体进行检测与追踪的技术也得到很大的发展。此外,在理解几何与从多个视角重建三维结构的能力方面,亦取得了重大进展。

5) 对标准图像测试集和机器学习算法的使用自2000年以来已成为普遍现象。不仅为评估和比较不同的技术提供了客观标准,而且它也让基于机器学习的方法得到巨大发展。这些已经成功地应用于一系列问题,如边缘检测、区域分类、人脸和文本检测,场景分析等。

6) 与工业联系方面,尽管仍然不够理想,但已经得到了加强。越来越多的新兴企业以及巨头,如微软、谷歌、西门子和通用电气,对于这方面显示了兴趣。

7) 计算机视觉的应用范围已经极大地增长。在1991年的报告中曾被作为一个小的应用领域提及的医学图像,现在自身已是一个大领域,有自己的高质量会议。很多已有的应用领域,比如搜索和视频处理,有了相当大的进展;同时也开始广泛应用于全新的领域,如,整容手术、盲人辅助、法医分析、植物学分析等。

最后,我们认为,自1991年以来,计算机视觉获得了持续而巨大的进展,这主要源自三个方面:更加高性能的机器硬件,更加科学有效的数学算法,以及更多的经验积累。然而许多问题仍然存在。现在计算机视觉研究人员数量在持续增长,但一定程度上也加剧了研究子领域的分化。这也导致了其他一些问题,比如研究资金短缺,在他人已有工作上取得的进展较少。无论从概念层面还是技术层面上,计算机视觉相比与大多数其他学科仍然缺乏基本核心。大部分的公众或政客对于计算机视觉(包括其知名度,其问题的重要性和挑战性)仍然知之甚少。计算机视觉和工业界的交流也相对较少。太多的学术研究既不够足够现实来开发在现实场景中具有使用价值的应用,也不够有远见来开创新的理论和技术来最终推动实际问题的解决。使用基准数据集对计算机视觉系统进行评估是一个很大的进步,但是这些数据集还不能真实反映自然世界的复杂性。

四、计算机视觉的愿景

我们相信现在是时候重新评估计算机视觉的现状,来看它如何在目前成功的基础上,发挥其全部潜力,成为一个与产业关系密切的成熟学科。为了定下未来研究的基本框架,我们提出了计算机视觉的十个关键目标。

1) 计算机视觉在大众、资助机构、工业界和学术界的理解和接受程度加深。这包括:1)对计算机视觉的潜在应用的理解----机器人就是一个明显的例子,许多其他的应用在此报告也有提及,(2)对一些视觉计算机问题的困难的理解----构建一个通用的计算机视觉系统相当于理解了一半的人类大脑皮层的工作原理,(3)对计算机视觉在短期和长期内所能完成的任务的理解(并避免言过其实)。

2) 把计算机视觉建设为一个具有一致性和科学性的学科,并阐明其与相关学科的关系。这需要学术界的计算机视觉的研究者共享统一概念和技术核心,类似于计算机科学、数学、物理学和统计学等学科。这个核心应该与真实的计算机视觉应用有关,包括算法和评价方式。我们应该鼓励一些基础性工作,特别是那些有可能产生一个统一概念框架的工作,这包括了与相关学科的联系,如自然语言处理和更高层次的认知过程(比如自动逻辑推理)。例如,对包括视觉在内的一系列学科来说,概率语法及相关机器学习方法可以说有潜力成为一个统一的概念框架。特别是,机器学习技术,加上基准数据不断增加的可用性和对亚马逊土耳其机器人的使用,已经促成许多实际的进展。这个核心框架应该体现在书籍、评论、网络资源和其他对主要技术有效总结的材料上。特别是,应该开发网上传播这种材料的方法。这种材料应该包括计算机代码和图像数据集。这个核心应该包含相关学科知识,如信号处理、机器学习、自然语言处理、推理和机器人技术。一般来说,计算机视觉应被视为一个更大项目的一部分,包括促成多媒体项目的这些学科(如把自然语言和视觉结合以解决医疗问题)。

3) 探索计算机视觉与心理学家和神经科学家进行的生物视觉系统研究之间的关系。人类的视觉系统是人类大脑的主要部分,这可以说是我们知道和理解的一个最复杂的身体系统,这是一个重大的科学挑战。计算机和生物视觉之间的关系长久以来一直争论不休。一方面,人类视觉系统为计算机视觉的概念提供了证据,一直作为许多视觉研究者的灵感源泉。人们认为生物和计算机视觉系统研究之间应该有一个共生关系,因为他们必须在相同的视觉环境中执行类似的任务。另一方面,计算机和生物系统在非常不同的物理/生物限制下运转,目前有互补的优势。在控制的环境中,在某些明确的任务上计算机视觉系统可以比人类系统做的更好,而人类的视觉更坚固耐用,功能更普遍。从这个角度看,我们应该寻求利用他们的差异,例如,通过建立互动的视觉系统,计算机视觉将可靠地解决简单的问题,把难的问题留给人类专家。无论哪种方式,通过理解计算机和生物视觉系统之间的相同点与不同点似乎能受益很多。但是这样的理解要求这两个学科发展理论概念的通用语言,使用共享数据集,共享计算机和实验代码。

4) 在计算机视觉的奖学金、代码共享、严格的理论评估、平衡短期和长期研究方面建立一种文化。目前缺乏奖学金不仅造成频繁的经典研究成果的再造,但可能更严重的是,导致好论文和奖励被审稿人拒绝,因为这些审稿人缺乏必需的专业知识来评估论文或奖励,或者他们对什么构成了高质量的成果缺乏共识。会议论文尤其如此。有一种文化,其对研究人员的评估是基于他们所作的论文数量,而不考虑质量。此外,十年前的旧成果似乎经常被遗忘、频繁地被再造。会议周期增加的同时往往导致关注短期研究,并且经常是小进步,基准数据集表现方面的改善,而不是长期的高质量研究。这破坏了短期研究(挑选低垂的果实)和打造工具来收集剩余果实的长期研究之间的平衡。我们建议重建期刊出版物,把严格的同行审评作为引用、颁发奖励、教师的任命和晋升的“黄金标准”。

5) 发展工业和学术界之间的密切互动----有一些明显的例外,在工业视觉和学术计算机视觉之间几乎没有互动。这是不幸的,因为计算机视觉的主要目标之一应该是开发可以应用于现实世界问题的技术和在工业应用中使用的技术。经常听到这样的批评,当工业开始致力于视觉问题,然后问题被“解决”了,因此计算机视觉领域对其不怎么感兴趣了。计算机视觉的研究人员应该更好地了解产业工人寻求解决的任务,以及他们取得的良好的成就。反过来,工业应该能够快速掌握重要的、迅速发展的应用领域的先进材料,如监控视频处理等领域。做到这一点的一些方法可能涉及会议上的专业研讨,包括对真正的工业视觉系统的演示以及由美国国家科学基金会赞助的暑期学校(像在欧洲已经发生的一样)。

6) 针对计算机视觉领域的问题以及短期和长期的挑战,开发一个分类系统。这种分类系统应当既能解决“大局”问题,如动作识别,场景表示,低层、中层、高层视觉在图像理解中的角色等;同时也能解决具体问题,如特定对象的检测(如汽车、行人)以及图像划分。之前的视觉分类系统往往看似试图将计算机视觉细分为子模块,这导致花在“大局”上的专业化工作越来越少。这种过于细化的结果是对“模块集成”的要求。这件事很困难,因为这些模块在设计时通常没有一个统一的概念框架或代码库。因此,分类系统应该认识到计算机视觉的最终目标不仅仅是能够通过更多的限制系统来解决大量现实存在的视觉问题,还需要完善对图像理解。为了解决这些问题,应该建立标准数据集,既能够激励解决方法的提出,又能够评估这些方法。

7) 针对大规模问题的标准数据集。计算机视觉的根本挑战是信息量巨大的图像和极其复杂的视觉环境。计算机视觉系统如何处理这种复杂性?例如,我们怎样才能扩展视频处理系统来应对大量的安全和监控领域的应用?视觉对象的数量估计在20000200000之间,对象往往被部分遮挡,包含多种光照条件。如果计算机视觉系统想要不止是在特定环境完成特定任务,那么这些问题将构成巨大的挑战。标准数据集的使用已经证明对计算机视觉来说很有帮助,特别是其能够使得基于学习过程的算法变得可行。但要实现对真实世界有用的应用程序,并避免成为“玩具世界”的风险,这些数据集应该足够大,以表示视觉环境的复杂性和高维度特征。理解图像的结构,包括模式和冗余,对于为计算机和生物视觉提供一个基础至关重要。大多数其他学科对自身的基本研究对象有一个清晰的理解,例如物理学家研究夸克、原子、分子组成的系统,但视觉研究人员对图像结构的理解仍是有限的。建立大型的、设计良好的数据集对这一学科至关重要。

8) 传感器、计算机和技术问题。研究1991的报告可以明显得出,从那时起的很多进步得益于相关技术的巨大进步。在未来仍将如此。许多实际的视觉问题可以大大受益于新型传感器的设计——如不同频率的激光传感器,和对成像物理学的更好的理解。同样,计算机视觉算法可以大大受益于新型计算方式的引入,如GPU。事实上许多最近计算机视觉方面的进步之所以成为可能,得益于廉价处理能力和廉价内存不断增加的可行性。

9) 为计算机视觉建立适合其当前发展状态的新的筹资机制。计算机视觉缺乏像国家卫生研究所给医学研究提供的长期资助机制那样的筹资机制。国家科学基金会的资助很少是可再生的,尽管保持筹资的“变革性”和“创新性”研究是重要的,新型的资助机制可以支持更多有序的长期研究,这些研究通常需要在真正难的问题上取得进展,方法是通过使研究人员在其前辈的成果上继续推进(如Dickmann在德国的汽车研究,一个小型的但是团结的团队在长达10- 15年的时期内获得了突破性的结果)。一般来说,资助应该在高风险的潜在变革性研究和低风险的可靠的深入性研究之间保持平衡。

10) 使得这一领域对人才有吸引力。在鼓励建立共享奖学金、数据集、计算机代码和其他资源的社区的同时,要将研究人员当作探险者并允许研究方法的灵活性。提供博士后和教员离开奖学金以促进新技术培训和研究团体之间的沟通。

五、计算机视觉前沿的美国国家科学基金会研讨会

我们已经收到美国国家科学基金会的资助,将于20118月底或9月初在麻省理工学院举行为期三天的研讨会来讨论这份报告中提出的问题。我们将会解决如下问题,如计算机视觉中主要的开放性问题是什么?他们怎样才能被最好地解决?为了解决这些问题必须克服什么技术难题?如何构造数据集和“重大挑战”来表述真实世界中的问题?如何改善学术界与工业界的联系?如何使得计算机视觉与相关学科(如机器学习、认知处理、生物视觉系统的研究)能够更好的交互?如何通过学习或者其他技术利用日益增长的大量可用的视觉数据?计算机视觉如何建立一组核心技术,使得学术研究可以直接指引工业界应用?

这类会议的成功依赖于吸引计算机视觉和相关学科的世界级引领者参与,他们代表了不同的观点、课题和高校。我们提供了一个顾问委员会——见下文——这将有助于提供指导,帮助参与者做选择,并为互动网页提供“种子”输入。要求所有的参与者提交一份两页的关于这次会议主题并带有自己观点的论文,且非常鼓励他们加入互动网页上的讨论。我们尤其鼓励那些与计算机视觉有关领域的专家参与到讨论中,相关领域包括认知科学、机器学习、计算机图形学、机器人研究、认知科学、神经生理学。

大卫•福赛斯伊利诺伊大学香槟分校计算机视觉

比尔•弗里曼麻省理工学院计算机视觉、计算机摄影

马提亚尔•赫伯特卡内基梅隆大学计算机视觉、机器人研究

阿尼尔•亚恩密歇根州立大学计算机视觉、工业应用

丹尼尔•克斯滕明尼苏达大学感知科学、认知神经学

达芙妮•科勒斯坦福大学机器学习、机器人学、计算机视觉

燕乐存纽约大学机器学习、计算机视觉

季德拉•马利克伯克利计算机视觉

理查德•塞利斯基微软计算机视觉、工业

安东尼•托拉尔瓦麻省理工学院计算机视觉


英文原版请戳最下方阅读原文


小编:在冬日的暖阳里,想象一下计算机视觉领域的未来,我们的生活将会出现的颠覆性的改变,总之小编突然很激动,因为此刻看文章的你就是这股力量中的一份子哦...之前讲过,依图上周接待了一波媒体客人,采访了依图的计算机视觉前沿课程,还轮番专访Alan教授,周末也无法阻挡小编爱CV的满腔热情,再接再厉,明天送上Alan系列第三篇:听听Alan怎么说--专访记录


Copyright oneie ©2014-2017 All Rights Reserved. 所有资料来源于互联网对相关版权责任概不负责。如发现侵犯了您的版权请与我们联系。 网际学院 版权所有
免责声明  商务合作及投稿请联系 QQ:86662817