-
王耀南:《AI发展从机器视觉走向智能化》
2026-03-18 15:04:34
作者:王耀南(中国工程院院士,湖南大学教授,机器人视觉感知与控制技术国家工程研究中心主任)
我国的机器视觉研究已有接近40年的历史,最初是从传感器的研究开始的,即:将光的信息转化成图片信息。接下来要做的是视觉的处理,包括将获得的图片增强,使其变得更清晰。有了清晰的图像后,我们需要从图片中获取我们感兴趣的目标。例如,在无人驾驶领域,机器视觉需要对图片中的目标进行检测,要回答哪些是人、哪些是车的问题。这就是我们所说的机器视觉的三大领域。我把它归结为:成像、处理和理解。机器视觉已经从过去的视觉计算走向了今天的视觉智能。视觉计算结合人工智能后,认知水平得到了提升,增强了对复杂环境的理解能力,整个视觉智能化行业在去年得到了快速发展。机器视觉智能化发展的方向是进行广泛应用,应用到工业检测、智能制造以及卫星遥感等领域。谈机器视觉,一定要谈它的应用,应用驱动技术发展。一个人一出生就能看到这个世界,之后理解这个世界,80%的信息靠视觉获取。机器视觉是要模拟人的眼睛,最终达到人眼的水平,并在部分方面超过人眼,要看得更远、看得更清。
大视觉模型的数据则主要来自各种图像,包括人类和自然界产生的视觉数据。例如,医学大视觉模型就是将人的器官、病变的图像等作为视觉数据输入到大模型中,进行训练得到,可以像大夫一样看懂CT照片,能够达到病人来看病后,拍照完便能推理出病人病情的效果。脑一样,差距还很大。随着学习的数据的增多、模型参数的调整,模型会越来越大、知识也会越来越多,其智能水平就会越来越高,越来越聪明。我们需要提高算力水平,加快计算速度,当前的视觉大模型并没有大家想象的和人以能够更快地建立模型;设计更好的模型架构,包括可解释性更强、更安全可控;还需要研究更有效的学习算法。
事实上,视觉大模型并不是这几年才有的,是一步一步发展过来的。在上世纪80年代,随着人工智能的发展,人们开始研究神经网络的时候,就已经有了。只是,最近几年的算力和算法能力提高了,人们可以尝试构建大模型,产生了大语言模型和大视觉模型。过去算力不够的时候,大家做的模型没有那么大。
作者介绍:
王耀南:中国工程院院士,湖南大学教授,机器人视觉感知与控制技术国家工程研究中心主任,中国图象图形学学会理事长,中国自动化学会会士、中国计算机学会会士、中国人工智能学会会士,全国智能机器人创新联盟副理事长,中国自动化学会常务理事、中国人工智能学会监事,国家自然科学基金委员会专家咨询委员、教育部科技委人工智能与区块链技术委员会委员等。曾任国家863计划智能机器人领域专家、欧盟第五框架国际合作重大项目首席科学家。王耀南长院士期从事机器人感知与控制技术教学科研工作,成果获国家技术发明二等奖1项、国家科技进步二等奖4项、何梁何利基金科学与技术进步奖、国际IEEE机器人与自动化领域“工业应用最高奖”,省部级一等奖12项。发表国际IEEE等SCI论文200余篇,出版机器人感知与智能控制等著作15部,获国家发明专利90余项。荣获国家百千万工程人才、德国杰出洪堡学者、全国高等学校优秀教师、全国五一劳动奖章、全国先进工作者、全国创新争先奖、全国教材建设先进个人等荣誉称号。
邀请老师演讲、授课请致电:19821197419 阎老师[微信同号]
免责声明:以上内容(包括文字、图片、视频)为用户上传并发布,本平台仅提供信息存储服务。如涉及版权问题,请联系我们并提供版权证明,我们将立即删除!
手机:19821197419
地址:上海市闵行区莲花南路1951号