[IT技术] 什么是「计算机视觉」?

[复制链接]
紫色梦烙印 发表于 2024-1-2 06:13:22|来自:湖北 | 显示全部楼层 |阅读模式
本问题被收录至活动「十万个是什么」中。
活动时间:11/29 - 12/14
活动规则:大于 200 字的客观事实定义,且注明可信来源,创作时间在前的优先采纳。
活动内容:欢迎参与活动分享你的知识、经验和见解,优质内容将有机会被收录在《十万个是什么》电子书中,同时还有机会获得一份精美的知乎周边礼物。更多相关问题请进入活动页面了解。
这是一本留给未来的百科全书,我们邀你一起合著。期待你的分享~
全部回复5 显示全部楼层
bochin1010 发表于 2024-1-2 06:14:17|来自:湖北 | 显示全部楼层
”计算机视觉“,是指用计算机实现人的视觉功能,对客观世界的三维场景的感知、识别和理解。计算机视觉是一个处于指示前沿的领域。我们认为计算机视觉,或简称为“视觉”,是一项事业,它与研究人类或动物的视觉是不同的。它借助于几何、物理和学习技术来构筑模型,从而用统计的方法来处理数据。因此从我们的角度看,在透彻理解摄像机性能与物理成像过程的基础上,视觉对每个像素进行简单的推理,将在多幅图像中可能得到的信息综合成和谐的整体,确定像素集之间的联系以便将它们彼此分割开,或推断一些形状信息,使用几何信息或概率统计技术来识别物体。
bands 发表于 2024-1-2 06:15:12|来自:湖北 | 显示全部楼层
计算机视觉是什么

计算机视觉是指用摄像机和电脑及其他相关设备,对生物视觉的一种模拟。它的主要任务是让计算机理解图片或者视频中的内容,就像人类和许多其他生物每天所做的那样。


我们可以将其任务目标拆分为:
让计算机理解图片中的场景(办公室,客厅,咖啡厅等)
让计算机识别场景中包含的物体(宠物,交通工具,人等)
让计算机定位物体在图像中的位置(物体的大小,边界等)
让计算机理解物体之间的关系或行为(是在对话,比赛或吵架等),以及图像表达的意义(喜庆的,悲伤的等)
那我们在OpenCV阶段,主要学习图像处理,而图像处理主要目的是对图像的处理,比如平滑,缩放等,想、从而为其他任务(比如“计算机视觉”)做好前期工作。
根据对计算机视觉目标任务的分解,可将其分为三大经典任务:图像分类、目标检测、图像分割。


图像分类(Classification):即是将图像结构化为某一类别的信息,用事先确定好的类别(category)来描述图片。
目标检测(Detection):分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息(classification + localization)。
图像分割(Segmentation):分割是对图像的像素级描述,它赋予每个像素类别(实例)意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。
接下来的课程中我们将围绕这三个任务对计算机视觉进行介绍。
应用场景

计算机视觉涉及的领域复杂,具有广泛的实际应用范围。总体而言,依赖于人工智能和机器学习,尤其是计算机视觉的创新的好处是,从电子商务行业到更经典的各种类型和规模的公司都可以利用其强大的功能,下图展示了相关的应用场景及相关的企业:


人脸识别

人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析,我国的人脸识别产业的需求旺盛,需求推动导致企业敢于投入资金。
代表企业:Face++旷视科技、依图科技、商汤科技、深醒科技、云从科技等。


视频监控

人工智能技术可以对结构化的人、车、物等视频内容信息进行快速检索、查询。这项应用使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在大量人群流动的交通枢纽,该技术也被广泛用于人群分析、防控预警等。
代表企业:SenseTime 商汤科技、DeepGlint 格灵深瞳、依图科技、云天励飞、深网视界等。


图片识别分析

代表企业:Face++旷视科技、图普科技、码隆科技、酒咔嚓、YI+陌上花科技等。


辅助驾驶

随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶/无人驾驶,距离技术成熟还有一段路要走。不过利用人工智能技术,汽车的驾驶辅助的功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。
代表企业:纵目科技、TuSimple 图森科技、驭势科技、MINIEYE 佑驾创新、中天安驰等。


除了上述这些,计算机视觉在三维视觉,三维重建,工业仿真,地理信息系统,工业视觉,医疗影像诊断,文字识别(OCR),图像及视频编辑等领域也有广泛的应用。
文 / 黑马程序员
2022人工智能学习路线技术点:

python编程基础-->数据挖掘-->机器学习-->NLP自然语言-->AI-OpenCV图像处理-->TensorFlow深度学习--> CV计算机视觉技术


完整的人工智能学习路线在这里,包含从入门到进阶7个阶段内容,8套课程这些都免费送给大家!
如何自学人工智能?
微薄青春 发表于 2024-1-2 06:15:24|来自:湖北 | 显示全部楼层
总体而言,计算机视觉,也就是cv其实研究成像过程中的各种逆问题,试图从二维图像中恢复有意义的信息,这里需要格外提醒的一点就是逆问题通常不解析,这也和我们遇到的其他数学物理问题一样,正过程是解析的,有公式,逆过程不解析,没有解析解,下面展开说。
在更大的图景之下,cv和cg,也就是计算机图形学就是一对出现的 。研究的本质是物理模型,就像分子动力学,弹性模拟,空气动力学一样。cg研究的是物理世界的成像,cv是它的逆过程,研究从成像中恢复原始信息,cv很多时候的应用也是为了物理世界交互,比如机器人运动规划。cg的物理原理清楚,cv是它的逆过程,通常不可解析,那就用dl,也就是深度学习,求数值解,这和其他物理过程相似。这两个放一块某种意义上是一种物理学。同时cg也研究运动问题,同样的,cv也研究运动问题,比如经典的光流问题,
更广义的,cv研究各种成像过程中的逆过程,比如cv经常研究去模糊和去噪,它们的正过程本身也是成像过程中毫无新意的理论,成像过程中出现模糊和噪声,是理论明确的,但是逆过程不好求,传统有很多算法求解,但是目前dl毫无疑问是非常好的通用求解器。
也正是因为如此,cnn能在视觉里面大行其道,大蓝图之下,它只是一个求解器,一个从一个分布到另一个分布的映射关系的拟合器,没有解析解,所以就用拟合法(先通过cg,通过规则生成数据,然后利用这些数据利用拟合法,或者说插值法求逆过程),cnn是这种拟合最简单有效的工具。
上面是我对cv的定义,将cv视为成像过程中的逆问题,尤其是high level,和部分middle level,low level视觉。试想一下,如果我们的相机不是针孔相机,而是能够透视的三维相机(从光学上看这是可能的,比如ct就是这个原理),cv里面会有非常多的理论和方法发生变化,所以到目前我依然相信cv在大蓝图下是一个物理分支,属于逆成像过程。
也有一部分问题不包含在上面的定义里,比如,
cv还研究成像过程中相机和成像的几何关系,这被称为计算机多视图几何,有另一个学科被称为摄影测量学,也就是photometry,专门研究这个。所以说这个部分本质上是一个交叉学科 。
当然,还有一部分中等视觉,比如图像描述子sift这种,不在这个定义之内。
paichn 发表于 2024-1-2 06:15:36|来自:湖北 | 显示全部楼层
要定义「计算机视觉」,首先要定义什么是「视觉」。
也就是,什么是所谓的「看见」。
我们可以做个简单的拆词,把动作分成两个部分,一是「看」这个动作,将客观世界的光影、轮廓、特征形成图像,通过瞳孔采集。二是「见」,你获得图像后,还需要知道这些东西都代表了什么意义。
也就是说,人在完成一次「看见」时,先采集了图像,又理解了图像。
「计算机视觉」就是一个让计算机「看见」的过程。
机器能「看」世界,已经不是新闻。
早在清朝年间,就有拿着镁条闪光的洋大人给王公贵族们拍照片。
再到1888年美国柯达公司生产出了胶卷,1981年索尼公司生产出了世界第一款数字相机。
机器「看」世界的概念已经到我们生活中一百多年。
但始终都是「看」,没有「见」。

究其原因,还是机器采集图像的成本实在太高,以至于,人们只顾着如何把更有价值的部分留下来,让我们以后还能「看」。而不是让机器完成「看见」。
而数字图像的普及明显超出了我们每个人的想象。
数字图像的信息量,已经明显超出了我们精力所能及的事务,只要我们想「看」,图像资料源源不断。这时候,人类开始思考:
是不是应该不止让机器「看」,也该让机器学学「见」了?

“我们已经造出了超高清的相机,但是我们仍然无法把这些画面传递给盲人;
我们的无人机可以飞跃广阔的土地,但是却没有足够的视觉技术,去帮我们追踪热带的变化;
安全摄像头到处都是,但当有孩子在泳池里溺水时,它们无法向我们报警。”
——摘自李飞飞女士的TED演讲

所以「计算机视觉」(也叫「机器视觉」),就是在机器眼睛的后面安上大脑。
这是一个让计算机能看懂图像的过程。
任务分为:
采集图像(摄像头、数字相机)→图像处理(计算机)→*控制设备(机械手臂、警报器或者反馈到下一个处理单元)
当然,控制设备不总是必要的,取决于我们怎么使用计算机告诉我们的信息。

我们不再满足能用更舒适的角度看到汽车周围的来往车辆,还希望汽车告诉我们,前方有障碍,需要减速。
不再满足于能在监控后面看着各个路口拥挤的车辆,还希望计算机告诉我们,这个路口已达到红色级别拥堵,预计通过时间一个小时。
不再满足于摄像头能帮我们在千里之外看着家里的婴儿和老人,还希望能在他们遇到困恼的时候,计算机第一时间向相关的人和机构发出警报。
让机器能真正「看见」,这就是「计算机视觉」研究的目的。

至于,人工智能,特别是卷积神经网络结合深度学习,给「计算机视觉」带来了令人惊叹的成果,这又是另一个时代的另一段段故事了。

推荐:
李飞飞女士的TED演讲(如果对「计算机视觉」感兴趣的朋友,推荐大家都去看看):我们怎么教计算机理解图片?
cyx1689 发表于 2024-1-2 06:16:20|来自:湖北 | 显示全部楼层
计算机视觉(Computational Vision)是由相机拍摄图像, 通过电脑对图像中的目标进行识别和检测。可以说是机器学习在视觉领域的应用,是人工智能领域的一个重要部分。它的研究内容可以概括为:通过采集图片或视频,对图片或视频进行处理分析,从中获取相对应的信息。换而言之就是运用照相机和计算机来获取我们所需的信息。它是一门包含领域很广的综合性学科。从现阶段的研究来看,计算机视觉试图建立一种人工系统,提出的越来越多的理论和技术是为了从图像或者多维数据中获取信息。计算机视觉系统可以分为:图像采集、处理、运动控制部分。
整的计算机视觉系统的工作过程可以描述为:
首先,位置检测器检测到物体的移动,当物体移动到相机系统的视觉中心,检测器马上向图像采集部分发送信号即触发脉冲。
然后,根据预定程序和延迟,图像获取部分向照相机和照明系统发出脉冲,拍摄机器和光源都启动。
接着,相机重新开始新的扫描。照相机在开始新的帧扫描之前打开曝光机制,并且可以预先设置曝光时间。同时打开照明光源,照明时间应该与照相机的曝光时间相匹配。
至此,画面的扫描和输出正式开始。图像采集部分通过 A/D 模式转化得到数字图像或者视频。同时把得到数字图像/视频存放在处理器或计算机的内存中,接着处理器处理、分析、识别图像。
【参考资料】
1、基于计算机视觉的施工现场车辆监管技术研究[J]. 刘云波,黄华. 电脑知识与技术. 2015(04)
2、基于计算机视觉的目标检测和阴影检测算法的研究[D]. 宋全恒.吉林大学 2017
3、Computer vision techniques for construction safety and health monitoring[J] . JoonOh Seo,SangUk Han,SangHyun Lee,Hyoungkwan Kim. Advanced Engineering Informatics . 2015 (2)

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则