自学计算机图像处理的话有多大困难？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3653 天前的主题，其中的信息可能已经有所发展或是发生改变。

基础编程水平，高深算法不懂。

具体要求比如：一张照片里找到一个特定的物体，定位其坐标。

高深

编程

自学

23 条回复 • 2014-12-23 14:23:58 +08:00

nbndco

2014-12-22 15:26:42 +08:00

你是要从图片中找到一个物体还是找到和某一个给定图片相似的部分？

rrfeng

2014-12-22 15:30:13 +08:00

@nbndco
这个物体是已知的，可以是一个给定图片。
或者也可以这么说：确定固定背景下的一个已知物体的位置。

66CCFF

2014-12-22 15:34:25 +08:00

需求可以说的更详细一些吗？
给定的图片和需要找的图片中的样子一样吗？
问题不问清楚的话没法回答

nbndco

2014-12-22 15:37:35 +08:00

你完全不理解你要做什么啊……不能细致一点么，你自己能先把应用场景理清楚了把需求描述出来么
什么叫背景固定啊，背景固定只有物体不同你diff一下不就出来了

lecher

2014-12-22 15:40:16 +08:00

只是用的话opencv有现成的库做模式匹配
如果要学原理，和编程关系不是特别大，还是看看数学吧，数字图象处理整套，矩阵，特征码，模式匹配，走一轮理论再回来写代码。

nicai000

2014-12-22 15:43:42 +08:00

没戏

rrfeng

2014-12-22 15:46:28 +08:00

@66CCFF
@nbndco

SORRY，本来我只是假想了这么个场景，来认识一下这个方向。描述不明确，给两位添麻烦了。
我试着具体化一下：

假想一个桌面上方有一个相机不断对桌面拍照，桌面上有固定的标志（好比一个二维码四角）。现在我往里面扔一根针，然后根据得到的照片，确定针尖的坐标。
进一步，如果除了针外还扔进去了一些其他的东西（未知物体但不是也不像针），那么怎么确定针尖的坐标。

unionx

2014-12-22 15:49:19 +08:00

小马过河

不过真的不难，OpenCV 现成工具挺多，看看文档就能搞

nbndco

2014-12-22 15:53:32 +08:00

我不明白为什么需要一个固定标志，根本就没有任何意义啊。
如果你想要定位一个object，当前最state-of-the-art的方法是RCNN，https://github.com/rbgirshick/rcnn，对应论文http://www.cs.berkeley.edu/%7Erbg/papers/r-cnn-cvpr.pdf，说老实话CNN么，没啥数学的东西，但是效果碾压传统的那套，应该还是比较好理解的，配合caffe也很容易实现，基本不需要什么预备知识就可以直接用了。可以了解一下简单的神经网络然后看一下这篇论文就差不多了。基本连程都不用编。
至于其他思路，在CNN面前都只能呵呵了。

rrfeng

2014-12-22 16:00:13 +08:00

@nbndco 本来想标志用来定坐标系。嗯还我还是太年轻……1 个坐标和 2 个坐标是一样的。

先看看这个。

xujialiang

2014-12-22 16:33:11 +08:00

matlab.......有现成的算法吧，调用方法即可

shadowind

2014-12-22 17:57:03 +08:00

不太了解你的具体应用，但直接上CNN就有些复杂了，用opencv里面的特征匹配能很简单快速的解决问题，由特征点的位置也就得到了匹配对象的坐标位置了，可以搜下sift、surf特征点匹配的资料了解下～～

BGLL

2014-12-22 18:08:45 +08:00

重新造轮子的话很难，用OpenCV之类的话就1、2周了

tomriddle

2014-12-22 22:03:24 +08:00

@nbndco 看了一下CNN的文章，这个CNN是解决object recongnition（物体识别）问题的，与相似物体定位是2个概念或者研究方向。标记物在精确定位时很有必要，尤其在多视几何求解相机时特别重要，如果仅有有限dataset，feature又不好，还需要精确求解，标记物是必须的。OP需要定位坐标，那就是feature locating，而不是object recognition的问题。

OpenCV很有帮助，但是新技术更新的比较慢，以它为框架，自己引申特定算法比较可行。数字图像处理先看冈萨雷斯的digital image processing, 再结合一些新的应用类的书，看下多视几何，基本可以解决大部分简单问题。但是CV坑很深，分支下去就无底洞了，初学建议听课。

nbndco

2014-12-22 22:28:22 +08:00 via iPhone

@tomriddle rcnn就是解决object定位的问题啊。opencv的功能我不了解，但是怎么想都只是简单的特征点比对而已吧，这样的话泛化能力基本为零，实际的数据需求量必然更大，cnn实际上已经有很多训练好的网络可以直接使用取得不错效果的，只需要训练个分类器，数据量需求小很多。而且cnn的性能也远远高于特征点的方式。