低成本识图方案？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 383 days ago, the information mentioned may be changed or developed.

目前正在预研一个低成本的识图方案，场景是家用安防摄像机的。

目前调研了有两个方向

一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案，
其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景，要自己训练心里没底
直接用 aws rekonition 的成本很高，谈了折扣算下来也还是很高

传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别，只能分解到具体的事物，比如火焰、枪支、刀具等。

另一个是走大模型的识图方向
1. 自己部署开源模型，Qwen2.5 VL 系列和 Janus-Pro ，7B 和 32B 都试了，感觉效果不佳
2. 调 Api ，试了几家，发现 aws nova 在价格和效果上都很不错

我纯后端开发，计算机视觉和大模型方面是个小白
站内的大佬有在这方面有经验的吗，有什么经验可以分享一下，谢谢你~

低成本

识别

方案

41 replies • 2025-11-17 09:37:33 +08:00

kuro1

May 23, 2025

YOLO 自己训练

jimrok

May 23, 2025

你这个方向不是图像识别和事态感知的内容吗，军工和自动驾驶行业的人能帮你判断一下吧。

chanlk

May 23, 2025

@kuro1 我看 YOLO 很多的应用场景在 B 端，聚焦的场景很单一，我们这个是家用的场景，用户可能放在卧室、客厅、户外都有可能，而且场景里会出现的物品和事件太多了，感觉很难弄一个通用的 YOLO 模型出来。

chanlk

May 23, 2025

@jimrok 事态感知？没见过这个名词，我去查查看。我们是做 C 端的哈，就是最常见的家用安防摄像机。

lyxxxh2

May 23, 2025

但是 api 不错,真的是实际场景图吗?
我用 grok chat,前几张好识别的,确实可以回答出来。
但是不好识别的,一样 gg 。

yolo:
安防数据集,算是挺常见的。
去网上找训练好的模型,让 ai 帮你测试。
数据集也行,自己训练下。

lyxxxh2

May 23, 2025

https://docs.ultralytics.com/zh/guides/security-alarm-system/
如果你找好了模型,自己都不用写什么代码,官方都有示例。

hwdq0012

May 23, 2025

安防一般不是用目标识别吧，一般是移动侦测，姿态分析（摔倒）

monkeyWie

May 23, 2025

最近不是有个 FastVLM 吗，很快运行条件也低

monkeyWie

May 23, 2025

不对，是叫 smolvlm

wyntalgeer

May 23, 2025

@chanlk #3 那就弄 N 个出来

raydied

May 23, 2025

@chanlk yolo 的 coco 集就有多达 80 种物品识别。
而且属于预训练模型，训练成本很低的。

chanlk

May 23, 2025

@hwdq0012 移动侦测老古董了，一点风吹草动给你告警。

hwdq0012

May 23, 2025

@chanlk 那异常模型呢 patchcore 之类的，用大量正例训练，检测反例

leven87

May 23, 2025

自己训练最灵活，或者找一个别人的模型，自己调参

chanlk

May 23, 2025

@lyxxxh2 #5 是实际场景，从网上找出来的。给你看一个示例。

sleeepyy

May 23, 2025

gemini api 很便宜效果也不错

chanlk

May 23, 2025

@raydied 安防场景不是很适用，里面很多的衣服鞋子、运动物品、家庭电器什么的。

byteX

May 23, 2025

收藏一下期待小而美的解决方案

chanlk

May 23, 2025

@wyntalgeer 有这么想过，但是怕弄出来效果也不好。

wyntalgeer

May 23, 2025

@chanlk #19 玩 YOLO 不要想着一劳永逸，一开始效果注定不好，但是你要给一个“疑似”报警并收集下来，继续训。迭代久了就值钱了

rockdodos

May 23, 2025

Qwen 微调效果还行

bluesenzhu

May 23, 2025

摄像头厂家不是吹自己就能告警吗

encro

May 23, 2025

既然放在卧室，那么如何识别男女主人是在造人还是在家暴？

clemente

May 23, 2025

找海康威视贴牌 OEM

chanlk

May 23, 2025

@encro 额，如果是大模型的话，NSFW 的内容不知道会怎么处理，晚上回家测一下

chanlk

May 23, 2025

@bluesenzhu 最早期移动侦测、声音告警，近些年有人体告警(装了红外感应)，或者有一些人体侦测算法集成在摄像机里。稍微复杂的识别摄像机带不动。

chanlk

May 23, 2025

@rockdodos 怎么微调呀，你试过吗？

rockdodos

May 23, 2025

@chanlk #27 用 LLaMA-Factory 微调，看官方文档调的。

wanghui22718

May 23, 2025

https://www.corerain.com/solution
端侧解决方案，了解一下

Liftman

May 23, 2025

你这个还不够低。来。让我掏出来一个给你。https://github.com/apple/ml-fastvlm 500m 的小模型。我在 mac 上跑。100ms 一次解析都嫌慢。不过再快也没意义了。。毕竟看不清了已经。。。。

Liftman

May 23, 2025

https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。

zzhpeng

May 23, 2025

实时分析好吃带宽，如果远端录像识别

byteX

May 23, 2025

@rockdodos #21 请问是 Qwen-VL 吗？

openmynet

May 25, 2025

可以测试下用 clip 做零样本分类

yuxian

May 26, 2025

很简单，分为多部分。方便吹牛 B ；
1 ，在终端，使用通用的 YOLO ，嵌入端，可以用压缩好的模型。性能佳。无需训练。直接调用 sdk ，即可使用。作为泛用场景监控。只需要有疑似的图像，视频片段上传即可，精度可以自行根据严格模式调节。
2 ，在服务端，处理终端上传的疑似数据。优先使用自训练的 yolo 。对于依然无法确认的，可以调用视觉大模型，再次核对。如果依然无法确定结果的，人工接入审核。

AmaQuinton

May 26, 2025

项目上用过某个研究院提供的 api ，用于道路违停和火灾预警实时监测

chanlk

May 26, 2025

@Liftman #31 要用 mac 才能跑吗，我有个老 mac ，Intel 时代的了，跑得动吗？

chanlk

May 26, 2025

@yuxian 终端暂时不考虑了，我们的设备有部分是第三方的。感觉还是直接上大模型算了了，我们人太少、资源不足搞不了 yolo ，这事儿从头到尾就我一个人干.....

Liftman

May 26, 2025

@chanlk 无所谓啊。https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。这个直接跑。不需要 mac 。

ch3nOr

Nov 14, 2025

大佬最后怎么处理了，我也遇到差不多的场景，请教一下

chanlk

Nov 17, 2025

@ch3nOr aws nova-lite,这个模型足够便宜