Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg
就是不知道有没有人还会这种需求,就是网页看视频、听广播电台、上网课或者远程会议的时候,希望看到实时字幕的,最近花了几天时间写了这么一个扩展,给大家尝鲜。
这个扩展就只有一个功能,就是实时语音转字幕,只要网页有声音,哪怕你把本地的视频,直接拖放到浏览器播放也算,只要网页有声音,都能实时语音识别转成字幕,还能自己调整字幕样式和下载字幕文本。
当然语音识别用的是第三方的,目前接入了阿里云和腾讯云,科大讯飞预付的价格太贵就先不接入了。扩展是和这些云服务直连的,所以识别速度和准确度我就无法保证了,就看这些云服务品质如何了。
当然,往往需求更大的是实时翻译功能,目前只有科大讯飞可以做到实时语音识别的同时做到实时翻译的,但需要预付年费 20000 元,太贵了先不搞这个,等用的人多了需求大了再考虑买不买这个服务吧。
Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg
1
Tink 2022-04-03 23:31:40 +08:00 via Android
这难道不是看日本小姐姐的刚需?
|
2
Tink 2022-04-03 23:33:27 +08:00 via Android
我之前用过这个效果不错,能翻译 https://speechlogger.appspot.com/zh/
|
3
HFX3389 2022-04-03 23:43:22 +08:00 2
我先帮忙把价格贴一下,下面的价格是发帖时的价格,后面会不会变就不知道了
价格:1 元=10 点 - 腾讯云、阿里云:2 点 /分钟( 1 元=5 分钟) - 讯飞:3 点 /分钟( 1 元=3 分钟) |
4
dingdong 2022-04-03 23:45:14 +08:00 1
chrome 自带的 live caption 辅助功能不就是干这事儿的么
|
5
zhw2590582 OP @dingdong chrome 自带的也不错,还免费
|
6
zhw2590582 OP @Tink 看了下是对接谷歌的接口,我后面看看能不能也加入谷歌的接口
|
7
crokily 2022-04-04 09:56:57 +08:00
之前有个类似的自用想法,但在研究了各家定价后就放弃了,使用语音识别在线服务的成本实在是 略高,难以真的在生活中使用开。一节网课一两个小时,一天又不止上一节课,这样一天的成本就要大几十,难堪大用,只能非常轻度的使用。
|
8
zhw2590582 OP @crokily 是的,就因为价格贵,做这个之前我还考虑了很久,也觉得做出来也没什么人用,时长太长的场景确实不太适合做语音识别
|
9
Chism 2022-04-04 11:15:33 +08:00 via Android
看看微软小娜是否有开放接口,有的话,直接做成系统级,而且离线转文字
|
11
woaishangban 2022-04-06 10:44:20 +08:00
链接打不开啊?楼主,有关键字没
|
12
l0wkey 2022-04-06 11:22:52 +08:00
|
13
l0wkey 2022-04-06 11:24:46 +08:00
虽然是个非全浏览器兼容的接口,但....
既然做 Chrome 的扩展,其他浏览器的兼容性就不重要了~ |
14
zhw2590582 OP @HFX3389 @GoTop 价格已经改成每分钟 0.1 元了,但初始免费的点数也变成 20 点了,太难了。
@woaishangban 新版本还在审核,目测今天下午可以上架,目前因为 window 下的兼容问题,先把旧版本下架了。 |
15
zhw2590582 OP @l0wkey 你这个是好东西,我研究一下
|
16
l0wkey 2022-04-06 12:15:39 +08:00
|
17
zhw2590582 OP @l0wkey 看了下,好像只能用于麦克风录入,不能自定义音频流录入
|
18
l0wkey 2022-04-06 14:31:50 +08:00
|
19
l0wkey 2022-04-06 14:38:27 +08:00
不过..Chrome 官方的实时字幕应该也快支持中文了 https://support.google.com/chrome/answer/10538231?hl=zh-Hans
|
20
zhw2590582 OP |
21
findex 2022-04-06 17:24:57 +08:00 via iPhone
好东西顶一下。表示既然是用的 api ,可以做个 app 桌面完整版吗。因为很多人上网课 zoom 会议等并不是用的浏览器完成的。之前有个 v 友做了个 BeMyEars mac 客户端是调用的 mac 内置离线 siri 语音识别转字幕。就是 siri 不太准,体验不好。
如果好用准确的话,真有不少用户愿意付费的。 |
22
zhw2590582 OP @findex 搜了一下,还真没找到什么好用的实时语音识别的桌面端,可惜我只会 js ,用 electron 开发这么一个小功能的话又太臃肿
|
23
findex 2022-04-06 17:40:35 +08:00 via iPhone
@zhw2590582 windows 下有网易出的一个。每天免费 1 小时。如果 js 好用的话,用户也不怕臃肿吧。100mb 可以接受。
|
24
xueyangkk 2022-04-07 10:38:54 +08:00
实时字幕 一般都是调用本地的 api 实现吧 。调用远程的 其实很慢的 。 我给公司搭建的 视频识别文字 目前是异步的,识别效率算是好的 60 秒的视频 都至少 30~40 秒 这个水平 。 至于翻译 这个目前市面上开源 都是中英文翻译 。没见到有日文翻译 成中文的 有的话 求教学习下
|
25
xueyangkk 2022-04-07 10:42:33 +08:00
备注下 我用的服务器是 CPU 的 要是用 GPU 的服务器速度会更快 无奈 GPU 云服务器 太贵了
|
26
zhw2590582 OP @xueyangkk 能做到本地当然是最好,像 chrome 自带英语的实时语音识别一样,识别效率也很高
|
28
crokily 2022-04-07 12:26:01 +08:00
@findex gitee 有个叫 LiveCaption 的开源项目 就是一个调用腾讯云 /百度云 /阿里云 /的桌面端程序 Go 写的 实时抓取设备的音频输出转写字幕。
|
29
crokily 2022-04-07 12:50:00 +08:00
@xueyangkk 远程效果还可以呀 我试用百度的实时转写 API 准确率挺高 而且体感延迟较低,差不多是即说即得(严格来说还是有点网络与处理延迟,但体感不明显)。
不过发现了实时转写的一个缺点,无论远程本地,实时转写都是逐字转写的,除了识别偶然不准外,还会有识别成同音字的问题,所以只有完整讲完一整句,才能得到最准确的结果。 而且 逐字逐字显示的字幕 跟 目前人们熟悉的字幕 体验完全不同,通常看视频字幕,人们都是盯着画面(主),快速瞄一眼字幕(次)获取完整信息,这样思维才能跟得上播放。但逐字逐字的实时字幕在人物说话过程中只有半句的信息,非得人物讲完一整句才有完整信息,这个时候看字幕才能获取到完整信息,但此时视频已经要开始下一句了,让思维跟播放进度割裂滞后了,个人感觉体验不是很好,所以实时转写似乎并不好用,除非实时转写能提前几秒转写内容。 |
30
moeik 2022-04-07 13:34:56 +08:00
这玩意在本土网络环境不能正常使用吧
|
31
zhw2590582 OP @moeik 你是说国内网络吗?没问题的,都是浏览器 websocket 直连阿里云和腾讯云的
|
32
RikiZhu 2022-04-07 16:00:58 +08:00
听网课却有这个需求,但感觉成本考量这个插件还是很鸡肋。现在国产手机基本都自带不限时免费的实时字幕( miui 的小米闻声,华为的实时字幕),一定要在 PC 上用的话还有网易同传的免费版可用,而且不局限于网页,可以同传整个系统声音。哈哈,希望楼主能找到合适的应用场景。
|
33
zhw2590582 OP @RikiZhu 同意,这个扩展大多数用于临时起意的情况下使用,专业场景或者长时间使用的话还是用专业的软件好一些
|
34
tianzi123 2022-04-07 23:38:59 +08:00
这个商业化和使用体验最好的是彩云小译
|
35
findex 2022-04-08 03:09:34 +08:00
@crokily 看了一下你推荐的。是这个吗? https://gitee.com/641453620/livecaption
看里面的视频介绍。貌似识别速度挺快的,而且很准确。虽然有点时差,但是问题好像不大。 |
37
YucaiHuang 89 天前
版主下线了这个插件了? 可以发一下 git 地址不,最近有个项目需要在 chrome 扩展中加入语音识别,不胜感激!!
|