需求是这样,英文会议场景,想要在会议的时候使用转写,确保沟通的流畅性,不需要翻译,转录就可以了.
看了火山的 API,有道 APP,其实最理想的是 Chrome 的 Live Caption,感觉又小又轻便,但是没有找到好的产品.
试了下 mac 自带的 Live Caption,感觉也比较繁琐,每次需要去设置,用完还要去关闭设置,不知道各位大佬有没有更理想的解决方案
1
winterbells 163 天前
Word -> 开始 -> 听写
|
2
ivyliner 163 天前
可以试试 appstore 搜索: BeMyEars
https://www.engineerdraft.com/bemyears |
3
alexnone 163 天前 via iPhone 1
飞书妙记
|
4
zuiyue123 163 天前
|
6
noahlias 162 天前
英文的话 那 whisper 应该是效果比较好的了 找个快点的实现例如 fastwhisper 基本没啥问题
国内的基本都是对标中文的 阿里的 funasr 还有最近的 SenseVoice 都还行 |
7
kuse2001 162 天前 via Android
飞书妙记,免费服务里最棒了吧
|
8
isSamle 162 天前
|
9
zenghx 162 天前
微软 azure cognitive api
|
10
devliu1 162 天前 via Android
可以看下 sherpa 项目,可本地运行
|
12
ivyliner 54 天前 2
我对这方面研究还挺多的.
在英文会议场景中, 需求主要有 2 类. 1. 实时识别, 需要能进行流式处理 2. 录音之后识别 场景 1: 目前好像就 BeMyEars 可以做到, 而且还有翻译功能 场景 2: 飞书妙记, 每个月 300 分钟免费额度, 满足需求 2, 需要自己提前录音. whisper, 需要自己折腾一下命令行或者其它的工具, 缺点对中文不够友好, 需要 large 模型效果才比较可以 funasr 还是不错, 缺点是没有标点 SenseVoice 比如 funasr 好, 需要自己折腾一下命令行 vosk-api 中文不够好, 上一代的产品不推荐. seamless_communication 大而全, 效果不好, 很重, 不推荐 azure cognitive api: 付费, 挺贵的. 要自己写程序调用 api sherpa 需要自己折腾命令 夹带私货: 我的 App: YPlayer 搜索下载即可使用, 中文转录效果比 whisper 好, 英文的话, 就是用 whisper. |