V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
heimoshuiyu
V2EX  ›  分享创造

自建 PC 端的语音输入工具

  •  
  •   heimoshuiyu · 18 小时 39 分钟前 · 381 次点击
    我写了一个脚本,绑定快捷键可以调用自建的 OpenAI whisper 进行语音输入,你可以通过桌面通知看到识别状态。

    最重要的是,它可以根据我选中的上下文来增强识别的结果。就算是一些特殊名词,比如说 V2EX ,初音未来,哈次捏米库,它都可以很好地识别出来。

    demo 视频(有剪辑): https://yongyuancv.cn/ipfs/Qmbitjuouf7ZsbPeneFZK5v8bv8ZXhPnzLcJ4EymZfJnk9?filename=1.webm
    脚本(只支持 Linux 和 Mac ): https://yongyuancv.cn/ipfs/QmWTh8PYDN8ebpfGe2i79NdHJjHhPYN72NNVg6L4ecRj4w?fileanme=voice-typing.sh

    whisper 可以用官方的也可以本地自建 API https://github.com/heimoshuiyu/whisper-fastapi
    2 条回复    2024-12-20 13:20:36 +08:00
    ivyliner
        1
    ivyliner  
       7 小时 37 分钟前
    看着不错, 上下文增强识别结果是怎么做的?
    heimoshuiyu
        2
    heimoshuiyu  
    OP
       6 小时 32 分钟前 via Android
    @ivyliner 把剪切板里的内容作为 prompt 发送,whisper 是 transformer 架构,可以根据 prompt 识别
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2700 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:53 · PVG 19:53 · LAX 03:53 · JFK 06:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.