B 站那种视频总结账号和总结插件的时间线功能是怎么做的？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 294 天前的主题，其中的信息可能已经有所发展或是发生改变。

除了总结视频，很多这类总结账号和总结插件都提供了时间线，或者叫时间点跳转的功能，我观察了几个总结之后发现，这些时间点并不是长度相同的间隔，也就是说有可能真的是按照内容来分块总结的，思来想去找不到比较优雅的解决方案，在 twitter 有个开发者的帖子说可以用提示词解决，有大佬知道其他的解决方案或者开源项目吗？

7 条回复 • 2024-03-07 22:10:43 +08:00

1

yyzh

294 天前

有第三方的
https://bibigpt.co/
也有官方的
https://www.ithome.com/0/728/123.htm

2

mmxq

294 天前

有个思路：b 站视频有自带的字幕，字幕导出后就自带时间点和每一个时间点的文字。
只要利用这个就能轻松做出自带时间线的总结了。
类似项目：
https://github.com/IndieKKY/bilibili-subtitle 这个项目就是依托本身生成的字幕，加入了 ChatGPT 总结出来的。

3

mxT52CRuqR6o5

294 天前

没人说话的视频都总结不了，都是靠语音识别出的文字进行总结的

4

noahlias

294 天前

这种挺好做的你吧字幕加上时间线给大语言模型总结下类似 ai 搜索的方式让它自己标注内容引用的源时间轴

5

edotac

294 天前

1 、ffmpeg 提取音频
2 、通过 Asr 比如开源的 [whisper]( https://github.com/openai/whisper) 生成字幕文件
3 、交给 GPT 总结一下

6

noahlias

294 天前

不过有一种视频总结更加准确用视频的里面图片( https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding) 用 vision 模型获取文本这种总结更加准确
但是成本很高大佬 Andrej Karpathy 在 x( https://twitter.com/karpathy/status/1760740503614836917)上提到了这种想法下面有很多实现方案其中有一个是最近的 claude3 Opus demo( https://hundredblocks.github.io/transcription_demo/) 代码（ https://github.com/hundredblocks/transcription_demo/）
其实之前也有人去做比如 gemini1.5 （ https://simonwillison.net/2024/Feb/21/gemini-pro-video/）都是用大窗口模型来弄的

7

zhiyu1998

294 天前

我是做的 Yunzai-Bot 的插件，之前就用的字幕根据算法做的，但是嫌麻烦删了，然后用官方的 AI 了。

如果对你有帮助可以参考，Node.js 写的： https://gitee.com/kyrzy0416/rconsole-plugin

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2990 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 44ms · UTC 14:33 · PVG 22:33 · LAX 06:33 · JFK 09:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.