V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  iX8NEGGn  ›  全部回复第 9 页 / 共 13 页
回复总数  245
1  2  3  4  5  6  7  8  9  10 ... 13  
2023-03-29 13:31:41 +08:00
回复了 rerender 创建的主题 分享创造 离线字幕提取,基于 Whisper 封装了一个小工具,支持 GPU
“生成的字幕还可以离线英文翻译为中文”,这也是 whisper 做的吗?我记得它只支持其他语言翻译成英文
2023-03-29 04:39:32 +08:00
回复了 zkncu9zjczw 创建的主题 浏览器 谷歌翻译 必须点两次才翻译
魔法有问题,我开始中转 cf 时也会一直这样,直连后几乎就没有出现了
@dannylin 保存书签时自动擷取,我简单修改 WebScrapBook 很容易就做到了,只需监听 bookmark create 事件,然后调用已有函数。

至于删除,PyWSB 比较复杂,我无从下手,我非常暴力的直接读取谷歌浏览器书签文件和 PyWSB 生成的 js 文件进行对比,然后删除网页文件以及重新生成 js 内容。

经过这两步操作,几乎满足了我的所有需求,还有一个没满足就是:“相同的 url ,间隔一定的天数才重新保存”,好像 WebScrapBook 在检查规则的 duplicate 时 PyWSB 没有返回创建时间相关信息,所以我无法做到,您是否考虑添加这个功能?或者能否告诉我后端该修改哪里?

最后感谢大佬开源了这么优秀的项目,同时期待 PyWSB 后端做全文搜索以及提供 CRUD 的 API 的那一天。
@dannylin “我個人無法理解為什麼要既加書籤又自動擷取,還要書籤刪除後同步刪除擷取?那和直接擷取並用特定剪貼簿/資料夾分類有何區別?”

之所以有这样的需求,是因为网页是我主要学习来源,我学习一个东西一般要学透,可能会打开几百甚至几千个网页,而且一开打就是几周甚至几个月,直到我学透并把所有的知识消化整理成我的笔记。

但有时,我不得不放下当前的学习去做其他的事情,因此我会一键收藏所有打开的页面到书签,可能会很长时间后我才能重新回来,但常常发现书签中的链接 404 了,这非常的难受,因为有些知识是我已经消化过了的,只是没来得及做笔记。

如果浏览的时候自動擷取了,一键收藏所有打开的页面到书签时就不会有太大的压力,而且浏览时擷取的成功比较高,那些自動擷取的网页经过一段时间后如果没有被收藏到书签,那么就应该把它们删除。当我把知识整理成我的笔记后,书签就没有用了,删除书签时应该把擷取的网页也删除。
2023-03-14 15:01:53 +08:00
回复了 echoless 创建的主题 程序员 api 调试工具又死了一个
可惜 hoppscotch ( postwoman )有没有桌面版,套壳的也行呀
2023-03-10 17:14:29 +08:00
回复了 fractalbanana 创建的主题 分享创造 GhatGPT-18n:快速将你的网站括展多语言版本
@id80108900 有,bilingual_book_maker 项目就是翻译整本书的,一万字一块钱左右,感觉成本有点高
2023-03-09 16:40:58 +08:00
回复了 tool2d 创建的主题 SSL 以前感觉 HTTPS 很安全,现在有一点点改变看法了。
本地安全关 https 什么事,人家保障的通信链路的安全,退一万步讲,这是浏览器的策略,和 https 也完全不搭边
2023-03-08 22:42:15 +08:00
回复了 louchenabc 创建的主题 分享创造 我开发的浏览器信息记录工具(huntly)开源啦
前几天还在讨论网页存档类似问题,OP 的项目才放出来几天就就这么多 star 了,看来程序员还是有很多人有这个需求的。
2023-03-05 21:11:07 +08:00
回复了 M4rs 创建的主题 程序员 你是如何看待 3 月 5 日 B 站 bilibili 大死机?
我这边能看啊
@woyaojizhu8 仅保存的话 SingleFile 也能满足,但是多个不相干的软件配合使用,有割裂感。

而且还要整合管理功能才行,比如自动删除问题、重复页面问题,搜索到结果后点一下能直接看到带有 CSS 的原始页面,而不需要手动点击打开 Html 文件。
@woyaojizhu8 想要的是一个优雅的 All In One 程序,包括自带搜索功能,直接提供一个友好 Http 界面,而不需要启动其他程序,其实 webscrapbook 已经提供搜索功能且提供 Http 界面,但是它直接把提取的网页 content 记录在一个 Js 文件内,我不知道它是否有算法加持来执行全文搜索,还是直接暴力匹配,如果数据量大了不知道它是否还能支撑起来。
@woyaojizhu8 虽然功能上差不多能满足,但做法并不优雅,且它还带有网页标记等功能,项目挺复杂的,继续改成我想要的样子可能比我重新写一个后端配合上 SingleFile 还要难,所以并不打算继续弄下去,还在等替代品。
@hamsterbase 我这就去深度体验
@FrankAdler 奈何我只会点 JAVA ,Go 和 Js 技术不允许呀。

@hamsterbase 主要是想做浏览器无感保存,而不是手动添加网址或内容,如果能做到这一点就好了,大佬你的项目有这个功能吗?
我也深度试用不止如下的项目:

ArchiveBox 、DiskerNet 、hunchly 、singleFile 、WAIL 、warcprox 、grab-site 、webscrapbook

Webrecorder 家族的:pywb 、archiveweb.page 、browsertrix-crawler 、browsertrix-cloud 、Conifer

没有一个能完全满足需求,目前正在用自己魔改的 webscrapbook 苟且着

需求如下

自动保存:
- 浏览过的页面
- 载入超过一定时间才保存页面(提供 delay 选项)
- 提供自动删除 n 天前且不在书签中的页面的功能
- 书签
- 保存书签时自动保存页面
- 删除书签时自动删除保存的页面(或是继续保留,等过 n 天后删除?)
- 提供 include 、exclude 规则,确定哪些页面需要保存,哪些不需要

搜索:
- 根据网页标题搜索
- 根据网页 URL 搜索
- 全文搜索(只提取网页正文建立索引)
- 搜索时可以根据添加时间限定等

其他:
- 相同的 url ,间隔一定的天数才重新保存?

- 相同的 url ,只有页面发送变化时才重新保存(如何认为页面发生变化?这很难判断)

- 锚点不同的链接是否被认为是不同的 url ?:
- 单页应用,不该被认为是相同的 url
- 普通应用,应该被认为是相同的 url

从头实现起来可能难,建议站在巨人肩膀上,以 singleFile 或 webscrapbook 为基础,救命稻草就等着 OP 你了
2023-03-03 16:33:38 +08:00
回复了 AoEiuV020CN 创建的主题 程序员 唉,招不到人,钱少要求高
去他妈的八股文潮流,应聘和招聘的都没好处,浪费时间还得不到想要的东西
2023-02-26 13:03:22 +08:00
回复了 Aaron7Amelia 创建的主题 程序员 有没有可能跳过 ip 层 mtu 的限制进行发包
看来计算机网络学得不是深刻
2023-02-26 10:30:01 +08:00
回复了 nztomoto 创建的主题 Apple 我已经快 5 年没重装系统了
16 年的电脑到现在就没重装过,而且每天都自动全盘增量备份到机械盘,从来不怕系统挂了。
2023-02-25 14:58:39 +08:00
回复了 wclebb 创建的主题 Surge 我想在 Surge iOS 执行脚本,然后替换某网页的关键字。
你需要这样才行:

let body = $response.body;

//……对 body 进行替换的代码

$done({ body });
2023-02-16 20:34:21 +08:00
回复了 xd880616 创建的主题 宽带症候群 阿里云盘 webdav 废了吗?
@PrinceofInj @IvanLi127 @tanranran @whileFalse 我错了,我错了,一时嘴快
1  2  3  4  5  6  7  8  9  10 ... 13  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2557 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 15:52 · PVG 23:52 · LAX 08:52 · JFK 11:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.