1
Ettup 2020-12-04 05:10:20 +08:00 via iPhone
|
2
TimePPT 2020-12-04 08:34:13 +08:00 via Android
有助理整理,且这么大的量,直接搭个 wiki 吧,后端检索如果想优化单接个 ES,有一点开发成本,但既然是刚需就有必要
|
3
err1y 2020-12-04 08:44:47 +08:00 via iPhone
|
4
gdm OP |
5
AndyAO 2020-12-04 08:57:10 +08:00 1
我的收藏比这个教授更恐怖,不仅有大量的网页(Chrome 有保存到本地的扩展,很棒),还有很多很多的电子书(图片版都自动 OCR 了)。
方法是直接全文检索(Windows 有专门的接口),这方面的工具有很多支持,布尔表达式(NEAR 好用爆了)和正则表达式,几乎可以满足所有的需求。 目前不管是笔记,电子书还是检查,全部是在本地的,数据完全在自己手里,想怎么弄就怎么弄。 |
6
AndyAO 2020-12-04 08:58:32 +08:00 1
每次我查资料的时候,只要输入表达式,例如(结构化编程 NEAR 数学),然后我很快就能听到风扇巨大的轰鸣声,之后就把这两个词相邻的所有文档全给列出来了,而且我能一目了然的直接查看里面的内容根本就不用切换界面。
|
7
vsitebon 2020-12-04 09:09:28 +08:00 1
如果只是要保存内容,那就只保存纯文本文件(例如 markdown,方便后期索引);
然后用本地检索软件,例如 Filelocator 进行检索,然后因为有好几万个,tags 也有好几万个,那就专门在文本中直接保留原始的#标签,另外再整理一份完整的 #tag 列表,也可以专门去找打 tag 软件; 至于为了查看,那就用各种 markdown 查看软件(目前有朋友一万三千个笔记也是这样整理 不过他还会用 devonthink 来分析整理 |
8
gdm OP |
9
AndyAO 2020-12-04 09:15:29 +08:00
感觉如果 tags 是标签的意思,例如印象笔记中的标签,那么不妨碍在本地使用全文检索,感觉对于程序员来说解决起来应该是非常简单的。
|
10
laike9m 2020-12-04 09:24:14 +08:00 via Android
建议不要用印象笔记。主要是因为印象笔记的搜索并不好,而且我<1w 的笔记量有时候已经很卡了。不过具体用什么,我也不知道,毕竟印象的剪藏还是无可匹敌的
|
11
gdm OP |
13
vsitebon 2020-12-04 09:31:45 +08:00
@gdm 我的意思是直接在文本中加上对应的标签列,例如
# 新闻标题 #标签 1 #标签 2 #标签 3 {摘录日期} {内容} {评论(外部的另说)} 然后另外维护一个列表,包括#标签 1 #标签 2 #标签 3,然后用 Filelocator 每次检索的时候,直接加上标签 #标签 1,然后内容,支持的索引的话,纯文本文件会非常快。 如何解决图片内容以及 扫描版 pdf 的本地内容管理,这里还另外建议 ABBYY 。 理论上这个工作流,会很方便;但是如果希望自己每次填充标签的时候,能够有类似搜索建议的弹窗,那我现在就只能推荐各种本身支持 tag 的 markdown 软件,或,如上所说的,单独维护一个标签列表,每次在打标签的时候,同时检索一下之前也没有类似的标签。 所以最后问题落在,如何在每次输入#标签 1.1 的时候会建议#标签 1, |
14
gdm OP |
15
cmdOptionKana 2020-12-04 09:55:57 +08:00
|
17
AndyAO 2020-12-04 10:22:28 +08:00
@gdm #11
场景是这样吗?也就是十几个标签管理,上万个电子书,点开每个 tag,那么每次的话需要展示上千个文档. 你这里说一下我想到的东西,也许会对你有点用 1. 对于某个表达式进行搜索和排序,并且返回结果,速度应该是非常快的。如果你的软件做不到那么不太合适。 2. 展示几千个文档,这个当然是不可能的,也是不需要的。如果你的软件是直接这么列出来的,那么它本来就不适合这种场景。 **百度或谷歌搜索引擎就是这样的,返回速度非常快,但只会返回并渲染 10~20 个结果。这种解决方案在很多的其他 App 也都有,是很成熟的。** 前几天看到过有个人在做这方面的工作,好像也在 V2EX 发过贴,叫做归海数据.我曾经试用过,或许能解决这种情况? https://i.loli.net/2020/12/04/KZhmpnQNWXqGFUl.png *** 还有就是我不太明白为什么会有『一个 tag 的结果几千条,呈现效率会比较恶心,而且打断思路』的情况出现,如果要搜索资料库的话,应该不会直接匹配搜索库的 1/10 。 按照我的理解,出现这种情况的话,教授可能会这样搜索,`tags:历史`如果真是这样的话,我是没有办法理解教授的行为,这种关键词能查出什么东西?返回的内容太多太多. 如果不是,**可以把教授的搜索关键词发上来**. |
18
coolair 2020-12-04 10:55:10 +08:00
你可以去微博问问伞哥,他的收藏估计比 C 教授还多。
|
19
vsitebon 2020-12-04 10:56:10 +08:00
@gdm 其实关于标签管理,完全可以用类似杜威十进制或中国图书馆的类别进行管理,以下是我的笔记(标签管理)实例以及具体类别实例:
https://imgur.com/nwIdyFa https://imgur.com/eIA4YOU 然后如果担心实在太多太多,那就将同类别的标签,新建一个页面,用于管理;因为类别大概率只会有几个(而且不会增加),但是类别内的关键词可能会大幅度增加,这样可以保证未来的可验证能力 而且我特地推荐这种纯文本+#标签的方式的原因是,我此前也用 Evernote Notion 等,当你仅需要保留文件内容检索的时候,这两者都会遇到性能瓶颈,因为他们并不是专门的检索应用; 专业的事情应该由专业的软件去做,笔记软件可以用任意能写纯文本的软件,裁剪用专门的裁剪插件,检索也可以用你所说的 Docfetcher 或者我提到的 fileLocator 。 |
21
echowuhao 2020-12-04 14:40:34 +08:00
没有一个用 NAS 的。
买一个 NAS,我用的威联通有 Qsirch,chrome 有 Qsirch Helper 插件。 买个性能好的 NAS,全部 SSD 。 几万,几十万文件不在话下。 即使没有搜索需求那么多重要文件,也该考虑 NAS 备份了。 |
22
NasirQ 2020-12-04 14:59:43 +08:00
威联通+1
Qsirch 很好用 组个 RAID,备份安全。 |
23
tankren 2020-12-04 15:30:26 +08:00
至少弄个文件服务器或者 NAS 吧 多终端才方便
|
24
sun1991 2020-12-04 17:08:05 +08:00
无责任推荐 MyBase [http://www.wjjsoft.com/mybase.html], 最近正在考虑从 Evernote 转.
|
25
sillydaddy 2020-12-04 17:28:05 +08:00 via Android
@vsitebon 这些 tags 的列表是 obsidian 里面的结构吗?看着像是 wiki
|
26
sunbreak 2020-12-04 17:31:32 +08:00
|
27
vsitebon 2020-12-04 19:28:44 +08:00
@sillydaddy 是 Obsidian
|
28
gdm OP @cmdOptionKana 这看起来蛮酷的,我觉得是个不错的方案
@TimePPT 文科教授没有购置服务器的经费,只能用办公室电脑本地搭建,助理可能都没听过 Linux,不太可能让他们弄这个 @AndyAO 不是十几个 tags 管理,而是写论文就是要集中你的主题,不可能分散到几百个主题里面,那写不出论文。所以教授用的 tags 不到十个。我也觉得他的需求近乎桌面搜索,但可能他对搜索结果的呈现要求比较高。 关键词比如「画像」,tags 比如「族群」,涉及象征政治学、agnotology 、社会动力学等理论,v2ex 看过的人应该不超过十个。 @vsitebon 一般人收集的东西啥都有,而 C 教授收集的东西用图书分类法来分的话,几乎全在一两个子类里面。 @echowuhao 谢谢,我会建议他试试看,不过 Linux 对他来说会是大问题 @sun1991 量少的时候 mybase 确实很不错,我担心的是 3 万以上的量,搜索会故障 @sunbreak 这看起来是阅读插件? C 教授不太有这类需求,因为他全都看过了 |
29
whatalittleboy 2020-12-04 22:12:29 +08:00
“Archivarius 3000 – 是一个搜索计算机上,局域网上和可移动驱动器( CD,DVD )上的文档和电子邮件. 文档可以使用关键字或使用查询语言进行搜索, 和在 Internet 搜索引擎一样”
虽然这个软件界面设计很古老,但全文检索真的牛逼,支持的格式还贼多;另外,网页可以用 chrome 插件 SlingFile 保存为单个 html 文件,图文都能原样式保存下来 https://sm.ms/image/uKWbn8Ix14Qp6fG http://www.likasoft.com/cn/document-search/ |
30
echowuhao 2020-12-04 22:21:41 +08:00 via Android
nas 设置一下花几个小时 然后就都是网页访问 花 2000 块买一个回来玩玩就知道了 这可能是最好的方案了
|
31
Kyon945 2020-12-05 12:10:30 +08:00 1
SingleFile (浏览器扩展) 离线保存网页
简悦(浏览器扩展)网页上广告比较多的用简悦保存为离线 html 网页剪贴簿(浏览器扩展)+ Everything 本地 http 服务后给离线网页做笔记 Archivarius3000 ( Win )完美实现 PDF / markdown / html / mobi / epub / azw3 / txt 格式全文搜索 手机是 iPhone,用 iCloud 同步笔记到手机端,iPhone 自带的文件 APP 可以完美打开离线 html 网页/ PDF... 这大概是我的方案 |
32
AX5N 2020-12-06 20:39:23 +08:00
@gdm 你的教授的习惯是这样吗——看到不错的东西,保存下来后并且打上 tag 。等需要的时候,输入 tag,然后软件把所有的该 tag 下的文章给找出来。还是说不仅要搜索 tag,还要搜索正文内容?
|
36
gdm OP @panyuz 由于对检索速度太执着,目前使用了一个很古老的佛经搜索软件叫 accelon 3,最新的东西就在文件名上打好 tags,然后用 everything 来搜
|