原创！在文章中添加“文字指纹”，追踪盗版源头

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 1303 天前的主题，其中的信息可能已经有所发展或是发生改变。

帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

这个问题的背景就不多说了，说多了都是泪。直接呈上我思考的方案，欢迎点赞+批判：

我的方案

要有注册机制，以便区分不同的用户
对于同一篇著作内容，在分发给不同的用户前，都加上独特可区分的水印，一旦出现盗版，可以知道是哪个用户泄露
定位盗版源头后，永封源头用户，钱款不退。提高用户被永封后的直接损失，把走法律诉讼这种高成本的动作转移给对方。
重点讨论给纯文字添加水印的方法，要让这种水印不能轻易被抹除、篡改。方法包括：
- 文字替换，同义词替换
- 句子的顺序调换
- 句子、段落的增+，减-

盗版者的手段和困境

抹除水印的方法，说白了就是对带有水印的内容，进行“扭曲变形”，让水印无法再辨别。那么文字的“扭曲变形”，就只能是修改文字自身的内容了。那么，分析一下针对上面 3 种“文字水印”的破环手段和效果：

针对特定的“文字替换，同义词替换”

只要我把文章中的所有字词都用同义词替换一遍，原有的替换效果就全被破坏了
针对特定的“句子的顺序调换”

只要我把文章中的句子顺序都打乱，原有的调换效果就被破坏了
针对特定的“句子、段落的增+，减-”

只要我把文章中的句子段落随机增删，原有的增+减-效果就被破坏了

等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行，但随意增+删-，以及调换句子顺序，那文章还能读吗？

对，这就是试图破坏这些水印所面临的困难！也是这些水印可行的原因！

三维水印空间

字词替换、句子顺序调换、句子增+减-，这 3 种方法中，每一种下面都有 N 多种具体的选择，都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话，这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印，则是这“三维水印空间”中的某 1 点：

xyz=(替换文章中单个词组，调换文章中的单个句子顺序，向文章中增+减-单个句子)

盗版者并不知道所加水印点的具体位置，所以要破环它，只有尽量扰乱整个水印空间，也就是说，

抹除水印=(大量替换文章中的词组 + 大量调换文章中的句子顺序 + 大量增+减-文章中的句子)

这意味着什么呢：

如果使用人工破坏水印的方式，这代价基本就是重写整篇文章；
如果使用程序破坏水印的方式，这代价就是文章变得不再可读；

而添加水印对创作者的难度呢：

人工添加：手动选取 10 组待替换词组，10 组待调换句子，10 组待增+减-句子，10*10*10 可供分发给 1000 个用户，添加水印后的文章浑然天成，毫无破绽
程序添加：程序选取 10 组待替换词组，10 组待调换句子，10 组待增+减-句子，10*10*10 可供分发给 1000 个用户，添加水印后的文章有点别扭，但，仅仅是有一点，毕竟只替换了一组。读者就凑合着看吧。

大家怎么看

可以看出，水印空间的维度越高，破坏水印越困难，而添加水印则越简单。上面给出的是一个 3 维的水印空间，也就是添加“文字水印”的 3 种方法，还有其他的方法吗？

第 1 条附言 · 2021-04-30 07:48:20 +08:00

对于楼下提到的注册多帐号对比差异的方法，确实很难解决。原本以为可以使用一些编码手段，不过没找到可行的方案。

此路不通！

第 2 条附言 · 2021-04-30 08:25:02 +08:00

另外利用附言作一些辩解：是这样的，我在主题里并没有任何的明示或暗示这种方法可以适用于所有的场景。我只不过是没有明确把我自己设想的可以应用的场景说出来。
然后就有很多人臆想我意图用这种方法用在所有场景，甚至要取代所有版权手段。
用臆想这个词是因为这种想法不仅没有依据，而且是跟我主题里的内容相矛盾的。举一个最简单的例子，这种方法要求同一篇著作分发 n 多个不同版本给不同的读者，怎么还会有人拿文学作品甚至 zf 工作报告作为应用场景呢。另外，主题里明确提到了注册制以及帐号封禁，能用这种方式的应用场景必然是有限的。

稍微有点常识和逻辑思维，就不会作出那些臆想。

所以我在回复里提到了“不审题，不思考，臆想，硬杠”。

至于作者使用人工的方法，用主题里提到的 3 种方法修改文章，还能不能保持原有文章的一致性，连贯性，可读性，甚至特色。在我看来这同样是一个常识。对此持不同意见的那就彼此保留各自看法吧。

水印

句子

替换

调换

106 条回复 • 2023-03-14 09:18:34 +08:00

1 2

❮

❯

ijrou

2021-04-29 12:39:30 +08:00

5pyJ77yM5L2G5piv5LiN5ZGK6K+J5L2g

oott123

2021-04-29 12:42:08 +08:00 via Android

盗版者注册 5 个用户 diff 一下，把不一样的地方挑出来丢掉，咋办

dzdh

2021-04-29 12:45:31 +08:00

影响正常阅读不
截屏 ocr

Rocketer

2021-04-29 12:48:24 +08:00 via iPhone

我觉得不用那么复杂，只替换一些同义字词就应该能产生很多指纹了。

以“的地得”为例，一篇文章里只需 10 个，就能产生 3^10=59049 种组合，20 个就是 34 亿，足够了，连容错都够了

sillydaddy

2021-04-29 12:59:51 +08:00

@oott123 #2
差分攻击，厉害！嗯。。考虑一下编码。。

sillydaddy

2021-04-29 13:01:50 +08:00

@Rocketer #4
“的地得”这种很容易被修改，程序可以自动替换。

abersheeran

2021-04-29 13:06:58 +08:00

替换同义词，含义很可能会变。句子增减，含义也会变。顺序调换就别说了，更会变。

形容好文，有一词：只字不可换。通过替换是绝对行不通的。

renmu123

2021-04-29 13:07:02 +08:00 via Android

没有那么多同义词给你替换，就算是同义词具体在某些地方的含义也是不一样的，“的地得”三种明显使用场景是不一样的，正版读者应该是没办法接受这一点的，编辑可能也没办法接受，我花钱了你就喂我吃这种屎（仅做类比，防杠）?
而且没办法解决有多个账号的数据进行对比，这个规律没有那么难找。

AlisaDestiny

2021-04-29 13:11:26 +08:00

阿里巴巴公司根据截图查到泄露信息的具体员工的技术是什么？ - fuqiang liu 的回答 - 知乎
https://www.zhihu.com/question/50735753/answer/122593277

wzzzx

2021-04-29 13:19:39 +08:00

图片的话还好操作，但是文字可能就很麻烦。比如这段话你能找出多少个同义词替换呢？

sillydaddy

2021-04-29 13:19:41 +08:00

@abersheeran #7
替换同义词，含义很可能会变。句子增减，含义也会变。顺序调换就别说了，更会变。
=>句子增减，含义很可能会变。替换同义词，含义也会变。顺序调换就别说了，更会变。

@renmu123 #8
替换示例：没有那么多同义词(近义词)给你替换，就算是同义词(近义词)具体在某些(一些)地方(位置)的含义(意思)也是不一样(不同)的

@AlisaDestiny #9
文字和图像不一样啊，不过本质都是在不影响原有体验的情况下，添加隐藏的信息。

necpom

2021-04-29 13:23:01 +08:00

文本的内容是完全没法防盗的，只要利益够。兄弟，你看过盗版小说吗。早些年盗版都是手打文章的，错别字你都能看出来用的是拼音还是五笔，那时候盗版更新和正版有延迟，后来直接上 ocr，基本快和正版的小说同步更新了。

abersheeran

2021-04-29 13:25:52 +08:00

@sillydaddy 我就知道你要替换我的话来作为例子。很可能会变、也会变、更会变，这几个词显然是有强弱关系的。我本来想表达“替换同义词”的影响小于“句子增减”小于“顺序调换”，你替换了我的话之后呢？

sillydaddy

2021-04-29 13:30:28 +08:00

@necpom #12，兄弟，你跑题了。主题里这种防盗版方法是有条件的。注册制、多篇文章。。。等等等等

@abersheeran #13，我也只是就你的例子下坡。给定一篇文章，别说是句子的顺序了，甚至段落的顺序也是可以调整的。否则只有一种叙事方式的话，作家还怎么能叫做作家呢？比如我写的这篇文章，你认为我没办法通过重构段落结构吗？没有办法微调句子间的顺序结构吗？

imn1

2021-04-29 13:31:43 +08:00

藏头诗比你这个更好

no1xsyzy

2021-04-29 13:31:57 +08:00

文字的话现在都是洗稿的了……

如果内容的价值来源于其完全一致性，则是更容易被发现的，比如歌词
https://hackaday.com/2019/06/18/morse-code-catches-google-swiping-lyrics/
genius 发现了 google 复制其歌词，因为其中采用了两种视觉上类似的单引号，形成摩斯码

abersheeran

2021-04-29 13:33:10 +08:00

我建议楼主多看看文学类的书吧。不能因为你是个程序员，手里有个锤子，看天下所有问题就都要锤一下。

版权保护肯定没法从源头做。只能从盗版的分发口去做。

- 比如在搜索引擎里。利用程序判断文章的相似度，对盗版文章进行降权，没有流量就没有利益，自然没人去盗版。

- 比如各平台加入盗版联盟，文章互通有无，利用程序判断相似度，再加上人工审核进行去重，并对其账号降权。

只有做盗版也没什么油水可赚，才会没人去做。否则，就算你查到了是谁在盗版你，你又能怎么样？逼他删文？让他赔钱？送他入狱？

sillydaddy

2021-04-29 13:33:53 +08:00

@imn1 #15 但可能更不好操作，能写 1000 首藏头诗的话。。
@no1xsyzy #16 厉害

abersheeran

2021-04-29 13:34:52 +08:00

@sillydaddy 你已经用事实证明了，你的替换思路在我那句话上不可行。你要是有别的思路，你大可以展示出来。也不用别的例子，还是你改过的那句话，保持我的原意，你来更改。

no1xsyzy

2021-04-29 13:35:13 +08:00

@abersheeran 类 Unix 那么多，各种实现微妙地不同，但其实都能用不是吗？

abersheeran

2021-04-29 13:36:29 +08:00

@no1xsyzy 逻辑滑坡。

renmu123

2021-04-29 13:38:45 +08:00 via Android

@sillydaddy 这这个语境下，地方是位置的意思，那在别的语境下，地方可能就是“地址”的意思。

举个例子：两个人在吵架，一个人说，你什么意思。另一个人说：我没什么意思，但你这样有意思吗?
你难道把“意思”统一替换成“含义”，编辑怕不是要发狂了

imn1

2021-04-29 13:41:01 +08:00

@sillydaddy #18
亏你还“奇思妙想”，“藏头诗”就只想到诗？哪种文体不能藏头、藏尾、藏中间？

sillydaddy

2021-04-29 13:42:37 +08:00

@abersheeran #17 > “我建议楼主多看看文学类的书吧。不能因为你是个程序员，手里有个锤子，看天下所有问题就都要锤一下。”

你让我看文学书有个锤子用啊？
如果在别的事情上自己没有控制权，那只能尽量做自己能做的啊。这个逻辑没问题吧？
我的主题就是说要利用追查盗版来源，然后采取封堵泄露源的问题，提高盗版的源头成本啊。盗 1 篇文章就被封 1 个账号，他不得注册 N 多个账号，然后每个账号都付出一定的成本。

你这一上来就是平台联盟，引擎降权，你倒是说说怎么做到？

no1xsyzy

2021-04-29 13:44:16 +08:00

@abersheeran > 只有做盗版也没什么油水可赚，才会没人去做。否则，就算你查到了是谁在盗版你，你又能怎么样？逼他删文？让他赔钱？送他入狱？

这个别扭的方法的前提是：付费方式是长期订阅制，使得在最短订阅周期内发出 N 篇文章。
并且一旦发现一篇盗版，揪出源头封禁。
形成 N 篇文章的钱只能盗走一篇文章。（参考各种 V** 跑路之后那句经典的 “年费价格用一个月”）
除了同义词以外，还有零宽字符、标点符号全半角、韩文平面里的同形字异码字等等

no1xsyzy

2021-04-29 13:45:52 +08:00

@abersheeran 请说明：这如何构成逻辑滑坡？
这两个范畴是完全一致的。

sillydaddy

2021-04-29 13:46:23 +08:00

@renmu123 #22 你是在说程序自动大规模替换的情形吧？如果是人工替换就不会搞错语境了，程序能替换的可能是那种比较明显的。

@imn1 #23 你说的这话就是藏头诗吧？我咋看不懂啥意思。。

abersheeran

2021-04-29 13:50:12 +08:00

@sillydaddy 封堵盗版分发口，我说的那两是举例，你是看不懂“比如”两个字吗？我让你看文学书，是让你有点文学素养，替换、调转、增减，都是不可行的办法，这玩意但凡语文课上听讲了都能知道。互联网世界上不是只有计算机专业的博客。

@no1xsyzy 你说的是那种动辄几百万字的网络小说是吧？有这个前提的话，这个方法有一定的可行性。

renmu123

2021-04-29 13:51:30 +08:00 via Android

@sillydaddy 如果是人工，那这不就是洗稿，而且还要为每一本小说的每一章洗多遍，才能达到指纹的效果。起点有多少小说，一共才多少编辑，全国的编辑都上去洗都不够

abersheeran

2021-04-29 13:53:30 +08:00

@no1xsyzy 行，都听你的。它们范畴一致。乖啊。

sillydaddy

2021-04-29 13:54:35 +08:00

@abersheeran #28
对于不友善的回复，我一向不会友善回应。我只能说，你的逻辑、语气真让人无语。不想把这个变成吵架，跟你的对话到此为止。

abersheeran

2021-04-29 13:55:39 +08:00

@sillydaddy 行，是我的逻辑有问题。我不该否定你们的设想，也不该举反例出来说明你的替换方法无效。

zerofancy

2021-04-29 13:55:59 +08:00

你的手段不应该降低正版用户的阅读体验。有多少人愿意做“正版受害者”？你所说的手段，文字替换，同义词替换、句子的顺序调换、句子、段落的增+，减-，到时候正版用户也错字连篇，谁愿意买账……

learningman

2021-04-29 13:56:49 +08:00 via Android

追踪到了又有什么用呢。。。。把那个泄露的用户号删了，人家再注册一个就好了。

aristolochic

2021-04-29 13:58:10 +08:00

自定义字体可以一试，就是要求追踪到用户的话，怕不是每个用户一个字体。当然了，防不过 OCR

no1xsyzy

2021-04-29 14:01:34 +08:00

@abersheeran （其实我之前的构想是针对 “音声”，那个比较好做）
而且引了原串是 “试卷”，那 ABCD 顺序换一下也行

no1xsyzy

2021-04-29 14:03:22 +08:00

@abersheeran 你主张逻辑滑坡，需要你论证逻辑滑坡的构成。
何况我没有中间桥段，只有一层类比，不可能构成滑坡。

wangxiaoaer

2021-04-29 14:06:57 +08:00

人工洗稿你怎么破？

abersheeran

2021-04-29 14:09:50 +08:00

@no1xsyzy 如果只是试卷，那这些方法都行。但这个帖子问题在于扩展到了文章版权这个大的范畴。

文章有许多种，有的人写的跟“郑伯克段于鄢”一样微言大义，有的人写的跟古代策论一样一环扣一环。任何对于原文的变更都会导致这种写的很好的文章出现错误，让给了钱的读者变成“正版文章的受害者”。

如果限定于动辄几百万字的灌水网文，那没问题。如果限定于老师出的试卷，也没问题。但对于富有文学性、用词考究、逻辑缜密的文章，就有大问题了。

no1xsyzy

2021-04-29 14:12:01 +08:00

@learningman 前提是已经付费了，比如一年一订，一个月被发现并清楚，这样增加盗版成本。
@aristolochic 自定义字体是（前置的）抵抗手段，这里的是（后置的）溯源手段。
@zerofancy 方法论上换为零宽或者同形异码也毫无问题，这两个只会破坏搜索。

除此以外，还有比如在线答题，有些人会自己做完做成标准答案 “分享” 给别人。
通过溯源（反正 ABCD 随便调换），把这些喜欢 “分享” 的人分配到一个单独的（可能更难的）题库中去。

sillydaddy

2021-04-29 14:12:36 +08:00

@renmu123 #29
@zerofancy #33
没有仔细看主题吧，主题里明确说明了添加这种水印的代价，分为人工和计算机程序：

>
>而添加水印对创作者的难度呢：
>人工添加：手动选取 10 组待替换词组，10 组待调换句子，10 组待增+减-句子，10*10*10 可供分发给 1000 个用户，添加水印后的文章浑然天成，毫无破绽
>程序添加：程序选取 10 组待替换词组，10 组待调换句子，10 组待增+减-句子，10*10*10 可供分发给 1000 个用户，添加水印后的文章有点别扭，但，仅仅是有一点，毕竟只替换了一组。读者就凑合着看吧。

no1xsyzy

2021-04-29 14:16:31 +08:00

@abersheeran 你说的是 “限制” 而不是 “不可行”……
你所说的 “滑坡” 包不包含 “限制” -> “不可行” 的 “滑坡”？

可能依赖于上游适配性调整…… 方法上也可以转变为零宽或者同形异码

imn1

2021-04-29 14:20:12 +08:00

@sillydaddy #27
藏头诗只是一种说法，如果非要理解为诗，那还必须是古诗，字句工整，摆在一起就看出来的

但广义来说
藏：把特定的字掩藏在众多字中，所谓“大隐隐于市”
头：有规律的位置，不是非要首字
诗：文体，不是非要诗

只要能达成这个目的 —— 从特定位置提字组成一句有意义的话，不必咬文嚼字就理解为诗，因为没有“藏头散文”、“藏头通知”……这些叫法，藏头诗只是一种提法、意思而已

renmu123

2021-04-29 14:26:01 +08:00 via Android

@sillydaddy 我论证的是人工成本太高，而计算机替换严重影响体验，所以这这种方法几乎都不可用

marcomarco

2021-04-29 14:26:57 +08:00 via iPhone

那如果注册用户是用的假身份注册的呢，还是找不到人啊

S179276SP

2021-04-29 14:35:54 +08:00 via Android

抵挡不了老毛子给你一页页拍照做成 pdf 上传

dswyzx

2021-04-29 14:39:53 +08:00

得的地替换不行的话,全角半角逗号进行替换?

est

2021-04-29 14:43:19 +08:00

放心吧。抄袭狗一般都需要二次加工的。你精心放置的识别词都会被人肉改得妈都不认识

woodensail

2021-04-29 14:55:44 +08:00

上面讨论这么多。我说个现实中使用过的案例吧，可以使用自定义字体。把常用字全部随机替换一遍，并且配上一套能正确展示的字体。比如「你好」这两个字，你抓包看到的可能是「再见」，但是在用户使用的字体中这两个字展示出来就是「你好」。这样对用户完全无感，但是抓包和开控制台复制的成本。

之前是在某旅游网站看到过这种做法，他们把所有的数字全部打乱了，直接爬虫爬爬到的全是错误数据。

akira

2021-04-29 15:09:44 +08:00

所有的方案都是不能完全避免盗版的
只是提高盗版的成本
当盗版的成本大于收益的时候
自然就没人去做这样的事情了

FS1P7dJz

2021-04-29 15:15:08 +08:00

OCR 识别+人工矫正,对你这些方法都没什么用

特殊字体什么的,在如今的 OCR 技术中调整起来非常迅速,何况还有人工矫正

替换同义句之类的,大概也只能适用于垃圾网文,真正的文学遣词造句很讲究,哪能随便替换的

xuanbg

2021-04-29 15:19:35 +08:00

文字特征制作方法：随机生成若干个位置，然后对这些位置做字典替换。保存下替换位置和替换结果作为特征保存到数据库。然后发现疑似文字，可编写程序进行自动化特征匹配。

ired

2021-04-29 15:23:13 +08:00

@Rocketer 有趣的思路

xingshu1990

2021-04-29 15:53:45 +08:00

@woodensail #49 字体加密：
https://blog.csdn.net/weixin_42277380/article/details/97239019
https://zhuanlan.zhihu.com/p/108207403
不过字体加密的是有载体的东西，该题主说的是文字加密，这个文字加密就抛开载体的说法了。

geelaw

2021-04-29 15:56:44 +08:00 via iPhone

这个方法自古已有，例如古老的对数表可以在小数点后很远的位置植入一些错误。

这类问题的形式化版本包括 traitor tracing 和 fingerprinting codes 。

woodensail

2021-04-29 15:56:50 +08:00

@xingshu1990 其实是一样的，前面已经说了，无论中途如何加密，最后用户看到的时候必须还原成原始的状态。我这边该文字映射了，用户看的时候就得映射回去。楼主的方法做了文字替换了，用户看的时候也必须替换回去。

Soar360

2021-04-29 16:26:25 +08:00

自定义一个字体么。哈哈。

libook

2021-04-29 16:28:40 +08:00

分析得挺到位的。

有几个问题可能还需要想想：
1. 这种追踪类的水印有一个很重要的功能就是可以解码出盗版者的追踪信息，如果盗版者在你基础上又做了处理，不需要动所有的点位，哪怕只动了一个位置都有可能导致解码出来的信息不能定位到任何一个用户。
2. 自动化盗版的速度都很快，可能在检测出有盗版存在的时候已经都盗完了，甚至钱也退了。
3. 对于那些对用字和语法要求苛刻的作者来说，大概率不会采用这种方案。

DRM 确实是个大难题，而且现在已经形成了长期对抗。

mimi888

2021-04-29 16:32:57 +08:00 via Android

说实话，还是好好做内容吧，起点这么多年下来都已经躺平了

Cloutain

2021-04-29 16:54:25 +08:00

文章的本质是内容。首先这种方案肯定在文学作品上没法用，严重影响文学性。其次，科研文章没法用，除非你能做到相当精确的等价描述。最后，能用的地方可能就是一些网络水文，这还得看作者愿不愿意，因为即是是网络写手也对自己的作品很上心

imnpc

2021-04-29 16:56:21 +08:00

起点对抗了这么多年，最终 PC 使用 WEB 图片 + APP 混淆加密解密,
挡不住图片截图以后 OCR，
也挡不住合作方 API 被提取文本内容

qdzzyb

2021-04-29 17:42:38 +08:00

nft 上链

bleaker

2021-04-29 17:58:00 +08:00 via iPhone

起吗了解下 unicode 吧，zero width space 不用的吗... 还有各种别的黑科技

James369

2021-04-29 18:00:36 +08:00

实体书都盗走，更何况数字书，别做无畏的挣扎。对付盗版只能靠重罚。

tutustream

2021-04-29 18:11:28 +08:00

了解一下现在都是洗稿了，照搬都是机器人 bot 干的低级活。

dsg001

2021-04-29 18:13:07 +08:00

文字水印，PC 时代起点就这么防盗版，每隔一段时间就封批账号，然而只要成本低于收益，手打组依旧更新

delpo

2021-04-29 18:30:01 +08:00

@woodensail 你这招早就有实践了，比如说斗鱼的关注人数就是用的自定义字体显示的数字，然而还不是会被 ocr

sillydaddy

2021-04-29 19:58:59 +08:00 via Android

@renmu123 #44
我不知道你有没有看懂主题里的意思。你的意思是分发给 1000 个用户的一篇文章，修改 10 个同义词，调整 10 个句子顺序，增减 10 个句子，也算是人工成本太高吗？我不知道这怎么能跟洗稿联系起来。真正要洗稿的是盗版者，因为要去掉水印。两者的工作量不在一个级别。

@xuanbg #52
没看明白

@Cloutain #60
我不明白为什么都会认为使用这 3 种方法会改变文章的意思，根据常识也知道一篇文章表达的意思有成千上万种写法。而且你举的文学作品，科研论文这些类型，明显不是这篇主题要针对的类型。一个作家会把他的作品改成 N 多个不同版本分发给不同的读者？科研论文需要收费和防盗版？

sillydaddy

2021-04-29 20:10:10 +08:00 via Android

@libook #58
感谢还有人关注我的分析逻辑。这楼里太多不审题，不思考，臆想和硬杠的了。

你说得第 1 点我不太明白，对包含水印的任意点位作修改，并不能消除水印的效果吧？比如我相对于原文，修改了词组 a，调换了句子 b，增加了句子 c，作为水印。如果盗版者修改了词组 d，调换了句子 e，增加了句子 f，那么与原文比对后，还是能发现水印 abc 啊。如果水印 a 被破坏了，还是有水印 bc，这时取最近的估计也能发现是原有的 abc 。

第 2 点确实可能是问题。

xuanbg

2021-04-29 20:17:44 +08:00

@sillydaddy 就是一篇文章里面随机找几个词，替换成同义词。譬如道路替换成马路，猫咪替换成喵星人，这样一点也不影响阅读。然后把这个信息和你的用户 ID 一起存起来。。。

因为每个人看到的文章被替换的文字都不一样，所以当作者在别的地方发现文章被盗用时，根据这个特征就能找到你的用户 ID 。

sillydaddy

2021-04-29 20:18:15 +08:00 via Android

@dsg001 #66 原来如此，这个还真不知道。说明封帐号造成的损失还是太小了。

sillydaddy

2021-04-29 20:20:30 +08:00 via Android

@xuanbg
好吧。。不过，这就是我这篇主题的意思啊。

CODEWEA

2021-04-29 20:22:06 +08:00

卧槽还行和那个图片上字符串有一拼

discrete

2021-04-29 20:51:56 +08:00

我还是觉得用 UTF-8 零宽字符做水印比较骚。

gBurnX

2021-04-29 20:53:27 +08:00

建议先去知网搜一下。这个问题，国家很早就在资助了，作为国家级课题，目前已有一部分研究成果。

slzcz

2021-04-29 23:12:42 +08:00

个人想法，如果是直接文本型 /文档型成型的类型，采用随机排版的方式不知是否合理。
例如 a 用户看到的是\t，b 用户看到的是\n，c 用户看到的是\t\t 。
筛选出泄露之后，再通过不断的二分 /特殊标记（譬如楼上所说的替换什么的）找出泄露。
当然，如果是一坨的文字，OCR 和手打党可破。

secondwtq

2021-04-29 23:13:46 +08:00

我看明白了，楼主这个方法就是专门针对割韭菜类的文章的
我只能庆幸古典著作、zf 文件、新闻通稿等的作者不需要靠这些来割韭菜 ...

mainjzb

2021-04-30 00:19:52 +08:00

楼主说的类似于电影水印，说的是水印实现的技术问题，而非解决盗版的问题。

例如我们可以从文章： http://news.cctv.com/2016/12/05/ARTIvCq22Q9dw6k2naR4r4KK161205.shtml
得到以下片段：
一旦盗版片源被发现，制片、发行、院线等各方都可以第一时间将信息进行反馈。通过平台检测，一小时内，就能精确定位盗版内容出自哪家影院的哪一个场次，大幅提高维权效率，降低维权成本。

所以，如果存在一个文字水印的技术，结果是可以降低维权成本和效率。那么讨论这个技术的可行性是值得的，前面的某些楼层完全偏离了主题。

mainjzb

2021-04-30 00:24:10 +08:00

有一个漏洞在于：我创建 5 个账号，我每个账号截取 1/5 的文章，然后拼接而成，这样的文章依旧语义通顺，且难以追寻。

mainjzb

2021-04-30 00:26:34 +08:00

进一步说，我创建 N 个账号的账号池，（也可能是盗取的账号，暗示微博）
文章每换一个段落，我就随机取一个账号去获取，最后拼接成整个文章。

mainjzb

2021-04-30 00:39:06 +08:00

楼主讨论一个问题也可以去限定一些特定的场景和约束，例如，手段是修改文章内容差来追溯盗版者的来源，那么最好用的场景是一些每天都更新的小说网站，目的是为了防止 ocr 、手抄、复制等手段。规定有效的场景来讨论技术的可行性，在进行场景的扩大可能更好。

snw

2021-04-30 01:55:19 +08:00 via Android

上面说的零宽空格、全半角标点、同形异码、特殊引号是最没用的，只能防完全照搬。
别人直接扔掉零宽空格、统一全半角、统一引号、同形同码，出来比你原版效果还好，直接就变成了盗版受益者。

至于 LZ 的方法，字词同义替换很容易造成质量下降，别说编辑了，我作为读者都不能忍正版受害。
你替换越多，质量下降越严重；替换越少，防破坏效力越低（特别是 80 楼这种攻击方式）。

Weixiao0725

2021-04-30 02:10:25 +08:00

我觉得替换词汇很难做到不更改含义。可以利用不同单词之间放置肉眼观察不到的不同间隔做唯一标识，比如 I am a student. 每两个单词之间的间隔距离不一样，肉眼看不出来，但是可以用程序算出其中的不同。

chouchen

2021-04-30 05:00:56 +08:00 via iPhone

这点破技巧，至少几十年前就被玩烂了。在公司下发给个人的机密文件或邮件中，新产品的参数中，内部审计数据中，发给每个人的数据或者字段位置都会不同。这样做的前提是没有机会几个文件在一起一一比较。你这个随便两个账号自动比较就发现差异了。早期的密码学里也有这么用的，太小儿科了。

musi

2021-04-30 06:43:43 +08:00

建议楼主在做之前多想想中华文化博大精深
在这里说这个真的不是一句玩笑话，哪怕你把一个标点符号给替换了，原有句子的含义都有可能会出现雪崩效应

dream7758522

2021-04-30 07:41:05 +08:00 via Android

1 让作者发布的时候，提前替换呢？形成 a,b
两种差异文章里。
2 灰度发布呢？给 5%的用户发布替换文章。
3 起点现在好像是单章订阅，哪怕封禁也基本没有损失。pc 端不清楚，手机端订阅后文章不是图片，直接是文字，应该是放弃防盗手段了吧。
4 感觉起点现在好像也不起诉了，改为和盗版网站合作了

rails

2021-04-30 08:02:54 +08:00

其实人家不需要完全破解，如果知道是改某些同义词，只要对方也更换下，就可以隐藏真实身份了。

sillydaddy

2021-04-30 08:09:32 +08:00 via Android

@mainjzb #81
是这样的，我在主题里并没有任何的明示或暗示这种方法可以适用于所有的场景。我只不过是没有明确把我自己设想的可以应用的场景说出来。
然后就有很多人臆想我意图用这种方法用在所有场景，甚至要取代所有版权手段。
用臆想这个词是因为这种想法不仅没有依据，而且是跟我主题里的内容相矛盾的。举一个最简单的例子，这种方法要求同一篇著作分发 n 多个不同版本给不同的读者，怎么还会有人拿文学作品甚至 zf 工作报告作为应用场景呢。另外，主题里明确提到了注册制以及帐号封禁，能用这种方式的应用场景必然是有限的。

稍微有点常识和逻辑思维，就不会作出那些臆想。

所以我在上面回复里提到了“不审题，不思考，臆想，硬杠”。

wclebb

2021-04-30 08:18:09 +08:00 via iPhone

我觉得还是可行，不过有部分可以通过替换，比如符号，有些符号大量相似、或本来一样的但也是不同的。比如 I l ｜ l 等等，只要不影响阅读的前提下，比如 AI Al Al 你可能看不出来我已经替换掉了。

还有，由 AI 写出来的小说，世界上小说最多的那个，好像是几亿字小说的那个。感觉也是可行。

“，"，＂，「，这四组符号，也是同一种符号的意思。

也可以拆分 ‘ , ‘’ , ”

这种做法只是提高成本。当然还是可以尝试。

minmini

2021-04-30 08:24:51 +08:00

大众点评的网页差不多就是这样了把，没法复制，复制出来的都是一堆乱七八糟的东西

p1gd0g

2021-04-30 09:15:31 +08:00

图片做数字水印已经是很成熟的技术了，但是纯文本我觉得行不通吧。

q197

2021-04-30 09:21:35 +08:00

黑白文字内容，图像数字水印不现实。修改内容如果是空格、符号变种，无法应对 ocr 。内容修改其实是可行的，只要修改的点位足够多，用户注册多个账号是没法找到所有点位的，其实亚马逊申请了类似专利

woodensail

2021-04-30 09:22:37 +08:00

@delpo 我开头就说了，我来说点现实中用过的例子啊。以及 ocr 肯定是无解的，就算阻止截屏了对方还能拍屏。所以我也说了只是加大难度。

newmlp

2021-04-30 09:51:01 +08:00

@sillydaddy 谁说一个账号只能盗一篇文章的

nullcoder

2021-04-30 09:51:47 +08:00

po 主有了解过 press.one 吗？

libook

2021-04-30 12:01:50 +08:00

@sillydaddy #59 一般图片上的明水印的作用只有一种，就是标识来源，但你设计的水印除了标识来源以外还有另外一个作用就是定位盗版者，定位盗版者需要水印能够被解码成盗版者的标识。如果通过组合 abc 来解码出盗版者的标识的话，万一盗版者运气好修改了 abc 三者之一，则 abc 信息损失，你知道 abc 有变化，但无法知道盗版者修改之前是什么样子，也就不能根据 abc 的信息来定位到盗版者是谁。盗版者破解这个措施其实只需要让 abc 三者之一无法被正确解码就可以了，当然前提是他知道有哪些点位是关键点位，这个其实用两个账号看同一篇文章就很容易发现，或者乱改一通恰巧命中。

像图片频域盲水印是模拟信号，本身有很好的容错能力，缺少一部分或者对比度变化都难以对解码信息造成实质的破坏，甚至可以通过实验调优来达到让水印和图片内容一损俱损的程度。

你的方案加的水印是数字信号，本身不具备容错能力，需要靠额外的容错机制才能保障一定的可靠性，比如奇偶校验和冗余，但这样可能就又要在文章中添加更多的点位，如果点位扩展很容易的话倒是没啥问题，但这又受到文章的的篇幅和内容影响颇深。

建议你把自己的方案和其他媒体形式已经在使用的水印方案进行一些对比，然后看看有哪些问题其他水印解决了自己的方案还没有解决，以确定进一步探究的方向。

Greatshu

2021-04-30 12:07:31 +08:00

你给出的方案适用的场景只有一个，网络小说。所谓“盗版者的手段和困境”就是臆想，我一天或者半天换一个号，采集几百章小说，分发到几百个网站，app 上，还有互相采集的，根本不怕你封号，最多用户看小说时多插一些广告。
如果余额，趁还没封号前卖二手，买家买了没多久被封号，你觉得起到反盗版作用了？潜在正版用户都被你恶心走了。