感觉 Rime 的分词和搭配很成问题啊

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› RIME | 中州韻輸入法引擎

这是一个创建于 470 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，用的白霜词库，已经快一年了。虽然一直在用，以前就遇到过这些问题但还能忍受，不过最近经常要写一些东西，这方面的困扰明显严重了很多。

比如下面这些句子：

渐渐地就不在意了： jmjmdejqbuzdyile （「不/在意/了」被理解成了「不再/一乐」）

以前就会这样： yiqmjqhvveyh （「以前/就会」被理解成了「一千九/会」）

不管怎么使劲都不行： bugrzfmeuijbdzbuxk （「不管怎么/使劲/都/不行」 => 「不管怎么/是/筋斗/不行」）

无论如何你都不可能再离开这里了： wulyruhenidzbukengzdlikdvelile （「离开/这里/了」 => 「离开/这/离了」）

还有一些可能有些强求的例子，因为即使是别的输入法也可能处理不好。

这不是你该管的事情： vebuuinigdgrdeuiqk

这种方法会更加有用：之所以会出现「游泳」这个搭配可能跟我之前有一阵子经常打「游泳」有关，但是我觉得连词性都判断不出来也不太正常吧……

想问问大家有没有什么好的解决办法？

分词

搭配

词库

40 条回复 • 2025-02-19 02:43:36 +08:00

noisay

2024 年 12 月 14 日

同感，这个好像几个词库的效果都不是很好

omz

2024 年 12 月 14 日 via iPhone

你之所以用不联网的输入法，不就是因为你能接受这些缺陷吗

yukino

2024 年 12 月 15 日

我选择 [小企鹅输入法]( https://github.com/fcitx-contrib/fcitx5-macos/tree/master)

![不管怎么使劲都不行]( https://s2.loli.net/2024/12/15/7eyh8NEkpxuGn3a.png)

Irilsy

2024 年 12 月 15 日

@yukino #3 谢谢老哥，我研究研究。

NoOneNoBody

2024 年 12 月 15 日

好像并没有分词，只是匹配越长优先级越高而已
我这里(养了多年)可以打出“不在意了”，因为词库中有“不在意”

billlee

2024 年 12 月 15 日

RIME 没有语言模型，根本没有分词的能力

docx

2024 年 12 月 15 日 via iPhone

个人觉得词库从自己用了多年的搜狗之类导出，再适应一段时间，就很可以了。大可不必去用什么所谓的三方库。

TrembleBeforeMe

2024 年 12 月 15 日

试试带语言模型的万象拼音 https://github.com/amzxyz/rime_wanxiang_pro

kimizen

2024 年 12 月 15 日

你挂个云输入法就好了 https://github.com/hchunhui/librime-cloud

kimizen

2024 年 12 月 15 日

@TrembleBeforeMe 这个和雾凇比起来如何？

sinzhishuibie

2024 年 12 月 15 日 via Android

用全拼打长句有点给自己找麻烦，我自己打字习惯都是两三个字一打两三个字一打，不管用什么输入法都这样打字

jiaoyidongxi

2024 年 12 月 15 日

搭车问一下，我在 windows 上的每夜版小狼毫，每次更改配置文件后，手动重启完全没反应，只有重新进入 gui 设置界面，换一下自带默认皮肤才会自己重启生效配置。各位有碰到这种情况吗？

Irilsy

2024 年 12 月 15 日

@TrembleBeforeMe #8
@kimizen #9
感谢两位老哥的推荐，我去尝试一下。

@docx #7 谢谢哥提醒，突然想到可以把之前用了很久的搜狗个人词库导入进 Rime 。

@sinzhishuibie #11 只打短语不打句子确实会好一点，但是有时候即使打短语也会有类似的问题（因为即便只有一两个词也可能出现分词错误），而且 Rime 似乎是存在根据词语搭配来调频的策略，打句子都一些时候比打短语会更方便。

@NoOneNoBody #5 我的词库里面也有「不在意」这个词，不过还是会有问题，感觉可能还是「不再」这个词频太高了。

TrembleBeforeMe

2024 年 12 月 16 日

@kimizen #9 https://github.com/amzxyz/RIME-LMDG 下载模型，把 https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E 里面第一行的代码加入使用的*.schema.yml 结尾就行了。

TrembleBeforeMe

2024 年 12 月 16 日

![1.webp]( https://p.sda1.dev/20/bdbf9bbcdcdde62b0ca2f028e7cc971e/1.webp)
![2.webp]( https://p.sda1.dev/20/7793862a47af23c9c149dfc37d3c45fe/2.webp)
![3.webp]( https://p.sda1.dev/20/891faeb694c26acf4885c68dc650b1cc/3.webp)
![4.webp]( https://p.sda1.dev/20/fd570045406dedd406a42bfa5b4e506a/4.webp)

rime-frost 加语言模型后的效果

kimizen

2024 年 12 月 16 日

@TrembleBeforeMe 如果想加入到覆写里怎么改格式呢？不想直接改动原本的方案，我都用的 custom.yaml

TrembleBeforeMe

2024 年 12 月 16 日

@kimizen #14 那就按 patch 格式加到*.schema.custom.yaml 里

kimizen

2024 年 12 月 16 日

@TrembleBeforeMe 的确，连空格都不用修改直接都 custom 里都可以……现在长句子都非常智能完全不用调整词频……

Irilsy

2024 年 12 月 16 日

@TrembleBeforeMe #14 谢谢大佬，这个太强了，我试了很多容易分词错误的或者搭配错误的句子，有一大半加了模型之后表现都好了很多。

而且感觉 100M 的模型和 300M 的模型之间有用差距，比如「能约上吗」在 100M 会被误解析成「能月上马」，300M 就不会有这个问题。

不过感觉模型会受到用户词库词频的干扰，比如我刚刚打了个「上马」，现在不管用哪个模型都会被解析成「(月/约)得上马」了。

TrembleBeforeMe

2024 年 12 月 16 日

@Irilsy #17 我先试着打了「能约上吗」，确实首位候选是「能月上马」；但是当我单独打了一次「约上」之后，100M 的模型首位候选也变成了「能约上吗」。如果电脑性能不错，用 300M 也许更好吧，但 100M 对于日用已经足够了。

yumenaka

2024 年 12 月 16 日

非常好用。只要不是很罕有的句子，都能很容易地匹配到。

Volekingsg

2024 年 12 月 17 日 via iPhone

请教下启动了 grammar 也没有那个正无穷符号，这个是咋开的

Irilsy

2024 年 12 月 17 日

@Volekingsg 那个正无穷符号不是语言模型的，是白霜词库（ rime-frost ）自带的，正无穷符号表示不是挂载的词库和个人词库中的词，而是根据已有词库拼接的；还有星号表示是个人词库中的词（就是之前打过的），没有符号表示是挂载词库中的。参见 https://github.com/gaboolic/rime-frost/issues/12

GabrielS

2024 年 12 月 17 日

1 渐渐地就不在意了
渐渐的就不再一乐
是因为词库里有“就不再”，这种可以考虑后续删掉

2 以前就会这样
一千九会这样
这个无解 rime 会把你的输入分割尽量短。如果打”以前就会“是没有问题的，以前+就会的词频大于一千九+会的词频。但是”以前就会这样“ 会分割成 3 段，"一千九会这样”只有两段。即使 "以前 + 就会 + 这样"的词频大于"一千九会这样“的词频也不行，rime 有限分割成 2 段。

3 不管怎么使劲都不行
这个是正常的，可能是你的用户词频影响了。

4 无论如何你都不可能再离开这里了
这个是正常的，可能是你的用户词频影响了。

5 这不是你该管的事情
这不是你改观的事情
这是因为”改观“的词频大于”该管“，除非上语言模型不然无解

6 这种方法会更加有用
这个是正常的，可能是你的用户词频影响了。

如果你写东西多，其实可以关闭用户词库。或者试试双拼加形，墨奇音形，也是白霜作者做的

kimizen

2024 年 12 月 18 日

用了好几天
反馈一下，万象大模型配合云输入纠错，完全可以和那些在线输入法掰手腕了……

ly1878

2024 年 12 月 19 日

请教各位大佬，小白折腾了一天，看了好几个 git 文档，之前的几处翻页、自定义短语修改都是迷迷糊糊设置，最后测试有效，现在还是没启用成功万象大模型，虽然这个帖子讲了比较明白，https://www.saraba1st.com/2b/thread-2210738-1-1.html ，我还是不懂到底要修改哪个 yaml ，好几个修改了，重新部署还是无效，可以麻烦大佬手把手的指点一下吗？万分感谢，差点要放弃了。我用的是凇鹤拼音，

模糊音设置，试了好几处修改，也没成功，麻烦大佬看下我的帖子，感谢。https://www.v2ex.com/t/1098582#reply0
@GabrielS @Irilsy @NoOneNoBody @TrembleBeforeMe @Volekingsg @billlee @docx @jiaoyidongxi @kimizen @noisay

kimizen

2024 年 12 月 19 日

@ly1878 把万象模型的代码复制到 xhup.schema.yaml 这个文件里或者新建一个 xhup.schema.custom.yaml 覆写

Volekingsg

2024 年 12 月 19 日

@ly1878 #26 新建 double_pinyin_flypy.custom.yaml 填入以下内容
patch:
grammar:
language: amz-v3n2m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2

translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7

ly1878

2024 年 12 月 19 日

感谢两位帮助， @kimizen 不管是加入还是新建都没有效果。 @Volekingsg 还是没有效果。
重新部署还是不行。

kimizen

2024 年 12 月 19 日

@ly1878 你复制的哪里的代码？直接复制作者自己的，别用那个楼主修改的
__include: octagram #启用语言模型
#语言模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7

kimizen

2024 年 12 月 19 日

@ly1878 yaml 要注意空格……https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E
没生效基本大概率是这原因 custom 要注意的坑太多了，你直接复制到 xhup.schema.yaml 里

ly1878

2024 年 12 月 19 日

@kimizen 感谢你的帮助。麻烦你看下我的另一个帖子，https://v2ex.com/t/1098582#reply13 我自认为配置的都正确，会不会是我用的凇鹤拼音输入法，自身配置的问题？ https://github.com/kchen0x/rime-crane

Volekingsg

2024 年 12 月 19 日

@ly1878 #29 自行检查 build 目录下的输入方案是否符合预期

ly1878

2024 年 12 月 19 日

@Volekingsg build 目录怎样是符合预期呢？一直没手动修改这里的文件，一直都是根目录修改的。我看了这么多教程没提到要修改 build 里面的文件啊