首页   注册   登录
 leiuu 最近的时间轴更新

leiuu

V2EX 第 349618 号会员,加入于 2018-09-14 17:57:02 +08:00
leiuu 最近回复了
看了一下似乎这个是聚合网上的公开新闻报道、评论新闻、公众号文章什么的。可能没啥能量。
找到一个这个,类似这样: http://yuqing.people.com.cn/n1/2019/1203/c429781-31488046.html
10 天前
回复了 Kontinue 创建的主题 程序员 算法工程师就不需要做任何工程的事情吗
如果是「纯研究型」的算法工程师,可以不搞一点工程啊。
不过「纯研究型」的算法工程师,我觉得这个门槛挺高的。
@aalikes95
总体还不错,搜一些词,很多能得到意外之喜。
不过 bug 也比较明显,不少错词。也无法增量更新。
上一次发文发一半那个楼主,被
我是工作 5 年后自己买的。
自从习惯了 mac,再也没用过鼠标。
@elfive
官方的说明是这样的。
Data collection.
Our training data contains large-scale text collected from news, webpages, and novels. Text data from diverse domains enables the coverage of various types of words and phrases. Moreover, the recently collected webpages and news data enable us to learn the semantic representations of fresh words.

Vocabulary building. To enrich our vocabulary, we involve phrases in Wikipedia and Baidu Baike. We also apply the phrase discovery approach in Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches, which enhances the coverage of emerging phrases.

大概是说用了新闻、网页、小说、维基百科、百度百科的数据。
没提到聊天数据,不过新闻网页都有评论数据,可能也是数据来源之一。
@DEANHZED emmmmmmmmmmmm

@devallin 降重可能有其他的方法,这个模型计算词与词之间的相似度好用。句子和句子之间不好直接用。
@nieyujiang 搞错了,重来。
{
"top_similar_words":[
[
"烤串儿",
0.927384614944458
],
[
"羊肉串",
0.894095778465271
],
[
"肉串",
0.8555537462234497
],
[
"烤腰子",
0.8516057729721069
],
[
"撸串",
0.8469321727752686
],
[
"涮串",
0.8465385437011719
],
[
"大肉串",
0.8420960903167725
],
[
"烤肉串",
0.838364839553833
],
[
"牛肉串",
0.8371975421905518
],
[
"烤海鲜",
0.8364357948303223
],
[
"烧烤摊",
0.8351374864578247
],
[
"炸串",
0.8339198231697083
],
[
"烧烤",
0.831093430519104
],
[
"烤羊肉串",
0.8277176022529602
],
[
"各种烤串",
0.8274507522583008
],
[
"烤鱿鱼",
0.8235615491867065
],
[
"烤羊腿",
0.8228681683540344
],
[
"烤猪蹄",
0.8225207328796387
],
[
"烤生蚝",
0.8220213055610657
],
[
"吃串",
0.820912778377533
]
],
"word":"烤串"
}
@nieyujiang
还有呢,烤串相似词:
```json
{
"top_similar_words":[
[
"我觉得 ok",
0.6393940448760986
],
[
"emmmmmmm",
0.6306545734405518
],
[
"hhhh",
0.6229800581932068
],
[
"hhhhh",
0.6225401163101196
],
[
"不存在的",
0.6077110767364502
],
[
"溜了溜了",
0.603063702583313
],
[
"hhhhhhh",
0.6008774638175964
],
[
"emmmm",
0.6002634167671204
],
[
"emmm",
0.5958442687988281
],
[
"emmmmm",
0.592516303062439
],
[
"阿喵",
0.5918310880661011
],
[
"哈哈哈",
0.590988039970398
],
[
"略略略",
0.590296745300293
],
[
"hhhhhh",
0.5870903730392456
],
[
"微笑脸",
0.5860881209373474
],
[
"tan90°",
0.5825910568237305
],
[
"没毛病",
0.5802331566810608
],
[
"233333",
0.5794929265975952
],
[
"我觉得不行",
0.5762011408805847
],
[
"就酱",
0.5751103162765503
]
],
"word":"ojbk"
}
```
@nieyujiang 哈哈 不知道晚上吃啥就用这个模型推荐
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1077 人在线   最高记录 5043   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 11ms · UTC 18:30 · PVG 02:30 · LAX 10:30 · JFK 13:30
♥ Do have faith in what you're doing.