Simon95's recent timeline updates
Simon95

Simon95

V2EX member #511891, joined on 2020-10-10 14:43:43 +08:00
Simon95's recent replies
@lazydog V 站也要搞水军?离谱
@diyer22 DDN 和 RVQ ( Residual vector Quantization )我觉得结合 GPT 在训练时候可能都有一个问题,就是第一层的码本(对应着 DDN 第一个 level )的重建都相当好,但其余码本的效果就比较差。
因为 DDN 好像不同 level 之间也类似于的“残差”?但是在样本空间,而不是在 latent space 。
我就是做语音的,在图像领域最新的论文( Diffusion Transformers with Representation Autoencoders )好像也表示不压缩效果更好。但用 CFM 去做生成的话,好像利用样本空间的分布直接生成的效果不是很好,而用 latent space 的分布更好,我感觉 DDN 的分布更接近于样本空间?
不知道训练的效率怎么样,我找个时间在更大的数据集上跑跑试试。
哇,大佬一个人创新算法,膜拜。还有请教下最近做的工作感觉,FSQ codebook usage 能到 1 ,大佬觉得 VQ-VAE codebook collapse 还是问题吗?
支持,x 关注了,github 星星了。我简单看了下,感觉有点像 RVQ ?
大家意见挺好,我自己也没想好有什么用,做来玩玩。真人录音的付费意愿都很低,AI 现在更平淡。
@midpoint 架构没什么创新的地方就是用播客数据微调的
@metalvest 可以的在点进官网就可以用
@Miller5991 已经更新了,有兴趣可以试试
@sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
@jiayouzl whitenoise 看一下
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2723 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 15:27 · PVG 23:27 · LAX 08:27 · JFK 11:27
♥ Do have faith in what you're doing.