V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
123go
V2EX  ›  算法

超大运算量的实现方案

  •  
  •   123go · 2021-02-20 11:31:12 +08:00 · 1241 次点击
    这是一个创建于 1151 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?

    4 条回复    2021-02-20 17:25:41 +08:00
    faceair
        1
    faceair  
       2021-02-20 11:45:11 +08:00 via Android
    临时租六台云主机,拆分子任务
    czfy
        2
    czfy  
       2021-02-20 11:50:34 +08:00
    本质上就是要投入资源:
    1. 投入人力资源,优化算法,成本是优化算法需要的时间对应的人力成本,当然有可能最后也优化不出来想要的效果,受硬件约束
    2. 投入硬件资源,买服务器,成本是服务器使用费
    lekai63
        3
    lekai63  
       2021-02-20 11:53:13 +08:00
    既然是跑算法。 那看看各家云函数?好像 python 都是支持的。
    云函数易扩展,搞大并发咯
    linkedsh1005
        4
    linkedsh1005  
       2021-02-20 17:25:41 +08:00
    hadoop
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   978 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:35 · PVG 04:35 · LAX 13:35 · JFK 16:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.