noparking188

noparking188

V2EX 第 224910 号会员,加入于 2017-04-07 22:30:30 +08:00
今日活跃度排名 12791
咸鱼,学渣
根据 noparking188 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
noparking188 最近回复了
2 天前
回复了 noparking188 创建的主题 生活 上海也有梅雨季,嘉峪关亦有美食
@qianckjuan 谬赞了老哥,我就看了嘉峪关选调生小作文气不过有感而发,嘲讽一下武大黑奴、文科妓女
在这里问不如去问大头鹰
Streamlit 挺不错的,而且提供免费的类似云上一键部署,分享分布很方便,不过如果复杂的前端展示和交互需求,建议就不要折腾了,很费解不讨好,直接前端写。
我前端时间试了用 streamlit 写了个小 web 应用,哈哈,可以参考: https://navisearch.streamlit.app/
@drymonfidelia 能不能补充,对于这样的数据量,你给的已知条件不够
1. 什么类型的数据,给个 sample ,或类似的 sample?
2. 试过切块压缩后的存储占用吗,比如切 10GB 一块,再行存压缩或者列存压缩后分布占用?
3. 最高有 256G 内存,那么计算资源( CPU 核)能有多少,SSD 读写达到多少?
4. 如果服务器为多台,带宽达到多少?
5. 结果文件是否要求为同样单个 CSV 文件?
6. 处理时间要求多少?
7. 任务为一次性的,还是后续有同样的需求,方案要能复用?

我有个想法可以讨论下:
1. Spark 或者 Hadoop 之类计算框架先做数据预处理,追加行号、数据值编码为整数,切块和压缩后存储(比如 10 GB 一块,parquet 格式 snappy 压缩)
2. 真正的计算任务就是对先前预处理后的数据进行处理,可以用 Spark ,或者 PrestoDB DB 这种 MPP 计算引擎

我想到的主要问题和瓶颈:
1. 数据量太大,还是单个文件,磁盘 IO 是主要耗时,所以要预处理做切块、编码、压缩,减轻任务计算时的 IO 压力;
2. 串行处理无法充分利用计算资源,所以要数据切块分区、利用成熟的分布式计算框架,比如 Spark

感觉这是一个工程问题,重在如何优化。

非常希望你能分享下后续,是否解决了,解决方案,感觉很有意思。
118 天前
回复了 sitong 创建的主题 问与答 大家伙,帮帮我妹妹,我实在是没有办法
校园招聘上会找,抓住校招机会,本地企业单位政府会对这个学校有一定扶持
1. 海外运营(苏州有不少要出海的制造业、科技企业)
2. 苏州本地小学老师,不行就下面县
3. 考研机构助理老师(跟着考研,本校就行,下次校招可以去园区当中学老师)
我就这学校毕业的,有需要可以留个联系方式我帮你问问
你投投专门做数据的公司,技能比较匹配,这些全部都用得上。杭州知道一个微风企,类似这种,找到匹配的企业,直接 25k+ 要。
@kkk9 #18 你谈包工头那就说工地啦,也是个具体实例来讨论你这个大层面,也可以问问各行各业的 v 友,是干活的同事多,还是派活的领导多很多。
你换话题好奇赚多少,实话实说赚多赚少或者亏损都是常事,这是生意。
说实话没理解你的逻辑,思维太跳跃我跟不上。
感谢回复。
@chuck1in #19 江浙沪水电工最低 350 一天
123 天前
回复了 McreeWu 创建的主题 职场话题 怎么应对卷工作时长的新同事?
我觉得他在拍你马屁,刚来不熟多抱你大腿
丁克不谈,现在好多年轻小姑娘都不想生小孩,就算退步结婚了也不坚持不生小孩。唉
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2634 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 06:51 · PVG 14:51 · LAX 23:51 · JFK 02:51
Developed with CodeLauncher
♥ Do have faith in what you're doing.