1
talentsnail 2013-01-17 11:03:12 +08:00
同样没有基础的孩子也在巧代码,不过执行力比你差多了,好多简单的功能各种拖延,还在进行中。
|
2
lusin 2013-01-17 11:08:20 +08:00
请问什么写的呢,做到这个程度(包括数据收集)用了大概多长时间
|
4
n00b1 2013-01-17 11:17:43 +08:00
没基础在敲的算我一个,赞lz执行力
|
5
anyforever 2013-01-17 11:17:45 +08:00
做的不错。
|
6
laoyuan OP @lusin
就是家里的开发机,10M家用光纤。也是php写的,不会多线程就多开几个页面一起跑,初始数据收集一家商城差不多四五天吧,现在可以保证48小时内全部价格更新一次。 |
7
Bob 2013-01-17 11:27:10 +08:00
你这个没有采集淘宝商城的吧 会写函数不错哇 写出来的代码我都看不懂 面壁去了
|
9
laoyuan OP 数据收集不用什么配置,如果不保存数据直接 update 到线上的话,树莓派也搞得掂!
|
10
n00b1 2013-01-17 11:39:49 +08:00
lz非攻城狮吗?不知道你的爬虫咋学的呢?有分享下学习经验吗?感谢~
|
12
manoon 2013-01-17 13:06:15 +08:00 via Android
谢谢lz给我们这些有拖延症的人带来了动力
|
13
thedevil7 2013-01-17 13:18:10 +08:00
没人吐槽这个域名么... jia BIBI
|
15
iTea 2013-01-17 13:32:16 +08:00
楼主真乃神人也!~
|
16
liuxurong 2013-01-17 13:35:05 +08:00
标题是.... 土炮练成记?
不过这种执行力强的人不敢小看,1年后或许就会成高手 |
17
xiongbo 2013-01-17 13:38:37 +08:00
向楼主致敬
|
18
laoyuan OP 绝对土炮,到现在没见过正式的 PHPer 编的 PHP 是啥样子-_-!!
我早期写的全是用空格来缩进的,一次用两个,现在用tab,不过我也不知道应该用哪种! |
19
cougar 2013-01-17 16:08:00 +08:00
赞楼主。。。
|
20
tedd 2013-01-17 16:16:23 +08:00
楼主有博客记录历程啥的吗?一定很精彩
|
21
lusin 2013-01-17 17:38:21 +08:00
另外想请教一下同一商品在不同的网站通过什么去匹配呢?
比如http://www.jiabibi.com/product/1000700196/,同一个洗衣机,但在不同的商城可能货号不一样,标题也不一样,通过什么确定获取到的信息是同一商品呢? |
22
laoyuan OP 没有博客,很久以前写过,感觉越写越装B!
商品的归并有一定的算法,最后人工审核,不可能完全靠程序完成匹配,否则尼玛成人工智能了。这个工作每天都在进行,因为人工审核的速度有限。 |
23
cooiky 2013-01-17 19:58:49 +08:00
每天自动发文章?这个是怎么手工发的?
看了下价格历史数据,好像去去年十一开始的? |
24
laoyuan OP 文章当然是人工发的。
感觉有黑客光顾。。。刚才我登FTP,结果提示我人多登不上,我ftp最多在线人数设的3人。。。 |
25
lusin 2013-01-17 23:02:25 +08:00
@laoyuan 网上找到这方面的资料比较少,可以请教下算法的大概思路吗?(或者楼主是从什么途径学习的呢?)
还以这个http://www.jiabibi.com/product/1000700196/链接中产品为例,“Midea美的面包机EHS15AP-PW(电脑版/15分钟断电记忆/13小时精准预约/您身边的面点专家)"标题这么长,主要关键字就是:美的、EHS15AP-PW这两个,如何去匹配呢? |
26
laoyuan OP 这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。
首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。 确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~ |
27
gjk1992 2013-01-18 11:04:07 +08:00 via Android
看过我之前的帖子么,我也研究比价算法,求交流合作,大三学生
|
28
sohoer 2013-01-18 11:25:25 +08:00
|
30
sohoer 2013-01-18 15:23:53 +08:00
才刚刚解决抓取,慢慢来,不过我是JAVA平台,有很多第三方库,不需要什么都自己造应该会快很多
你48小时更新一次没竞争力啊,现在有很多比价的一般一天也会更新几次 |
31
laoyuan OP 嗯嗯,加网线~~
|
32
laoyuan OP 搞JAVA的,NLP么?洋枪对土炮,燃!战!
|
35
laoyuan OP LS,这是在中国。。。。
|
38
cooiky 2013-01-20 13:27:57 +08:00
价格那个图片识别是用的什么库?
|
39
laoyuan OP 我相信没有任何一个做比价的网站是从图片识别价格的。
|
40
lala 2013-01-21 04:28:27 +08:00
刚开始能做到这程度已经是非常的impressive了,这个idea是可以赚钱的,而且有相当的可能性。。。。
|
43
laoyuan OP 当然是一手数据,直接从电商网站取啊
|
45
laoyuan OP 实在不行就从头开始呗。。。对于动态列表性质的我一般把列表页html保存到本地,然后5天或10天更新一次,当然这东西不存也无所谓,就在数据库里建个表呗,抓过的把时间update一下。
|
46
shiny 2013-01-21 14:46:43 +08:00
|
47
laoyuan OP LS上硬货了,虽然我不是用这种方法,不过条条大路通罗马~
|
48
laoyuan OP 再次出现ftp连接满的情况(限3连接),查了下日志,原来不是黑客,有机器对21端口暴破而已,同时3个线程验证密码,就给占满了,换个端口立刻清静~
|
49
firsthym 2013-01-24 17:45:04 +08:00
|
51
reverland 2013-02-16 18:34:59 +08:00
赞楼主,写什么类,楼主那是用php函数式编程
|
52
bigdude 2013-05-17 21:40:51 +08:00
赞楼主的执行力,比价这个idea我也有,自己也敲敲打打研究了不少了,可是成品还没有,都不想为自己的懒惰开脱了。看看楼主,真是惭愧
|
53
wheatcuican 2013-12-02 17:18:08 +08:00
楼主,缺书网也是你的么?
|
54
laoyuan OP @wheatcuican 多明显啊,看我ID就知道了,现在主要就是做缺书网,感觉做百货比价还需要酝酿酝酿,有计划的推进,现在缺书网是想到啥做啥
|
55
wheatcuican 2013-12-06 13:07:10 +08:00
@laoyuan 缺书网蛮好的,挺实用。有一个小建议:可以定期推荐一本书。
|