用 Scrapy 框架爬的,目前可以通过情感分析判断一本书的翻译质量。
方法是筛选一条评论里是否含有“翻译,原著,英文”等词汇,如果有的话,就判断情绪积极程度,然后给书籍的翻译质量打分。目前结果来看是可行的,基本可以有个大致判断。
但是既然爬下来了这么多数据,能做的也不仅仅只是这一点,可以做个词云,相关书籍推荐等功能,将更多隐含的信息可视化。但是总的功能类似,就是从大量数据中挖掘出隐含的对用户有帮助的信息。只是目前不知道取什么名字比较好,这周就要定题目了。V 友们方便帮忙取个名字吗?
还有,本人已经拿到了 Offer,不过不是计算机行业的,编写 Chrome 插件可能还需要再去买服务器,用 Flask 框架写 API 。既然工作重心不在计算机行业上了,也想过只写成一个 Python 程序,在本地输入书籍链接再在本地输出信息。V 友们对于这一想法有什么建议吗?
1
Jiers 2020-12-01 17:19:56 +08:00
程序可私聊一下
|
2
laminux29 2020-12-01 17:29:38 +08:00 31
所以毕设是毕业入狱指南?
|
3
MakeItGreat 2020-12-01 17:34:41 +08:00 via Android 1
21 天精通从入学到入狱
|
4
LoNeFong 2020-12-01 17:38:36 +08:00 3
居然不进来卷, 感动
|
5
Tink 2020-12-01 17:46:37 +08:00 1
|
7
13936 OP 前辈们给点建议啊喂,想取个好点的名字呢
|
8
TimePPT 2020-12-01 17:50:39 +08:00
自己玩玩得了,开放出来弄不好就吃豆瓣律师函。
|
9
Lemeng 2020-12-01 17:51:42 +08:00
发布出来?同学要想清楚啊
|
10
haoxuexiaoyao 2020-12-01 17:56:58 +08:00
打包发我网盘
|
11
hunk 2020-12-01 17:59:03 +08:00
豆瓣,我试过 30 秒一次,很快就被 ban 了。
楼主是用啥办法?我能想到唯一的对策是付费代理。 |
12
galikeoy 2020-12-01 18:08:32 +08:00 10
羡慕,刚毕业就搞了张长期饭票
|
13
dorothyREN 2020-12-01 18:09:09 +08:00
我在爬影评
|
14
codingadog 2020-12-01 18:10:11 +08:00 via Android
羡慕,坐等楼主衣食无忧
|
15
bushenx 2020-12-01 22:04:44 +08:00 via Android 1
羡慕,刚毕业就不用考虑租房子的事情了。
|
16
euph 2020-12-02 01:16:45 +08:00 via iPhone
就叫,爬虫,从入门到入狱吧
|
17
comsweetcs 2020-12-02 01:21:49 +08:00 via iPhone
厉害了,豆瓣法务部门明天估计会找你,然后是👮♀️,然后……
|
18
hearlessnor 2020-12-02 01:22:52 +08:00 via iPhone
笑死了 hhhhhhh
|
19
PhyllisLin 2020-12-02 01:24:28 +08:00 via Android
打包发我邮箱📬,谢谢同学。🐶
|
20
felixcode 2020-12-02 02:23:34 +08:00 via Android 1
你朝这个方向越努力,进去的越快,鲁迅说过,方向比努力更重要。
|
21
yingfengi 2020-12-02 06:23:31 +08:00 via Android
毕业入狱指南
|
22
wyfyw 2020-12-02 07:13:04 +08:00 1
上面那些入狱的,玩笑开过了。
楼主可以开发这个插件自己使用。只要数据停留在本地,搞科研发文章,想怎么搞就怎么搞。 如果上了云、建了站,不说豆瓣,光说书评的作者,他们有授权你使用书评做任何事情吗? |
23
futou 2020-12-02 07:17:48 +08:00
豆瓣已经不是小公司了,你指导老师也是无知,你也是大胆...
|
24
iloveayu 2020-12-02 07:25:11 +08:00 via Android
免费饭
|
25
zqx 2020-12-02 07:35:51 +08:00 via Android
豆瓣有免费的开放 API,为什么还要爬虫呢
|
26
dyeed 2020-12-02 08:47:42 +08:00
巧了哈哈,我毕设是爬的豆瓣电影哈哈哈,人还在哈哈
|
27
gitjavascript 2020-12-02 08:51:14 +08:00 1
羡慕,刚毕业就学到了吃牢饭的技能
|
28
daimiaopeng 2020-12-02 08:52:30 +08:00
真羡慕,刚毕业就包吃包住
|
29
shroxd 2020-12-02 08:58:10 +08:00 via iPhone 1
好家伙,刚毕业就有保镖了
|
30
Juszoe 2020-12-02 09:12:33 +08:00 via Android
楼主好好听一听楼上的建议,私下研究就算了,千万别上云做成服务
|
31
fhsan 2020-12-02 09:21:45 +08:00
做论文,你是想被抓起来吗,
|
32
LiuSha 2020-12-02 09:23:17 +08:00 via Android
这东西私下研究就好了
|
33
huzy8002as 2020-12-02 09:24:25 +08:00
真羡慕,刚毕业就包吃包住
|
34
madpecker009 2020-12-02 09:25:56 +08:00
@laminux29 哈哈哈 你这也太草了
|
35
tikazyq 2020-12-02 09:28:39 +08:00 4
《基于高并发数据采集框架的自然语言处理数据挖掘》
|
36
13936 OP https://book.douban.com/robots.txt
豆瓣的爬虫协议一直都没说书评不能爬,我也不当做盈利用途,不明白是否真的有法律风险。 非常感谢各位 V 友们的建议,太爱你们了,感谢#22 楼和#35 楼的实用性建议。 既然开放出来可能有风险,我就做个本地的吧,自己一个人用。当毕设应该没问题。还不用架设服务器。 |
38
ooxxcc 2020-12-02 09:59:59 +08:00 via iPhone 1
|
39
fo0o7hU2tr6v6TCe 2020-12-02 10:04:46 +08:00
就叫 <<被指控指南>> 吧
|
40
ooxxcc 2020-12-02 10:08:23 +08:00 via iPhone 1
|
41
lujie2012 2020-12-02 10:12:36 +08:00
good luck ! 豆瓣律师函在路上了。
最怕没有脑子的野路子程序员 |
42
wmhx 2020-12-02 10:32:44 +08:00
前几年也爬了 30 多万的 小短文, 后来也爬了近 20 万的图片, 都忘记放到网盘哪个位置了.
|
44
xingshu1990 2020-12-02 10:57:45 +08:00
讲个事情,原先在其他什么地方看到关于 NLP 的事情,里面提到了部分语句的分词案例:
“导演你给我进来,我保证不打死你” “我也想过过过儿过过的生活。” “过几天天天天气不好” “你也想犯范范范玮琪犯过的错吗” 这个还没涉及到词性 我在想 楼主是怎么解决这些中文特有的语句。 |
47
AlexSLQ 2020-12-02 11:31:29 +08:00
2019 年 8 月 20 日更新
在使用豆瓣网( www.douban.com ,包括电脑端及移动客户端等)之前,请务必仔细阅读本声明,本声明的发布主体为豆瓣网的运营主体,即北京豆网科技有限公司(以下简称“豆瓣”)。 任何直接或间接(包括但不限于通过站外 API 接入等其它形式)使用豆瓣网服务或数据的行为,都将被视作已无条件接受本声明所涉全部内容或服务;若使用人(包括豆瓣网注册用户)对本声明(包括但不限于知识产权、信息和数据、免责声明)的任何条款有异议,请停止使用豆瓣所提供的全部内容和服务。 一、知识产权 1 、豆瓣网注册用户(以下简称“用户”)发布在豆瓣网的原创文章、评论、图片等内容的知识产权均归用户本人所有。 2 、用户通过转载、复制、截图等方式获取他人内容,并发布在豆瓣网的,相关内容的知识产权属于内容的权利人,用户不得侵犯他人知识产权及其他合法权利。因用户发布内容引发知识产权纠纷的,用户须自行承担相应后果,若因此造成豆瓣损失的,豆瓣有权依照法律规定维护合法权益。 3 、豆瓣网展示的豆瓣标识、版面设计、排版方式、文本、图片、图形等受著作权法、商标法、专利法及其它法律保护的部分,未经豆瓣书面同意,不得在任何其他平台发布、使用,或出于发布、使用目的的改编、修改,或用于其他商业及非商业目的。 4 、豆瓣不对用户发布内容的知识产权权属进行保证,并且尊重权利人的知识产权及其他合法权益。若权利人认为豆瓣网用户发布的内容侵犯自身的知识产权及其他合法权益,可依法向豆瓣(联系邮箱: [email protected] )发出书面通知,并应提供具有证明效力的证据材料。豆瓣在书面审核相关材料后,有权根据《中华人民共和国侵权责任法》《信息网络传播权保护条例》等法律法规及豆瓣《社区指导原则》,在不事先通知相应发布用户的情况下自行删除相关内容,并保留相关数据。 5 、豆瓣根据上述第 4 条删除相关内容的,相应发布用户如存在异议,可依法向豆瓣发出关于被删除内容不侵权的书面说明,并提供具有证明效力的证据材料。豆瓣在书面审核后,将根据实际情况依法进行处理。 6 、豆瓣鼓励原创,并尽最大努力为用户自主创作并发布于豆瓣网的内容提供保护,用户可在发表日记、长评、相册等内容时开启原创内容版权声明。如用户发布于豆瓣网的原创内容遭受来自第三方平台或其用户的侵犯,用户可通过“豆瓣站外侵权投诉通道”(目前仅支持部分平台)进行维权。豆瓣可以在获得用户授权后协助用户进行维权。豆瓣的维权权利不影响用户另行授权第三方进行维权,豆瓣将在收到用户通知后,停止维权权利的行使。 二、信息和数据 1 、除特别说明或者法律另有规定外(包括但不限于我国著作权法、商标法等知识产权法律以及豆瓣网《法律声明》中“知识产权”部分对相关权属的规定),豆瓣网公开的全部信息或数据的其它权益归属于豆瓣。 豆瓣网所公开的全部信息或数据包括但不限于:网站架构、程序设计、程序代码、页面设计、图片、图形、文字、音频、视频以及包括但不限于读书、电影、音乐等条目信息及其对应评分、评论、评分数量、标记记录、话题内容,小组内容等。 2 、除法律另有规定之外,在未取得豆瓣书面许可前,任何第三方不得将豆瓣网的任何公开信息或数据以任何目的进行任何形式的使用,包括但不限于: (1)商业性使用; (2)以可能损害豆瓣利益的方式对豆瓣网读书、电影、音乐等条目信息、评分或评论的使用、引用以及展示; (3)对豆瓣网内容的衍生利用,包括但不限于基于或利用豆瓣网内容而开发的任何插件、软件、应用程序、网站; (4)第三方以任何形式盗取、拷贝用户账号信息,或采用诱导、要求用户提供账号名称及密码等方式登录用户账号,或对用户主页、ID 信息、账号信息的其它使用;或以上述方式取得用户账号登录信息、ID 信息、主页信息后,以任何手段复制、转载、抓取豆瓣网内容; (5)侵犯或可能侵犯豆瓣利益的数据采集、网络爬虫或类似的数据收集以及数据摘录等; (6)在其它网站、应用程序、服务或商品中使用豆瓣的商标、标识或其他豆瓣专有信息(包括图像、文字、数字、网页设计或形式); (7)其它可能侵犯豆瓣合法权益的行为。 3 、如需使用豆瓣网所公开的信息或数据,请联系豆瓣(邮箱:[email protected] )并取得相应的授权。对于任何违反上述声明的行为,豆瓣保留追究其法律责任的权利。 |
48
hjw45611 2020-12-02 11:37:31 +08:00
多大点事,发个邮件问问豆瓣不就得了
|
49
paloalto 2020-12-02 12:06:14 +08:00
|
50
tesguest123 2020-12-02 12:10:40 +08:00 via iPhone
@futou 彦语怎么讲,撑死胆大的饿死胆小的
|
51
naix1573 2020-12-02 15:24:39 +08:00
不懂就问,拆词做情感分析的这个,例如“不满意”,怎么能避免拆分成“不”+“满意”,像这样的情况不少,之前用了几个的效果都不太好,不知道你是怎么处理的~
|
52
LearningToCode 2020-12-02 16:11:48 +08:00
21 天精通 Python: 从入门到入狱
|
53
Felldeadbird 2020-12-02 16:55:08 +08:00
你都写扩展了,可以将数据本地存储在用户 浏览器。然后通过分布式去做计算。
|
54
sonxzjw 2020-12-02 17:25:12 +08:00
魔兽 mt 玩多了吧?
嘲讽拉 boss 准备跑几年尸体? |
55
2088TXT 2020-12-02 17:44:40 +08:00
有关部门肯定会联系你 唉走好~
|
56
urobot 2020-12-02 22:17:55 +08:00
以前的话,可以直接豆油你瓣的 cto 问问
|