V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  jijiwaiwai  ›  全部回复第 5 页 / 共 5 页
回复总数  99
1  2  3  4  5  
2017-11-07 10:55:04 +08:00
回复了 LastingTime 创建的主题 程序员 为什么爬一些简单的福利站总能引起巨大关注量?
#encoding=utf8
import re
import os
import urllib
import requests
import download_progress
from pyquery import PyQuery

httplib = requests.Session()
# httplib.proxies = {
# "http": "127.0.0.1:1080",
# "https": "127.0.0.1:1080",
# }
httplib.proxies = None

BASE_URL = "http://www.91porn.com"
# BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space"
HOST = BASE_URL.replace("http://", "")
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4",
"Cache-Control": "max-age=0",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l
wwqvsbLKLuC8GzQhovCxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69
831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"
}

def get_vids_v1():
url = "%s/v.php?category=top&viewtype=basic" %BASE_URL
data = httplib.get(url, headers=headers).content
DOM = PyQuery(data)
a_list = DOM("div.listchannel a")
urls = []
for i in range(len(a_list)):
href = a_list.eq(i).attr("href")
if "viewkey" in href:
urls.append(href)
# print href

urls = list(set(urls))
# print "\n".join(urls)
return urls

def get_vids():
url = "%s/index.php" %BASE_URL
data = httplib.get(url, headers=headers).content
DOM = PyQuery(data)
a_list = DOM("div#tab-featured a")
urls = []
for i in range(len(a_list)):
href = a_list.eq(i).attr("href")
if "viewkey" in href:
urls.append(href)
# print href

urls = list(set(urls))
# print "\n".join(urls)
return urls

def get_video_url_v1(url):
data = httplib.get(url, headers=headers, timeout=10).content
data = data.replace("\n", "")
data = data.replace(" ", "")
# print data
"""
<title> xxxx-Chinese homemade video</title>
so.addVariable('file','201812');
so.addVariable('max_vid','202377');
so.addVariable('seccode' , '842fa039535238905a93ccb961e21183');
"""
# print re.findall("so.addVariable.+?so.write", data)

title = re.findall("<title>(.+?)-(.+?)</title>", data)[0]
VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0]
max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0]
seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0]

getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid)
# print getfile_url
"""
file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/>
"""
headers["Referer"] = url
headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207"
headers["Accept"] = "*/*"
headers["Host"] = "*/*"
headers["Connection"] = "keep-alive"

data = httplib.get(getfile_url, headers=headers, timeout=10).content
# print data.strip()
video_url = data.split("&domainUrl=")[0].split("file=")[-1]
video_url = urllib.unquote(video_url)
# print video_url
print VID, title, video_url
return VID, video_url

def get_video_url(url):
data = httplib.get(url, headers=headers, timeout=10).content
data = data.replace("\n", "")
data = data.replace("\r", "")
video_url = re.findall('<source src="(.+?)"', data)[0]
title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0]
# print video_url
print title.decode("utf8")
print video_url
return title, video_url


def download_video(video_url, file_name):
if os.path.exists(file_name):
return True

conn = urllib.urlopen(video_url)
data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report)
f = open(file_name, "wb")
f.write(data)
f.close()



urls = get_vids()
for url in urls:
print "=" * 60
print url
try:
title, video_url = get_video_url(url)
title = title.replace("/", "-")
title = title.replace("?", "-")
title = title.replace(":", "-")
title = title.replace("\\", "-")
title = title.replace("(", "")
title = title.replace(")", "")
title = title.replace("&", "-")
title = title.replace(" ", "-")
title = title.replace("\"", "")
title = title.replace("'", "")

file_name = "downloads/%s.mp4" %(title)
# file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0])
# print video_url
download_video(video_url, file_name)

os.system("echo 11111 >> %s" %file_name)

except Exception as e:
# print e
pass
2017-10-30 10:36:30 +08:00
回复了 dream7758522 创建的主题 问与答 钉钉用那个安卓模拟器可以模拟位置?
FakeGPS 直接装手机上
2017-10-10 13:02:52 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@Sukizen 扣 1223897387
2017-10-10 09:10:17 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@Sukizen 可以的
2017-10-09 21:26:43 +08:00
回复了 chen2016 创建的主题 程序员 写爬虫的时候你遇到过哪些厉害的反爬手段?
@chen2016 你的代码问题
2017-10-09 17:35:23 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@chol 可以对外提供服务,对外开放的接口正在开发
2017-10-09 17:34:44 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@Sukizen 指定 微信公众号 即可进行采集
2017-10-09 15:49:17 +08:00
回复了 chen2016 创建的主题 程序员 写爬虫的时候你遇到过哪些厉害的反爬手段?
你这个办法很笨的。。。
直接使用 pyv8,调用 js 函数获取返回值就行了
2017-10-09 15:14:08 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@takanasi 不会吧
2017-10-09 15:12:32 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@brightguo 自己研究,未公开
2017-10-09 14:32:46 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@mon3 网站右侧“友情链接” 有
2017-10-09 14:32:22 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@est 单帐号足矣
2017-10-09 12:46:55 +08:00
回复了 jijiwaiwai 创建的主题 分享发现 微信公众号文章实时自动采集+自动发布
@est 使用微信协议采集
2017-09-01 16:33:59 +08:00
回复了 zjsxwc 创建的主题 程序员 远程控制手机进行钉钉打卡有哪些方式?
FakeGPS
2017-03-03 18:28:44 +08:00
回复了 longchisihai 创建的主题 Python 怎么识别图片中是否有人像?求思路
深度学习库 keras ,分分钟写一个
浏览器 F12 之后,看到额结果已经是解密了的,不会是加密的
2017-03-02 12:59:14 +08:00
回复了 wkl17 创建的主题 站长 可有人尝试过双重反向代理?因 CloudFlare 不支持自定义源站端口
打造自己的云爬虫; http://www.infosec-wiki.com/?p=308
@NirvanaCN JD 有防爬虫机制,可以切换代理
http://www.infosec-wiki.com/?p=344
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1570 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 17:01 · PVG 01:01 · LAX 09:01 · JFK 12:01
Developed with CodeLauncher
♥ Do have faith in what you're doing.