|
本帖最后由 萧阳天 于 2016-5-14 21:41 编辑
血蜘蛛写的不错,但是里面判断的东西太多,而且加上那么多处理事件()--一点用都没有啊大哥,正则判断网页编码那块还有利用对象转换编码 经常有问题,我都遇到过好几次所以改了下;自己感觉还可以,版主看下吧
更改说明:
1.去掉了所有的处理事件()-没用
2.增加人工判断网页编码--大大提高了效率
3.删除正则
4.删除原来的对象转码,转用精易的 编码_Utf8到Ansi()-这个方式我一直用,很稳定
5.删除网站用户名 密码--几乎用不到
6.删除代理的用户名 密码--几乎用不到
|
网页_访问S | 文本型 | | |
网址 | 文本型 | | | | 访问方式 | 整数型 | | | | 提交信息 | 文本型 | | | | 提交Cookies | 文本型 | | | | 返回Cookies | 文本型 | | | | 附加协yi头 | 文本型 | | | | 返回协yi头 | 文本型 | | | | 禁止重定向 | 逻辑型 | | | | 代理地址 | 文本型 | | | | 超时时间 | 整数型 | | | | 返回重定向 | 文本型 | | | | 返回状态文本 | 文本型 | | | | 是否UTF8 | 逻辑型 | | | |
变量名 | 类 型 | 静态 | 数组 | 备 注 | 局_URL结构 | URL_COMPONENTS | | | 局_网页地址 | 字节集 | | | 局_域名 | 文本型 | | | 局_端口 | | | | 局_重定向地址 | 文本型 | | | 局_HTTPS | 逻辑型 | | | 局_会话句柄 | 整数型 | | | 局_User_Agent | 文本型 | | | 局_代理名称 | 字节集 | | | 局_会话类型 | | | | 局_连接句柄 | | | | 局_请求句柄 | | | | 局_访问方式 | 文本型 | | | 局_页面地址 | 字节集 | | | 局_设置超时 | | | | 局_请求标记 | | | | 局_请求协yi | 文本型 | | | 局_请求报头 | 字节集 | | | 局_数据长度 | 整数型 | | | 局_提交数据 | 字节集 | | | 局_可读长度 | 整数型 | | | 局_缓存数据 | 字节集 | | | 局_网页数据 | 字节集 | | | 局_网页内容 | 文本型 | | | 局_文本数组 | 文本型 | | 0 | 局_计次 | 整数型 | | | 如果 (WinHttpCheckPlatform ()) 局_URL结构.dwStructSize = 60 连续赋值 (-1, 局_URL结构.dwSchemeLength, 局_URL结构.dwHostNameLength, 局_URL结构.dwUrlPathLength, 局_URL结构.dwExtraInfoLength )局_网页地址 = 编码_Ansi到Unicode (网址 )如果 (WinHttpCrackUrl (局_网页地址, 取字节集长度 (局_网页地址 ), 0, 局_URL结构 )) 局_域名 = 编码_Unicode到Ansi (指针到字节集 (局_URL结构.lpszHostName, 局_URL结构.dwHostNameLength × 2 )) 局_页面地址 = 选择 (局_URL结构.dwUrlPathLength < 1, 编码_Ansi到Unicode (“/”), 指针到字节集 (局_URL结构.lpszUrlPath, 局_URL结构.dwUrlPathLength × 2 ) + 指针到字节集 (局_URL结构.lpszExtraInfo, 局_URL结构.dwExtraInfoLength × 2 ) + { 0, 0 })局_端口 = 局_URL结构.nPort 局_HTTPS = #INTERNET_SCHEME_HTTPS = 局_URL结构.nScheme 局_会话类型 = 选择 (取文本长度 (代理地址 ) > 0, #WINHTTP_ACCESS_TYPE_NAMED_PROXY, #WINHTTP_ACCESS_TYPE_NO_PROXY )局_代理名称 = 选择 (取文本长度 (代理地址 ) = 0, { 0, 0 }, 选择 (局_HTTPS, 编码_Ansi到Unicode (代理地址 ), 编码_Ansi到Unicode (“http=” + 代理地址 )) )局_会话句柄 = WinHttpOpen (0, 局_会话类型, 局_代理名称, 0, 0 )如果 (局_会话句柄 ≠ 0 )局_连接句柄 = WinHttpConnect (局_会话句柄, 编码_Ansi到Unicode (局_域名 ), 局_端口, 0 )如果 (局_连接句柄 ≠ 0 )局_访问方式 = 选择 (访问方式 < 0 或 访问方式 > 3, “GET”, 多项选择 (访问方式 + 1, “GET”, “POST”, “HEAD”, “PUT”)) 局_请求句柄 = WinHttpOpenRequest (局_连接句柄, 编码_Ansi到Unicode (局_访问方式 ), 局_页面地址, 0, #WINHTTP_NO_REFERER, #WINHTTP_DEFAULT_ACCEPT_TYPES, 选择 (局_HTTPS, #WINHTTP_FLAG_SECURE, 0 )) 如果 (局_请求句柄 ≠ 0 )局_设置超时 = 选择 (超时时间 > 0, 超时时间 × 1000, 30000 )如果 (WinHttpSetTimeouts (局_请求句柄, 局_设置超时, 局_设置超时, 局_设置超时, 局_设置超时 )) 局_请求标记 = 选择 (是否为空 (提交Cookies ), #WINHTTP_OPTION_DISABLE_FEATURE, #WINHTTP_OPTION_ENABLE_FEATURE )如果真 (WinHttpSetOption (局_请求句柄, 局_请求标记, #WINHTTP_DISABLE_COOKIES, 4 ) = 假)返回状态文本 = “708 禁止自动设置Cookies失败!”WinHttpCloseHandle (局_请求句柄 )WinHttpCloseHandle (局_连接句柄 )WinHttpCloseHandle (局_会话句柄 )返回 (“”)如果真 (禁止重定向 )如果真 (WinHttpSetOption (局_请求句柄, #WINHTTP_OPTION_DISABLE_FEATURE, #WINHTTP_DISABLE_REDIRECTS, 4 ) = 假)返回状态文本 = “709 重定向设置失败!”WinHttpCloseHandle (局_请求句柄 )WinHttpCloseHandle (局_连接句柄 )WinHttpCloseHandle (局_会话句柄 )返回 (“”)如果真 (取文本长度 (附加协yi头 ) > 0 ) 局_请求协yi = 附加协yi头 + #换行符 如果真 (寻找文本 (局_请求协yi, “User-Agent: ”, 1, 真) = -1 )局_请求协yi = 局_请求协yi + “User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)” + #换行符 如果真 (寻找文本 (局_请求协yi, “Accept: ”, 1, 真) = -1 )局_请求协yi = 局_请求协yi + “Accept: text/html, application/xhtml+xml, */*” + #换行符 如果真 (寻找文本 (局_请求协yi, “Accept-Encoding: ”, 1, 真) = -1 )局_请求协yi = 局_请求协yi + “Accept-Encoding: gbk, GB2312” + #换行符 如果真 (寻找文本 (局_请求协yi, “Accept-Language: ”, 1, 真) = -1 )局_请求协yi = 局_请求协yi + “Accept-Language: zh-cn” + #换行符 如果真 (寻找文本 (局_请求协yi, “Content-Type:”, , 假) = -1 )局_请求协yi = 局_请求协yi + “Content-Type: application/x-www-form-urlencoded” + #换行符 如果真 (寻找文本 (局_请求协yi, “Cache-Control: ”, , 真) = -1 )局_请求协yi = 局_请求协yi + “Cache-Control: no-cache” + #换行符 如果真 (寻找文本 (局_请求协yi, “Cookie: ”, , 真) = -1 )如果真 (取文本长度 (提交Cookies ) > 0 )局_请求协yi = 局_请求协yi + “Cookie: ” + 提交Cookies + #换行符 局_请求报头 = 编码_Ansi到Unicode (局_请求协yi )局_数据长度 = 取字节集长度 (局_请求报头 ) ÷ 2 - 1 如果 (WinHttpAddRequestHeaders (局_请求句柄, 局_请求报头, 局_数据长度, 位或 ( #WINHTTP_ADDREQ_FLAG_ADD, #WINHTTP_ADDREQ_FLAG_REPLACE )) )局_提交数据 = 到字节集 (提交信息 )局_数据长度 = 取字节集长度 (局_提交数据 )如果 (WinHttpSendRequest (局_请求句柄, 0, 0, 局_提交数据, 局_数据长度, 局_数据长度, 0 )) 如果 (WinHttpReceiveResponse (局_请求句柄, 0 )) 局_缓存数据 = { }局_网页数据 = { }判断循环首 (WinHttpQueryDataAvailable (局_请求句柄, 局_可读长度 )) 如果真 (局_可读长度 < 1 )跳出循环 ()局_缓存数据 = 取空白字节集 (局_可读长度)如果真 (WinHttpReadData (局_请求句柄, 局_缓存数据, 局_可读长度, 局_数据长度 ) = 假)返回状态文本 = “713 读取数据失败!”跳出循环 ()局_网页数据 = 局_网页数据 + 取字节集左边 (局_缓存数据, 局_数据长度)判断循环尾 ()局_缓存数据 = { }局_数据长度 = 0 WinHttpQueryHeaders (局_请求句柄, #WINHTTP_QUERY_RAW_HEADERS_CRLF, 0, 局_缓存数据, 局_数据长度, #WINHTTP_NO_HEADER_INDEX )局_缓存数据 = 取空白字节集 (局_数据长度 )如果真 (WinHttpQueryHeaders (局_请求句柄, #WINHTTP_QUERY_RAW_HEADERS_CRLF, 0, 局_缓存数据, 局_数据长度, #WINHTTP_NO_HEADER_INDEX )) 返回协yi头 = 编码_Unicode到Ansi (局_缓存数据 )返回状态文本 = 取文本中间 (返回协yi头, 10, 寻找文本 (返回协yi头, #换行符, 10, 假) - 9 )返回协yi头 = 子文本替换 (返回协yi头, “Set-Cookie”, “Set-Cookie”, , , 假)局_文本数组 = 分割文本 (返回协yi头, #换行符, )计次循环首 (取数组成员数 (局_文本数组 ), 局_计次 )如果真 (寻找文本 (局_文本数组 [局_计次 ], “Set-Cookie”, , 假) ≠ -1 )判断 (寻找文本 (局_文本数组 [局_计次 ], “;”, , 假) ≠ -1 )返回Cookies = 返回Cookies + 删首尾空 (文本_取出中间文本 (局_文本数组 [局_计次 ], “Set-Cookie:”, “;”)) + “; ”返回Cookies = 返回Cookies + 删首尾空 (子文本替换 (局_文本数组 [局_计次 ], “Set-Cookie:”, , , , 假)) + “; ”如果真 (文本比较 (取文本左边 (局_文本数组 [局_计次 ], 10 ), “Location: ”, 假) = 0 )返回重定向 = 取文本中间 (局_文本数组 [局_计次 ], 11, 取文本长度 (局_文本数组 [局_计次 ]) - 10 )处理事件 ()计次循环尾 ()返回Cookies = 取文本左边 (返回Cookies, 取文本长度 (返回Cookies ) - 2 )如果真 (取反 (是否为空 (提交Cookies )) )网页_Cookie合并更新 (提交Cookies, 返回Cookies ) 如果 (是否UTF8 )局_网页内容 = 编码_Utf8到Ansi (局_网页数据 )局_网页内容 = 到文本 (局_网页数据 )返回状态文本 = “712 服务器未响应!”返回状态文本 = “711 发送请求失败!”返回状态文本 = “710 设置协yi头失败!”返回状态文本 = “705 设置超时时间失败!”
|
|