这个周开始,爬虫的工作应该会告一段落了,《奇葩网站吐槽》系列全四弹也算截止了,enjoy!
前期回顾:
本期内容:
20171207 这是12小时制还是24小时制?
20171213 遇到一个网站,带有很多参数,经过发送请求发现有些是固定的,是我要抓的页面定位的参数,有一些是改变的(很迷,甚至要通过不断向服务器发送一个时间戳保存session的生命),终于写好爬虫之后,过了几天发现这个爬虫没有工作!仔细观察发现,有些参数是按天变的……
这…… json请求有必要吗?而且这i18n……
20171225:第一次见可以带两个//
的url……
1 |
http://splcgk.court.gov.cn/gzfwww//ktgg |
20171228 老哥你这SEO不走心啊
2018年1月5日更:大哥你这个“19月”可坑死我了……
2018年4月3日更新:今天发现一个网页返回的内容变了,不应该啊,打开一看,原来的 url 返回的内容变成了:
1 |
<script language="javascript" type="text/javascript">window.location.href="/zhongdeng/index.shtml"</script> |
JS重定向到 index.html
首页?打开首页一看,首页原来是 HTTP 的,现在重定向到了 HTTPS (还是302状态码,槽点太多了)。
好嘛,用 JS 作 HTTPS 重定向的还是第一次见。
2018年4月10日更新:这网站日期最远的内容排在第一页,今天的内容排在最后一页。所谓“倒序排列”?
我也被最后一页惊呆了
最后这些…都是未来案件吗
开庭日期被排到半年之后开庭实在是太正常了……
20171225:第一次见可以带两个//的url……
http://splcgk.court.gov.cn/gzfwww//ktgg
您好,这个网页返回的json是外文。类似的网站碰到了好几个,求反爬思路万分感谢。
没太看懂你啥意思,这个带 // 的url依然是可以打开的呀