很久之前写过一篇《吐槽一些神奇的政府网站》,但是工作中(目前的工作是爬虫)碰到的奇葩网站远远不止这些,后来在那篇文章陆续更新了一些。但是考虑到修改文章不会发送rss feed,而且文章也被更新的越来越长,所以这里拆出来第二弹再发一次吧。而且我相信之后我会碰到更新这种奇葩网站的……估计不知道要写到第几弹。以下按照更新顺序贴出来,文章就不需要承上启下的润色了:
20170616更新:日了狗了,今天又碰到一个神奇的网站,比如某个详情页面如下:
1 |
http://www.cebpubservice.com/ctpsp/jsp/trade/xxgkxq.jsp?schemaVersion=V60.02&businessKeyWord=tenderProject&tenderProjectCode=0748-1740CA2034IQ000&transactionPlatfName=%25E5%25BF%2585%25E8%2581%2594%25E7%2594%25B5%25E5%25AD%2590%25E6%258B%259B%25E6%25A0%2587%25E6%258A%2595%25E6%25A0%2587%25E5%25B9%25B3%25E5%258F%25B0&platformCode=E1100000084 |
本来是没有什么奇怪的,但是我把url拼起来之后一直是404,然后发现,如果把中文的部分encode两次,就和目标url一样了……日……
20170619更新:日了狗,今天写一个xpath怎么写都不对,看了看发出去的请求,好嘛,都到站外去了。找了半天,终于找到了罪魁祸首。我使用一个标签的id定位的,结果发现,相同id的html标签在这个页面下竟然有五个(没想到吧……像我这么屌的还有四个……)
170627更新:笑死我了,这个网站每次请求都会从相应收到一段cookies,然后就加到请求上去。不是修改,而是一直加一直加,访问几个页面之后,页面就会显示400Bad Request,cookies too big,哈哈哈哈。之前也碰到一个,是post请求不断增加字段,重复的字段越来越多,请求越来越大的…… 这,这应该叫做“饼干泄露”(内存泄露)吧,哈哈
170717更新:在post请求中传SQL语句的……
170802更新:今天要抓一个发布开庭公告的网站,打开一看,很整齐!很规则!很开心有没有!
170802更新:日了够了,PM给我一个url,结果我发现已经打不开了,但是从主页是可以点进去的。研究了一下,发现这个url里面包含一个session id……
http://www.gzthfy.gov.cn/pa2/wel_3g.seam;jsessionid=04FF3DF586DE3D26555A210796A93B30.nod3?ggbh=91fa6f637dd947819df4c4b45878b514&cid=134752
170802更新:此站通过发送一个AJAX获取下一页的数据,我使用Python模拟发出一样的AJAX,企图在url或者post请求中找到与页码相关的信息改一下。发现此站翻任何一页发送的请求都是一样的!
一毛一样!Form一样、url一样,甚至连他喵的cookie都是一样!
观察一番,发现页码信息是记录在session里面的!也就是说,form里面的乱七八糟的数据(并不知道有什么用)只表示两种信息:往上翻,往下翻。当前你的位置,记录在服务器上(如此反人类,请问管理员你怎么把第二页的url发给你的上司呢?)
还有这种操作。
Pingback: 爬虫工程师是干什么的? – 林清猫耳
Pingback: Spiderman的必备技能 – HCHL
Pingback: 爬虫工程师是干什么的 - 算法网