奇葩网站吐槽第二弹

很久之前写过一篇《吐槽一些神奇的政府网站》,但是工作中(目前的工作是爬虫)碰到的奇葩网站远远不止这些,后来在那篇文章陆续更新了一些。但是考虑到修改文章不会发送rss feed,而且文章也被更新的越来越长,所以这里拆出来第二弹再发一次吧。而且我相信之后我会碰到更新这种奇葩网站的……估计不知道要写到第几弹。以下按照更新顺序贴出来,文章就不需要承上启下的润色了:


20170616更新:日了狗了,今天又碰到一个神奇的网站,比如某个详情页面如下:

本来是没有什么奇怪的,但是我把url拼起来之后一直是404,然后发现,如果把中文的部分encode两次,就和目标url一样了……日……


20170619更新:日了狗,今天写一个xpath怎么写都不对,看了看发出去的请求,好嘛,都到站外去了。找了半天,终于找到了罪魁祸首。我使用一个标签的id定位的,结果发现,相同id的html标签在这个页面下竟然有五个(没想到吧……像我这么屌的还有四个……)


170627更新:笑死我了,这个网站每次请求都会从相应收到一段cookies,然后就加到请求上去。不是修改,而是一直加一直加,访问几个页面之后,页面就会显示400Bad Request,cookies too big,哈哈哈哈。之前也碰到一个,是post请求不断增加字段,重复的字段越来越多,请求越来越大的…… 这,这应该叫做“饼干泄露”(内存泄露)吧,哈哈


170717更新:在post请求中传SQL语句的……


170802更新:今天要抓一个发布开庭公告的网站,打开一看,很整齐!很规则!很开心有没有!

一看源代码,人都傻了……


170802更新:日了够了,PM给我一个url,结果我发现已经打不开了,但是从主页是可以点进去的。研究了一下,发现这个url里面包含一个session id……

http://www.gzthfy.gov.cn/pa2/wel_3g.seam;jsessionid=04FF3DF586DE3D26555A210796A93B30.nod3?ggbh=91fa6f637dd947819df4c4b45878b514&cid=134752


170802更新:此站通过发送一个AJAX获取下一页的数据,我使用Python模拟发出一样的AJAX,企图在url或者post请求中找到与页码相关的信息改一下。发现此站翻任何一页发送的请求都是一样的!

一毛一样!Form一样、url一样,甚至连他喵的cookie都是一样!

观察一番,发现页码信息是记录在session里面的!也就是说,form里面的乱七八糟的数据(并不知道有什么用)只表示两种信息:往上翻,往下翻。当前你的位置,记录在服务器上(如此反人类,请问管理员你怎么把第二页的url发给你的上司呢?)

还有这种操作。



奇葩网站吐槽第二弹”已经有3条评论

Leave a comment

您的电子邮箱地址不会被公开。 必填项已用 * 标注