本文是吐槽奇葩网站的第三弹,主要是吐槽网站制作者偷懒或者智商低留下的设计缺陷,可能需要一定的web开发知识才能看懂。之前两篇:
170814更新:是一个行政处罚的网站,打开一看,网站给处罚人的身份证打了码,嗯,挺好的,没毛病。
但是打开网络一看……
大哥好歹打码用心一点啊……
20170908更新:一般来说,爬虫都是通过列表页拿到详情页的url,然后主要是从详情页抓数据的。
今天遇到一个列表页的url超级复杂的,根本不知道这些参数怎么得到的。而且请求时不时地返回500(这说明网站开发者也不知道这些参数怎么来的)。网页虽然不是单页应用但写的很烂,嵌套的frame。
就在要放弃的时候,我打开详情页看了一眼……详情页url长这个样子……
1 |
http://sgs.credittj.gov.cn/XzcfIdx.aspx?pkid=332065 |
这个pkid
不就是“primary key id”吗?于是改成1试了一下,果然有数据。大兄弟你列表页的反爬白做了,我直接从pkid=1
抓到33w就可以了。
171011更新:今天抓的一个网站上有验证码,不过这个是可以通过机器学习训练模型解决的。有个同事专门负责这个,于是我把这个验证码地址告诉他。奇怪的是,下午继续研究这个网站的时候打不开了…… 后来同事告诉我,他下载验证码太快(4000个),网站挂掉了……
弱不禁风啊。
171024更新:今天遇到一个网站,在meta里面写上了页面的所有内容……大哥您这SEO强势!
20172025更新:复制粘贴编程……
最后这个一般seo不这样,但是这样做除了无效,还有什么影响呢?
没什么副作用吧,毕竟用户看不见。SEO不是加description的meta的嘛?不过这个效果肯定好不到哪去 > < 只是觉得很搞笑。