卡瓦邦噶！ | 无法自制的人得不到自由。

奇葩网站吐槽第三弹

Posted on 2017年10月24日 by laixintao 2 Comments

本文是吐槽奇葩网站的第三弹，主要是吐槽网站制作者偷懒或者智商低留下的设计缺陷，可能需要一定的web开发知识才能看懂。之前两篇：

170814更新：是一个行政处罚的网站，打开一看，网站给处罚人的身份证打了码，嗯，挺好的，没毛病。

但是打开网络一看……

大哥好歹打码用心一点啊……

20170908更新：一般来说，爬虫都是通过列表页拿到详情页的url，然后主要是从详情页抓数据的。

今天遇到一个列表页的url超级复杂的，根本不知道这些参数怎么得到的。而且请求时不时地返回500（这说明网站开发者也不知道这些参数怎么来的）。网页虽然不是单页应用但写的很烂，嵌套的frame。

就在要放弃的时候，我打开详情页看了一眼……详情页url长这个样子……

http://sgs.credittj.gov.cn/XzcfIdx.aspx?pkid=332065

1	http://sgs.credittj.gov.cn/XzcfIdx.aspx?pkid=332065

这个pkid不就是“primary key id”吗？于是改成1试了一下，果然有数据。大兄弟你列表页的反爬白做了，我直接从pkid=1抓到33w就可以了。

171011更新：今天抓的一个网站上有验证码，不过这个是可以通过机器学习训练模型解决的。有个同事专门负责这个，于是我把这个验证码地址告诉他。奇怪的是，下午继续研究这个网站的时候打不开了…… 后来同事告诉我，他下载验证码太快（4000个），网站挂掉了……

弱不禁风啊。

171024更新：今天遇到一个网站，在meta里面写上了页面的所有内容……大哥您这SEO强势！

20172025更新：复制粘贴编程……

参加中国pycon2017

Posted on 2017年10月23日 by laixintao Leave a comment

今天一天都在浦软大厦听pycon2017的演讲。一天听下来，觉得还是有收获的，演讲质量好坏不一，挑几个我觉得不错的分享一下。

质量比较好的两个长演讲，侯凯老师，分享了爱因互动的搭建对话机器人，介绍了他们公司的架构，问答机器人的基本功能、难点等。包括后端的架构，消息如何路由，如何统一不同平台消息的格式。消息服务主要有消息通道（缩短消息的传输耗时，使用Amazon SQS等）和消息路由（基于消息内容的路由器）。对于IO密集型的任务使用异步Asyncio。但是需要显式的协程切换，对代码的入侵性大（这个之前也有人吐槽，asyncio很有传染性，一不留神整个项目都是异步代码了。另一种方案是Gevents，对代码的侵入性小，可以屏蔽细节，但是缺点是对代码细节的掌控就没有了。

其余的演讲内容是灵活性以及部署上线。这部分我笔记不详细，就不说了。

最后侯凯老师分享了向Python3的迁移的一些经验，鼓励使用Python3.吐槽一下，这竟然是一整天唯一一次听到python3的地方……

达达的廖瑞奇，介绍了达达平台的搭建。达达去年的演讲质量也很高。内容也挺有意思的，主要分了三个部分，包括动态定价，时间预估，路径规划。

动态定价主要是因为供需不平衡，目前美团、滴滴、饿了么等众包平台都有动态定价，目的是为了（优化目标）提高接单率，缩短接单时间。影响一个订单的因素有空间（空间热力图）、时间、天气等，另外订单的因素比如距离、重量、楼层等也会影响供需。

路径规划这个很有意思，是一个NP-hard问题。规划一个路径需要满足1.必须先取件再送件；2.在满足1的情况下总路径越短越好。主要用了遗传算法（启发式算法，比较复杂，解决方案没有听懂……）。

订单指派提到了一个技术，基于地理位置的hash：GEO-hash。

其他的王剑锋老师讲了GOODERP开发历程，这是一个开源的ERP。感觉此人有很深的执念啊，多次被别人劝退（不要开源了）还是走到了现在，佩服佩服。

Ethereum on Python演讲感觉比较乱，有时将区块链原理有时将他们自己的技术，没怎么听明白。感觉如果不明白区块链听了这个演讲也是白听，明白了更是白听。

华为有一个快速演讲，分享了一套能分析Python性能的工具，不过还没开源，听说明年春天能开源。现场还来了CPython唯一的中国core开发者，可惜没有演讲。

其他没啥好说的了。都是一些tensorflow的我也听不懂。pycon被人吐槽了不是一次两次了，主题跟python都没什么关系，哎。

另外本次我唯一想吐槽的就是七牛的姚唐仁，主题是《富媒体机器学习平台搭建》。演讲混乱，语无伦次。一直在重复为什么要机器学习，为什么要用多媒体（富媒体忽悠人的吧），人工审核不过来啊，他能展开说成：如果人工审核，需要多少多少时间，我们有多少数据，用机器学习怎么样，加上用人工…… 巴拉巴拉……。完全没干货！根本没用心准备，就是靠着七牛大厂来吹牛来了。

贴几张活动图片，主办素质还是可以的，真心希望国内的python发展好，那些目的不纯（不是本着分享技术）的演讲还是别来了。

华为大牛定制CPython解释器

抽奖ps4

茶歇蛋糕

志愿者合影

全体参会人员和嘉宾合影

爬虫常用的工具

Posted on 2017年10月21日 by laixintao Leave a comment

前面写过一篇《如何成为一名爬虫工程师》，这篇博文介绍一些写爬虫的神器。比如查看网络请求，模拟网络请求等。本文不会涉及到编程工具例如vim，tmux等（虽然这些工具我也极力推荐，应该人手一份）。

curl

cURL

curl是在命令行用url语法传输文本的工具。用curl可以模拟任何从浏览器发出的请求，并且是以纯文本的形式，所以任何header、cookies都一目了然。有时候你碰到“为什么在浏览器请求能成功，在代码中就不行”的问题时，用curl验证一下是最靠谱的办法。

curl的用法非常简单，curl + "url"就可以向一个url发送请求，显示服务器响应。-H "header"可以给请求加上headers。-i参数可以打印出响应头，大写的-I只打印响应头。-L参数开启301，302跳转等。学习会这些基本就可以上手了，希望详细的了解curl可以阅读《everything curl》这本书（免费书籍：PDF，在线阅读）

一个请求一般带有很多headers，一个一个输入太费劲了，型号，我们可以使用chrome的copy as curl功能。

此命令会将一个网络请求转换成curl放到剪切板，直接在命令行粘贴就可以了。

对了，写爬虫chrome是最大的神器，推荐阅读酷壳的《CHROME开发者工具的小技巧》。

但是如此长的一个命令在命令行上修改起来特别麻烦（要让光标跳来跳去的），所以再推荐一个GUI的模拟发送请求的工具postman。

postman

postman可以让你像在chrome中修改css那样，修改请求的header，cookies等任何东西。除了全平台的app之外，还有chrome app可以用。可以将请求保存下来，下次继续工作的时候可以使用。当然postman也支持从curl粘贴导入，这样我们可以把任意chrome的请求导入到postman。不过地方比较坑，我第一次花了很长时间才找到，在 import > Paste Raw Text （竟然不是Paste cURL）。这里提醒一下，我有一次用postman的请求怎么也不对，但是用curl直接在终端就对了，这说明postman有一些bug，不能完全模拟请求。同事推荐了paw，还没用过，下次用过再谈（好像是mac专用的）。

curl to requests

这是一个在线的工具，可以将curl命令转换成python的requests库代码写成的命令（还支持node和PHP）。这样就省去了很多手工排格式的麻烦操作（其实可以做成vim插件的讲）。

python -m “json.tool”

这是python自带的json库，不用任何安装，直接用echo str | python -m 'json.tool'就可以在终端格式化json（之前我一直傻傻的粘贴到vscode里面……）

可以配合curl使用，直接让返回的json可读。

如果你使用Vim，用Vim打开一个file.json文件，可以直接在buffer中输入:%!python -m 'json.too'来将当前buffer的json内容格式化。非常有用。

EditThisCookie

顾名思义，这是用来修改cookies的。如果你要模拟登陆，可以尝试一个一个删掉cookie看哪一个是起作用的。

Proxifier

写爬虫被封ip是很正常的事情。被封了就得挂代理去访问目标网站。浏览器可以用switch Omega，终端可以用proxychains。但还是有些不方便。p4又有一些bug，并不是所有终端程序都可以走代理的。

这个时候就可以使用proxifier自定义流量规则，甚至可以全局转发到代理，一个都跑不了，非常稳！

暂时就想起来这个多，以后有别的还会在这篇博客更新。

介绍Python2和Python3的兼容库six

Posted on 2017年10月18日 by laixintao 1 Comment

Python2和Python3有很大的不同，six这个库为此提供了一个兼容的方案。使用six写的代码可以不用修改就运行在Python2或Python3上。注意这个six并不是让Python2写的代码兼容Python3，如果你需要迁移工具，那么你要找的是2to3。如果你的代码需要同时需要运行在Python2和Python3上，那么你就需要six！

原理其实很简单，six对Python2和Python3的名字等做了统一，比如Python2的字符串叫str，Python3叫unicode，那么就可以使用six.text_type。如果运行在Python2上，six.text_type就是unicode，如果运行在Python3上，six.text_type就是str。

six库只有一个文件：six.py。这样做可以方便地拷贝到你的项目中。也可以使用pip安装。

pip install six

1	pip install six

（为什么叫six？因为2 * 3 = 6。为什么不是+，因为*更牛逼）

下面讲一下six有哪些功能。

统一了Python2和Python3的类型

如上文提到的，使用six中的类型，能同时在Python2和Python3中正确运行，就不用自己在写代码的时候自己判断到底是Python2的unicode还是Python3的str了！

Python2:

>>> import six
>>> s = u"hello"
>>> type(s)
<type 'unicode'>
>>> isinstance(s, six.string_types)
True

1

2

3

4

5

6

>>> import six

>>> s = u"hello"

>>> type(s)

>>> isinstance(s, six.string_types)

True

Python3

Python 3.6.1 (default, Apr  4 2017, 09:40:21)
Type 'copyright', 'credits' or 'license' for more information
IPython 6.1.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]: import six

In [2]: s = "hello"

In [3]: type(s)
Out[3]: str

In [4]: isinstance(s, six.string_types)
Out[4]: True

1

2

3

4

5

6

7

8

9

10

11

12

13

Python 3.6.1 (default, Apr 4 2017, 09:40:21)

Type 'copyright', 'credits' or 'license' for more information

IPython 6.1.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]: import six

In [2]: s = "hello"

In [3]: type(s)

Out[3]: str

In [4]: isinstance(s, six.string_types)

Out[4]: True

（由于iPython不再支持Python2，所以博主用的REPL for python2是默认的，但是在这里不影响结果）

内部对象属性的重命名

Python3修改了一些解释器内部属性的名字，例如Python2的dictionary.iterlists()在Python3中变成了dictionary.lists()，（讲真我觉得Python3的名字改得好！）。

使用six可以同时兼容这两种名字，但是需要将调用的格式改为 six.iterlists(dictionary, **kwargs)。

全部的名字兼容可以参考文档。（话说我不太明白为什么保留的是Python2的名字，不用Python3的）

移动模块的位置

Python3重新组织了很多模块的位置，例如Python2的HTMLParser，在Python3中是html.parser。

我们可以使用six导入：

from six.moves import html_parser

1	from six.moves import html_parser

其他

其他的内容可以在官方的文档找到，基本上就是通过six来调用，而不是自己对Python判断。包括：

提供了二进制和文本数据的兼容
uniittest assert的兼容
urllib库改动的兼容
高级的自定义move

参考

https://pythonhosted.org/six

我的WordPress全站HTTPS啦

Posted on 2017年10月14日 by laixintao 2 Comments

终于，本站的强制HTTPS已经开启了，所有的HTTP流量都会被强制转向HTTPS。

虽在早在去年我就申请了HTTPS证书，也更换了独立ip支持了HTTPS，但是并没有强制开启HTTPS，因为我发现根据网上的教程设置.htasccess会失败。后来发先用了really simple SSL插件可以做到http://kawabangga.com跳转到HTTPS，还能帮你将站内绝对路径的链接自动换成HTTPS，看起来不错，就没再管。但是一直有一个遗留问题就是，http://www.kawabangga.com是跳不过去的。

今天小红老师帮我调了一下，最后发现了问题所在。不得不说，姜还是老的辣，要是我自己调我觉得永远搞不定。

问题描述：本在在西部数码的虚拟空间上，有独立ip，支持HTTPS访问，但是HTTP访问www不会跳转到HTTPS。

首先，我们按照网上普遍的教程，在.htaccess（这是apache的配置文件）写：

RewriteEngine On 
RewriteCond %{HTTP_HOST} ^kawabangga\.com [NC]
RewriteCond %{SERVER_PORT} 80 
RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R,L]

1

2

3

4

RewriteEngine On

RewriteCond %{HTTP_HOST} ^kawabangga\.com [NC]

RewriteCond %{SERVER_PORT} 80

RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R,L]

会发生无限重定向，浏览器无法打开网页。所以看起来是80端口判断永远为真。然后尝试了各种别的判断条件，比如：

RewriteEngine On
RewriteCond %{HTTPS} off
RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]

1

2

3

RewriteEngine On

RewriteCond %{HTTPS} off

RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]

也还是不行。

这时候，小红老师说，不是条件判断不正确，而是到你机器上的流量永远是HTTP流量。虽然使用了HTTPS协议，但是空间提供商在内网没有必要使用HTTPS（HTTPS有加密过程更加消耗资源），所以内部是使用HTTP传输数据的。HTTPS包到达空间商的时候，空间提供商使用HTTP协议将此包转发到你的虚拟空间上（就是HTTPS外面套了一层HTTP），所以到达apache的流量永远都是HTTP流量，就发生了无限重定向。

这时候我才发现，原来西部数码自己提供了一个设置方法（放在一个不知名的小页面上，坑），如下：

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP:From-Https} !^on$ [NC]
RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R=301,L]      # www.abc.com对应修改为您自已的域名
RewriteCond %{HTTP_HOST} !^www\. 
RewriteRule ^(.*)$ https://www.kawabangga.com$1 [R=301,L]            # www.abc.com对应修改为您自已的域名
</IfModule>

1

2

3

4

5

6

7

RewriteEngine On

RewriteCond %{HTTP:From-Https} !^on$ [NC]

RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R=301,L] # www.abc.com对应修改为您自已的域名

RewriteCond %{HTTP_HOST} !^www\.

RewriteRule ^(.*)$ https://www.kawabangga.com$1 [R=301,L] # www.abc.com对应修改为您自已的域名

</IfModule>

果然，可以发现这里使用的参数是HTTP:From-Https，是自定义的一个参数！

另外还有一个小插曲，多次修改.htaccess的时候，小红老师看见我把所有的参数都删掉还震惊了一下，我自信的说这些我都不知道是什么，没用。于是部署好HTTPS的跳转之后，除了首页所有的页面都404了……

原来我设置了伪静态，.htaccess里面需要做相应的设置的…… 最后的正确配置如下：

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP:From-Https} !^on$ [NC]
RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R=301,L]      # www.abc.com对应修改为您自已的域名
RewriteCond %{HTTP_HOST} !^www\. 
RewriteRule ^(.*)$ https://www.kawabangga.com$1 [R=301,L]            # www.abc.com对应修改为您自已的域名

RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

1

2

3

4

5

6

7

8

9

10

11

12

13

RewriteEngine On

RewriteCond %{HTTP:From-Https} !^on$ [NC]

RewriteRule ^(.*)$ https://www.kawabangga.com/$1 [R=301,L] # www.abc.com对应修改为您自已的域名

RewriteCond %{HTTP_HOST} !^www\.

RewriteRule ^(.*)$ https://www.kawabangga.com$1 [R=301,L] # www.abc.com对应修改为您自已的域名

RewriteBase /

RewriteRule ^index\.php$ - [L]

RewriteCond %{REQUEST_FILENAME} !-f

RewriteCond %{REQUEST_FILENAME} !-d

RewriteRule . /index.php [L]

</IfModule>

终于一切都正常了。这是我一年来的一块心病啊，终于解决了。

博客四年了，停靠在西部数码也有三年了，同事们都对虚拟空间，wordpress这种东西嗤之以鼻，不过我觉得挺好的。这个博客我上来除了写东西之外几乎没有花很多精力维护，有什么问题客服解决的也很及时。虽然有很多坑，但是我觉得VPS的坑更多。况且四年前我的技术维护vps肯定有很多安全问题。这几年来wordpress的写作体验一直在提升，我很满意。对博客的SEO，amp等新技术也支持的比较好。国外的vps速度慢，国内的需要备案，对我来说选择就很有限了。所以综上看来，这几乎是我最好的选择。还是多总结，能给自己带来收获，一年多一百少一百的倒无所谓。

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30