下午做完了最后的工作——写文档和注释——在快钱的两个月实习就算是全部结束了。其实这项工作可以从六月算起,那时候虽然还没到公司,但现在看起来,日常基本上和在公司工作的时候是一样的。得到这份实习是因为这个学期的操作系统课(我从小学开始就有特别容易和老师混熟的特异功能),李老师介绍了这份实习。其实一开始,我是拒绝的。因为觉得自己对研发(相对于“开发”来说)性的工作不感兴趣,但是暑假又没有别的计划,于是就去面试了。面试的时候吕博给我介绍了工作内容,欣然接受。于是六月就一边应付考试一边准备工作用到的知识,7月2号考试一结束就去上班了。
工作的内容是“文本挖掘”,需要用到自然语言处理(NLP)和爬虫的知识。说的再简单一些,就是公司有一些消费数据,通过这些数据挖掘到更多的信息,给这些数据加上一些能反映用户的消费倾向的信息,进而可以制作用户画像,再进一步就可以做“个性推荐”啦。
这份实习让我学到了不少东西,从一开始没有接触过NLP和Python,现在已经能写出爬虫程序,并且分析文本了。不得不提,我觉得其中最难的是中文编码和中文分词(哭),大多数语言(例如英语,法语,德语)等都是有空格来分词的,但是中日韩文这些亚洲语言,用起来就想这篇文章一样,只有句子之间有间隔,词与词之间是没有间隔的,要多做一份工作。至于中文编码嘛……谁写谁知道,说多都是泪。但是其实最后的成果比我预期的要差,主要是因为我们手里得数据质量太差了,信息有限,只能依靠爬虫去网络上抓取更多信息,但是本来就差的数据,抓回来的也不太高。
对了,上班第一天开的一个会让我现在都记忆犹新,不得不提一下。是一个百分点介绍他们的业务的会议。这是一个专业做大数据的公司,靠在他们的客户网站上挂代码,获得用户行为,在应用到个性推荐上。比如说,你在网站A上浏览了冰箱,那么你下次上B网站,他们就在首页给你推荐冰箱。不仅限于购物网站,新闻网站,门户网站等一切需要流量的网站都有用武之地。这个会议让我对大数据的应用叹为观止,以前就是听说过这么个概念,现在才真正接触到(讽刺的是,人类的一切最新的科技都会首先用在军事和消费上,呵呵)。说起来,我跟朋友们谈这个,他们普遍的反映都是很反感“个性推荐”,觉得这侵犯他们的“隐私”了。我对这个感觉还好,我觉得一个人只要是上网就不存在隐私了,网络上基本所有的数据都是公开的。
公司在浦东浦电路,每天要坐3个半小时地铁来回啊!写代码不累,坐地铁可累死了,而且上下班的时候正是高峰,人特别挤!实习期间经历了公司被万达收购,从陆家嘴投资大厦搬到世纪金融广场,可是距离只变的更远了(哭),给我的经验就是:以后上班宁愿贵一点也一定要住在公司附近,不然太浪费时间了。
说起来我还是蛮认真的嘿嘿,基本上每天来的都很早很早。
新公司某办公室发现了这件旗子——别拦着我!为了部落!
离开学还有十多天,我的假期真正的开始了!我要在这段时间里完成之前写了一半但是没写下去的小玩具,请大家期待吧!这篇文章不谈技术,但是最近我会在博客上写写实习的时候遇到的好玩的东西~