想学Python,却不知道如何系统的入门?网上资料鱼龙混杂,不知道怎么分辨?有问题没人指教?没人陪你一起学?其实,这些通通都不是问题...
Python爆红背后的原因是什么?为什么身边的小伙伴都开始学习Python?怎样零基础开始学习这门语言?学习难点在哪里?DT财经特邀纽约数据科学学院讲师张泽宇,为你们一一解答这些问题。
火爆的Python语言
国外的StackOverflow(DT君注:StackOverflow是一个与程序相关的IT技术问答网站。用户可以在网站免费提交问题,浏览问题,索引相关内容)网站上,Python已经是增长速度最快的语言,并且将可能在2020年成为最流行的语言。
最近Python从Python2转型到Python3,很多小伙伴因此遇到问题,这可能是StackOverflow网站中提问数激增的原因之一。
而在Github(DT君注:gitHub是一个面向开源及私有软件项目的托管平台)中,在2014年JavaScript是目前排名第一的语言,Java排名第二,Python排名第三,而随着Python的流行,现在Python的排名上升到了第二位。
JavaScript是目前网页开发的首选语言,有非常多有用的框架,但是更新非常快,不利于新手学习。另一方面,Python也从Python2更新到了Python3。因此两种语言都各有优劣势。
去年有则新闻引起了关注,其中提到Python语言将被加入高考科目,可见这门语言被越来越重视。
在国内,数据分析的工作需求量非常大,Python作为数据分析的头号语言,因此也越来越受欢迎。国内很多数据都是杂乱无章的,比如医学分析报告,由很多病患的化验结果拼接在一起,如果需要从中提取有用的数据,就需要用Python去处理。
Python学习中的难点在哪里?零基础怎么破?
Python是“入门易,精通难”的语言。跟C++等语言比起来,Python的语言非常精简,有时候解决一个问题需要十行C++代码,而Python只需要一行。
那么零基础学员如何入门?泽宇老师推荐了两个预习课程:在Codecademy网站和Github网站上完成基础课程后,再参加纽约数据科学院的训练营会更加顺利。(DT君注:Codecademy,是一家国外在线学习编程知识的网站)Codecademy网站是非常适合新手来练习,在这个网站可以边学边练,网站会反馈代码的正误。
在美国有两个学习代码的理念:Learn by coding、Keep your hands dirty。因此,想要学会Python,一定要亲自动手敲代码。为了保证学习的效果,训练营要求学员先在Codecademy上通过Python相关的练习,才能开始参与训练营。
另外,在GitHub网站上还有一个目录“awesome-python”,里面有很多教程,包括数据分析、数据可视化、机器学习、自然语言处理和网络开发等,涵盖了Python可以应用的所有领域。
泽宇老师额外分享了一个小技巧:在Github上搜索“awesome-想学的语言”,如“awesome-java”,就可以找到对应的目录。
听老师讲再多,最实在的还是自己去完成一个项目。经验都是一个坑一个坑踩出来的,在训练营熬得每一个通宵都会有回报。
DT财经数据侠计划 与 纽约数据科学学院(NYC Data Science Academy) 联合发起数据侠Python训练营,旨在打造中国最系统、最优质的数据科学类训练营!
训练营课程亮点在哪里?
英文原版课件翻译
训练营的课件用的是纽约教育局认证的英文原版课件,授课用中文。用英文原版课件的原因有两个:其一,Python代码要求用全英文;其二,学员在StackOverflow和Github上提问时,只有熟悉Python的英文名词,才能使问题被人理解。
纯干货,不废话
泽宇老师说自己的教学风格偏向于“相声流”,类似早年非常流行的新东方英语罗永浩老师的教学风格,非常注重跟学生互动。他打趣说心中理想的授课方式是直播,学员可以随时发弹幕提问,还能给他双击“666”和刷火箭。
训练营的所有课程都是对项目有帮助的,不浪费学员宝贵的时间。学员还可以到纽约数据科学院的网站上浏览往期学员做的几百个项目,满满都是干货。
有同学可能会问,课程亮点这么多,是不是上完就一定能找到工作?泽宇老师讲了一个小段子:当年罗永浩老师在开老罗英语培训的时候,演讲说国内英语培训有三大流派:第一个是神奇派,比如神奇速记,英语神奇记忆千法;第二个是N天搞定派,十七天搞定GRE单词,17天突破托福作文;第三个流派是不不不派,学英语单词不用背,英语单词不再背。但是纽约数据科学院不会做这种“十天搞定Python”的课程。
有一个训练营的毕业生给出了这样的评价:“训练营就像一个放大镜,比如说一个十倍的放大镜,你投入一块钱得到十块钱,投入十块钱得到一百块。”所以学员投入的时间以及精力越多,自然而然得到的回报也会越多。
往期学员项目
泽宇老师分享了往期学员的项目。
其中,学员抓取了招聘网站Glassdoor中美国各大城市的招聘信息,然后进行简单的薪水分析,可以看到加州和圣何塞的薪水比纽约还要高。但是加州的税率以及房租也会比纽约高,所以最后到手的工资不一定比纽约的高。在这样的案例中,老师会建议学生再抓取一些生活成本、税率等其他方面的统计数据,综合分析出到底哪个城市最适合数据科学家找工作。
在这个项目中,该同学还做了词频分析。可以看出各大科技公司的主打产品和语言,比如苹果公司的关键词是Siri和机器学习,亚马逊的关键词是AWS云计算服务,脸书的主打语言是PHP,谷歌主打Cloud和安卓,微软主打Azure。
有同学可能会问:到公司工作的时候会用到网络爬虫吗?公司里面不是有内部数据和现成的数据吗?其实好数据是要花很大价钱去买的。
举一个具体例子,训练营上一期和美国的最大的锁具制造企业Masterlock合作,他们提供数据和要求,训练营的学生分组给他们做一些类似于咨询的服务,这样学生在毕业之前可以接触到大公司的真实数据,了解到大公司对数据科学工作的要求。
Masterlock非常关心自己在各个电商的评价,希望训练营的学生做一个爬虫软件,每天定时从亚马逊上抓取过去24小时内的新评论。对抓取到的新评论,要先做数据清理,接着运用一些自然语言处理的技术来处理,比如深度学习里面的递归神经网络技术。
最后,生成报告告诉Masterlock,这条评价是关于什么的,比如说锁的颜色、安全性等。用爬虫软件代替人工来读评论,这就是用数据科学和机器学习改变公司处理数据的方式。
Python更高级的应用
学会用Python做数据分析之后,可以参加Kaggle数据分析竞赛。(DT君注:Kaggle是一个数据分析的竞赛平台:企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案)
比如泽宇老师正在参加桑坦德银行的一个客户价值预测比赛,它的奖金有6万美金。这个比赛会解决一个实际问题,其中不会把敏感数据的含义公布出来,这样就不会造成数据泄露问题。
Kaggle最近前段时间被google收购了。现在网站上每年会有将近上百比赛推出,有的是预测两个商品的相似度,或者预测哪条生产线会有更大的概率出现事故。比赛运用到的数据包括数字、文字和图片相关的数据。现在有很多中国学生参加上面的比赛,可以在排行榜上看到很多中文的ID。
纽约数据训练营的学员在Kaggle的比赛中获得过很好的成绩,拿到过不少银牌和铜牌,泽宇老师拿到过一些金牌和银牌。在Kaggle上拿奖会在以后找工作时有帮助,参与的项目在简历上是一个有利的加分项。
Python还可以应用在图像识别上。比如下图中识别图片中是狗还是猫。图像识别更进一步的应用是无人驾驶汽车。
上层建筑一定要有底层基础,把基础打牢了之后才有能力去挑战更高难度的任务。
(注:以上内容根据张泽宇在数据侠线上实验室的演讲实录整理。图片来自其现场PPT。本文仅为作者观点,不代表DT财经立场)
好文章,点个赞
版权提示
转载第一财经商业数据中心原创稿件,请于文首标明来源、作者,并保持文章完整性。非第一财经商业数据中心原创稿件,未经许可,任何人不得复制、转载、或以其他方式使用。如需转载或以其他方式使用稿件内容,请联系CBNData客服DD-4(微信ID:CBNDataDD4)