汪骏

Python / 数据挖掘

基本信息


  • 汪骏
  • 硕士
  • Tufts University
  • 2017

联系方式


  • jun.wang0226@gmail.com
  • github.com/JoshuaW1990

技能点


技术栈


  • Flask、Django
  • Python、C/C++、Java, SQL
  • HIVE、Pandas、scikit-learn、自然语言处理

教育经历


  • Tufts University - Computer Science(硕士)2015-2017

    GPA: 3.67 / 4.00

  • Tufts University - Biomedical Engineering(硕士)2013-2015

    GPA: 3.43 / 4.00

  • 西安交通大学 - 材料科学与工程(本科)2008-2012

    GPA: 3.60 / 4.00

工作经历


  • 亚信科技 CMC AS1 East BDX-Shanghai Dept 2018年1月 - 至今

    1、根据手机用户基站的信令数据对手机用户每日的交通出行方式进行分类

    2、对随机森林、logistic regression以及决策树进行调参以提高这几种分类模型的准确率,在经过调参后F-score最高为85%左右

个人项目


  • Bus Arrival Time Prediction

    1、编写了一个可以从网上下载、清洗并预处理数据的python脚本

    2、基于scikit-learn和GPy实现了SVM Regression、Neural Network Regression以及Gaussian Process Regression的模型,并通过cross validation找到最优模型,其mean squared error是0.04

  • 基于Django的网站demo: SportReservation

    1、基于Django、Bootstrap以及PostgreSQL开发了一个可以让用户预约运动设施使用时间的网站demo,并部署到了Heroku上

    2、实现了database schema中一半左右的代码,并提供了对应的Rest API接口
    3、实现并维护整个网站中的用户注册系统和设施预约系统的后端代码,并编写了一个IP Blocker来阻止爬虫

  • DNA-protein binding sites recognition

    1、编写了一个可以通过读取存有分子编号的txt文档来自动下载对应的分子文件并进行数据预处理的Python脚本

    2、基于scikit-learn以及tensorflow实现了朴素贝叶斯分类器、支持向量机分类器以及神经网络分类器、其中支持向量机分类器的识别准确率为90%

  • Sentiment Analysis on Product Reviews

    1、实现了Multinomial Naive Bayes分类器、Bernoulli Naive Bayes分类器,以及基于NLTK的MaxEnt模型

    2、实现了基于隐性马尔科夫链的POS Tagging并对数据集中所有单词进行词性标注,将词性作为特征加入到MaxEnt模型,并利用信息增益进行特征选择,最终MaxEnt模型的识别准确率为88.6%(基准模型的识别准确率为63.5%)

自我评价


热爱编程与学习新技术,有两年多Python的经验以及使用Python和SQL进行机器学习和网站开发的项目经历,了解Java、C/C++并能够基于相关技术进行项目开发,对数据分析有强烈的兴趣,并希望在3年后成为一个可以独立完成各项任务的数据挖掘工程师