Hexo是一个很有意思也很便捷的框架,但是由于工作等等原因,需要频繁地切换电脑乃至电脑里面的操作系统,这对于我更新博客来说(虽然我也不怎么经常更新博客),是一个头疼的问题。因此,暂时决定更换到Leanote提供的博客上,至少在那里,我不用头疼所操作的系统上是否有我的博客源码。
我会将之前的文章一点点搬过去,所以如果发现一个网站名字和这个github账号类似,文章类似,不要奇怪。。。也许只是我本人。
5分钟的word2vec的基本介绍(一)
发表于
|
分类于
个人笔记
word2vec是在自然语言处理中经常需要的工具,本文在此做了简单的介绍,作为自己的个人笔记留存,但尚未在本文涉及底层的算法细节。
在spark中使用聚类算法
发表于
|
更新于
|
分类于
代码笔记
笔者是个hadoop和spark的小白,之前在机器学习方面主要是用python的scikit-learn和pandas库,最近因为工作需要,需要在一个存储在hadoop上的约1000万用户数的数据集做一个聚类模型。而公司服务器上已知的机器学习工具只有spark的mllib,而且还是1.5.1版本。
嗯。。。总不能因为自己一个人的缘故强行要求运维添加各种各样的机器学习框架,只要硬着头皮尝试使用spark。
为了防止在建模过程中走弯路,先抽取了大概50万样本量的数据集在本地机上使用scikit-learn做了算法的测试和调参,确定没有问题以后在按照同样的流程和参数设置在spark中对全量用户做同样处理。
基本流程如下:
- 提取数据
- 数据预处理(标准化)
- 主成分分析
- 聚类
- 导出数据到hadoop中
Kaggle: Titanic
发表于
|
更新于
|
分类于
代码笔记
最近,因为感觉好久没有写代码,面试的时候表现也不佳,所以打算拿Kaggle练练手,积累一些项目经验。因为Titanic是Kaggle的第一个项目,所以决定从这个开始入手。
Hexo+Github搭建个人博客
发表于
|
更新于
|
分类于
关于博客
网上关于如何用Hexo + Github Pages来搭建静态博客的文章已经有很多了,本文在这里主要只是想单纯地把自己创建博客、修改部分设置的过程记录下来,一来作为自己的备份,二来也供感兴趣的人查阅尝试。