关于更换博客地址

发表于 2018-07-16

Hexo是一个很有意思也很便捷的框架，但是由于工作等等原因，需要频繁地切换电脑乃至电脑里面的操作系统，这对于我更新博客来说（虽然我也不怎么经常更新博客），是一个头疼的问题。因此，暂时决定更换到Leanote提供的博客上，至少在那里，我不用头疼所操作的系统上是否有我的博客源码。
我会将之前的文章一点点搬过去，所以如果发现一个网站名字和这个github账号类似，文章类似，不要奇怪。。。也许只是我本人。

5分钟的word2vec的基本介绍（一）

发表于 2018-07-03 | 分类于个人笔记

word2vec是在自然语言处理中经常需要的工具，本文在此做了简单的介绍，作为自己的个人笔记留存，但尚未在本文涉及底层的算法细节。

阅读全文 »

在spark中使用聚类算法

发表于 2018-04-12 | 更新于 2018-06-30 | 分类于代码笔记

笔者是个hadoop和spark的小白，之前在机器学习方面主要是用python的scikit-learn和pandas库，最近因为工作需要，需要在一个存储在hadoop上的约1000万用户数的数据集做一个聚类模型。而公司服务器上已知的机器学习工具只有spark的mllib，而且还是1.5.1版本。
嗯。。。总不能因为自己一个人的缘故强行要求运维添加各种各样的机器学习框架，只要硬着头皮尝试使用spark。

为了防止在建模过程中走弯路，先抽取了大概50万样本量的数据集在本地机上使用scikit-learn做了算法的测试和调参，确定没有问题以后在按照同样的流程和参数设置在spark中对全量用户做同样处理。

基本流程如下：

提取数据
数据预处理（标准化）
主成分分析
聚类
导出数据到hadoop中

阅读全文 »

SVM公式推导

发表于 2017-12-12 | 更新于 2018-06-30 | 分类于公式推导

支持向量机的公式推导在机器学习的面试中是经常出现的问题，笔者也曾经因为准备不充分然后在面试中没能推导出支持向量机的公式，因此决定在这里整理一下支持向量机最基础的公式推导部分。

阅读全文 »

猫图片识别

发表于 2017-12-09 | 更新于 2018-06-30 | 分类于代码笔记

这是一个实验楼上的简单实例项目，要求使用opencv识别图片中是否有猫的存在。
基本步骤和代码都是来自实验楼，ipython notebook可以在这里查看。

阅读全文 »

条件随机场

发表于 2017-12-07 | 更新于 2018-06-30 | 分类于读书笔记

条件随机场

条件随机场是给定随机变量X，输出随机变量Y的条件随机场，隐马尔科夫模型事实上就是一种线性链条件随机场，因此隐马尔科夫模型中的三个问题在这里同样是讨论的重点。

阅读全文 »

Kaggle: Titanic

发表于 2017-12-01 | 更新于 2018-06-30 | 分类于代码笔记

最近，因为感觉好久没有写代码，面试的时候表现也不佳，所以打算拿Kaggle练练手，积累一些项目经验。因为Titanic是Kaggle的第一个项目，所以决定从这个开始入手。

阅读全文 »

隐马尔科夫模型

发表于 2017-12-01 | 更新于 2018-06-30 | 分类于读书笔记

隐马尔科夫模型

隐马尔科夫模型是一种可用于标记的模型，属于生成模型。主要包括概率计算问题、学习问题以及预测问题，其算法广泛应用于语音识别、自然语言处理、生物信息等等。

阅读全文 »

Hexo+Github搭建个人博客

发表于 2017-11-27 | 更新于 2018-06-30 | 分类于关于博客

网上关于如何用Hexo + Github Pages来搭建静态博客的文章已经有很多了，本文在这里主要只是想单纯地把自己创建博客、修改部分设置的过程记录下来，一来作为自己的备份，二来也供感兴趣的人查阅尝试。

阅读全文 »

EM算法及其推广

发表于 2017-11-27 | 更新于 2018-06-30 | 分类于读书笔记

EM算法的引入

在概率模型中，有时既有观测变量，也有潜在变量，例如在文本挖掘中，具体的字词是观测变量，但是具体的字词背后的词性却是潜在变量。当潜在变量存在的时候，极大似然估计法或者贝叶斯估计模型参数就不能直接使用了，因此有必要使用EM算法。换句话说，EM算法是含有潜在变量的概率模型参数的极大似然估计或者极大后验概率估计。书中仅讨论了极大似然估计。

阅读全文 »