机器学习技法——第1-2讲.Linear Support Vector Machine

本栏目(机器学习)下机器学习技法专题是个人对Coursera公开课机器学习技法(2015)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Techniques中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumltwo-001/lecture)

第1讲——-Linear Support Vector Machine

在机器学习基石介绍的基本工具(主要围绕特征转换Feature Transform)的基础上,延伸成为复杂而实用的模型。一方面,如何更好地运用现有的features以及控制复杂度的问题,产生了SVM(支持向量机)模型;再者,如何构造或者结合出一些具有预测性的feature让整个模型有更好的表现,产生了AdaBoost(逐步增强法)模型;另外,如何学习出隐含的features,这样的想法刺激了早年的神经网络近年发展成为Deep Learning的模型。 继续阅读

2 comments

海量数据挖掘——第1讲.MapReduce and PageRank

本栏目(数据挖掘)下海量数据挖掘专题是个人对Coursera公开课海量数据挖掘(2015)的学习心得与笔记。所有内容均来自Coursera公开课Mining Massive Datasets中Jure Leskovec, Anand Rajaraman以及Jeff Ullman老师的讲解。(https://class.coursera.org/mmds-002/lecture)

第1讲——-MapReduce and PageRank

一、Distributed File System

随着海量数据的I/O与计算需求越来越大,受到带宽与单个CPU计算能力有限的限制,原来的Singles Node Architecture(单CPU,单Memory以及单Disk)已经不能满足需求。这时传统的Cluster Architecture应运而生,如下图所示,用以解决大数据的存储与挖掘。 继续阅读

2 comments

机器学习基石——第15-16讲.Validation

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第15讲——-Validation

一、模型选择问题 继续阅读

发表评论

机器学习基石——第13-14讲.Hazard of Overfitting

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第13讲——-Hazard of Overfitting

从这一节开始,我们开始探讨How Can Machines Learn Better的话题。 继续阅读

1 comment

机器学习基石——第11-12讲.Linear Models for Classification

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第11讲——-Linear Models for Classification

在上一讲中,我们了解到线性回归和逻辑回归一定程度上都可以用于线性二值分类,因为它们对应的错误衡量(square error, cross-entropy) 都是“0/1 error” 的上界。 继续阅读

发表评论

机器学习基石——第9-10讲.Linear Regression

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第9讲——-Linear Regression

从这一节开始,开始涉及到How Can Machines Learn的问题了。

一、Linear Regression问题 继续阅读

发表评论

机器学习基石——第7-8讲.The VC dimension

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第7讲——-The VC dimension

一、VC dimension的定义

VC dimension是什么呢?大家可能猜到了,这是和我们上次讲的VC bound是有些关系的。我们试图给我们之前一直围绕着讲的break point一个正式的名称:the formal name of maximum non-break point。所以可以认为d_vc = ‘minimum k’ – 1。  继续阅读

发表评论

机器学习基石——第5-6讲.Training versus Testing

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第5讲——-Training versus Testing

从这一讲开始,讲的问题就是属于Why Can Machines Learn的范畴了。

一、Hypothesis set大小的重要性

上一讲的一开始我们说Learning好像不可行,后来我们逐步发现Learning在某些条件下是可行的。这些条件就是,Learning的Data符合统计学意义上的某种分布(因此可以映射为从罐子里抽弹珠这样的问题),另外hypothesis set的选择是有限的。这样看起来Learning是可行的。 继续阅读

发表评论

机器学习基石——第3-4讲.Types of Learning

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第3讲——-Types of Learning

上一节讲到如果要回答YES/NO的是非问题,我们可以使用像PLA(感知机)这样的算法,他会在无数多条线里面帮我们找出一个符合训练数据的合适的超平面。那本讲主要探讨在机器学习里面,除了是非问题还有哪些其它的问题,它们与是非问题又有哪些不一样?主要从如下的四个角度来分析:输出空间y、数据标签y(n)、真实的target f以及输入空间x。 继续阅读

发表评论

机器学习基石——第1-2讲.The Learning Problem

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记。所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解。(https://class.coursera.org/ntumlone-002/lecture)

第一讲——-The Learning Problem

一、课程总体

Machine Learning是一个理论与应用混合的工具,本课程则主要是foundation oriented。课程整体分为四个部分来探讨:
1. When Can Machines Learn?
2. Why Can Machines Learn?
3. How Can Machines Learn?
4. How Can Machines Learn Better? 继续阅读

, 发表评论