JustSong Archive Link About
Projects
Categories
Others

Self-taught learning: Transfer learning from unlabeled data

Tag: 论文阅读笔记 Posted on 2020-09-01 23:32:35 Edited on 2020-09-01 23:33:46 Views: 172

Abstract

提出了一种新的称之为“self-taught learning”的机器学习框架,其利用未标记的数据帮助进行监督学习分类任务。

该方法不要求这些未标记的样本与标记样本服从同样的分布。

 

http://ai.stanford.edu/~hllee/icml07-selftaughtlearning.pdf

 

Introduction

带标签的特定图片样本通常难以获取,而任意物体的图片更加容易获取。

该方法受到图片都有一些通用的基本的视觉特征(visual pattern,例如边)的启发。

与传统的半监督学习不同的是,该方法不假设这些未标记的样本可以被分为标记样本的类别。

 

该方法大致分为两步:

  1. 首先只使用未标记的数据学得样本的一个新的 representation
  2. 之后为带标记样本的应用该 representation,之后用于分类任务。

 

Methodology

本文提供了上述框架,并给出了一种实现方法。

 

主要问题在于如何找到一个输入数据的有意义的 higher-level representation.

 

Algorithm 1 Self-taught Learning via Sparse Coding 
input Labeled training set 
Unlabeled data {:ru , ...,ruk } 
output Learned classifier for the classification task. 
algorithm Using unlabeled data {Jul)}, solve the op- 
timization problem (1) to obtain bmses b. 
Compute features for the classification task 
to obtain a new labeled training set T 
where 
= arg mina(i) — + 43 
Learn a classifier C by applying a supervised learning 
algorithm (e.g., S V M) to the labeled training set T. 
return the learned classifier C.

其中提到的优化问题(1):

minimizeb,a — + 3 (l) 
llbj112 l, Hj € l, ...,s

Notation

  1.   指的是第 i 个未标记(unlabel)样本
  2.  是第 i 个未标记样本的以  为基(basis)的 activation
  3.  指的是第 j 个基向量(basis vector),j 的范围为 1 s,即一共有 s 个基向量。

 

注意基向量的个数 s 可以远大于输入 x 的维度 n

 

上述优化目标方程的解释:

  1. 开始的二次项:
    1. 使每一个输入都被较好地重新构造为基向量 b 的带权线性组合。
    2. it encourages the activations to have low L1 norm.
  2. 后一项使激活 a 倾向于变得稀疏(因为是 L1 范数,因此倾向于大部分元素变为 0)。

 

注意:

  1. The optimization over activations a is an L1-regularized least squares problem,
  2. The optimization over basis vectors b is an L2-constrained least squares problem.

 

 

之后对于每一个标记labeled样本 ,求得其新表示:

 

This is a convex L1-regularized least squares problem.

 

求得新的特征表示后,使用诸如 SVM 的有监督学习算法进行学习训练即可。

 

 

PCA 的对比

  1. PCA 只能进行线性的 feature extraction,这里介绍的方法可以学习非线性的 feature extraction function
  2. PCA 假定基向量 b_j 是正交的,因此 PCA 的特征数不能比原输入的维度数 n 还要高,这里介绍的方法没有这个限制。

未经允许,禁止转载,本文源站链接:https://iamazing.cn/