1.任务 T
机器学习系统应该如何处理样本(example)
样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合
通常会将样本表示成一个向量 x ∈ R n
分类
计算机程序需要指定某些输入属于 k 类中的哪一类
f : R n → {1,...,k} y = f(x)
输入缺失分类
学习算法必须学习一组函数,医疗诊断
回归:
计算机程序需要对给定输入预测数值
转录:
机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式
语音识别
机器翻译:
输入是一种语言的符号序列,计算机程序必须将其转化成另一种语言的符号序列
结构化输出:
结构化输出任务的输出是向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系
异常检测:
计算机程序在一组事件或对象中筛选,并标记不正常或非典型的个体
合成和采样
缺失值填补
去噪
密度估计或概率质量函数估计
2.性能度量 P
准确率(accu-racy)
错误率(errorrate)
3.经验 E
监督学习和无监督学习
设计矩阵(数据集)