今天去上机器学习的课,其中我觉得可以套用之前学的强化学习,其中P是评估,T是任务,E是经验,就是利用经验来提高相关的评估任务,从数据中学习,从统计机器中学习,其中可以分为有监督的机器学习和无监督的机器学习。
有监督:
①分类问题:输入集合,输出离散。首先假设函数,用已有数据训练,求未知常量,用新数据训练,判断是否拟合
②回归问题:输入集合,输出连续
无监督:
③聚类问题:用数据找相似数据
强化学习:agent通过奖惩来调整下一步动作,一般把一条记录存为列向量,编程的时候再转秩。一般分为训练集和测试集。
代价/损失函数:预测值和真实值的差
损失函数的期望:
往往用经验损失求和来代替期望损失