| Mi Manchi = yuan = Whatever is worth doing at all is worth doing well

# 第一集

好那这个现在要讲的是 meta learning 啊这是这一门课最后一个主题了那什么是 meta learning 呢 mea 这个词汇又是什么意思呢 mea 这个词汇啊如果你要翻成中文的话通常会翻译成圆哪个人呢就是一元复始那个圆那 meta learning 这个 meta 到底是什么意思呢当你说一个东西是 meta x 的时候代表说这个东西是 x 的 x 所以 meta learning 从他字面的意思来看就我这边说什么叫 made a learning made a learning 就是 learn to learn 如果翻译成中文的话所以这个 may learning 呢跟我们之前讲的 machine learning 已经是另外一个层次的东西了拿来作为这堂课的收尾刚刚好就我们要迈向下一个领域想想看你在这门课的作业都在做什么事情啊也许你的朋友觉得你在做很潮的东西在门口有很多很潮的作业比如说呃动画人物的生存啊比如说翻译啊比如说玩 atari 的游戏啊等等然后你的指导教授知道说 machine learning 背后有很多数学那你自己呢这个图的意思就是你觉得自己很强了啊希望你觉得有有觉得自己很强但事实上你在做的事情是什么呢事实上你就要调参数对不对你大部分的时候 deep learning 就是在调 hyperparameter 我其实不会否认这件事 deep learning 就是就是不能不调 hyperboremeter 那条 hyperparameter 真的是一件非常烦的事情决定什么 network 的架构啊决定 learning ray 啊等等真的是一件很烦的事情那有什么好方法来调 learning rate 呢

实际上没有什么好方法来调这些 hyperparameter 今天业界最长拿来解决条 hyperparameter hyperparameter 的方法呢就是买很多张 gpu 了哦对业界来说他们劝 model 的时候就像是这个翻车鱼一样一次训练多个 model 那有的串不起来就丢掉最后只看那些可以串起来的 model 他会得到什么样的 performance 所以在业界啊你做实验的时候往往就是一次开个 1000 张 gpu 1000 张 gpu 跑 1000 组不同的 hyperparameter 看看哪一组 hyperparameter 可以给你最好的结果好但是在学界呢在学界哇你没有 1000 张 gpu 其实我这边说业界用 1000 张 gpu 这个都是低这其实都是低估他们使用的 gpu 的量啊然后这个 flag 那些大公司在才买 gpu 的时候他们的单位都是用万来算的这次要买 3 万张 gpu 这种等级啊所以这个呃业界今天在 deep learning 上的规模呢真的是跟学界是不太一样啊很高兴一次可以用 1000 张 gpu 回来就突然不知道怎么做实验了啊因为在学校每个人只有一张 gpu 所以那怎么办呢通常这个时候你只能通点而祈祷说啊凭着你的经验跟直觉定义组好的 hyperparameter 祈祷这种 hyperparameter 可以给你好的结果但是有没有更好的方法来决定这些 hyperparameter 今天既然我们说我们在做的是 machine learning 机器可以自动选出一个 model 那 hyperparameter 能不能用学的呢 learning rate 啊 network 架构啊这些东西能不能直接用 ln 的根据 data 去把

它认出来呢这就是 made a learning 其中一个可以帮助我们的事情好那在讲 made a learning 之前呢你打电话你等一下会发现说 made a learning 最基本的想法跟 machine learning 最基本的想法其实并没有非常大的差异好 machine burning 到底在做什么呢我们这边要讲的东西跟我们第一堂课讲的是一模一样的所以就首尾呼应我们用 meta learning 做节首尾呼应回不过来我们到底讲了些什么第一堂课的时候我告诉你说什么是 machine learning machine learning 就是找一个 function 比如说你要做一个影像辨识的系统怎么办找一个 function 输入是一张图片输出是影像辨识的结果那我们说 machine learning 就是三个步骤还记得吗第一堂课就告诉你 machine learning 就是三个步骤第一个步骤是什么第一个步骤是第一个 function 这个 function 里面有一些未知的参数在 deep learning 这个领域里面所有未知参数的 function 其实就是一个 network 而 network 里面的 weight 和 bias neural 的 weight 和 bias 就是这些未知的参数它们是准备要被学出来的那在这门课里面呢我们通常用 set up 来表示这些准备要被学出来的参数那一个 network 呢在这堂课里面我们常常把它写成下标 $\theta$ 代表说 network 本身是一个 function 这个 function 里面有一些参数这些参数我们用 $\theta$ 来表示它这是第一步

1668772010859

第二步是什么第二步是我们要定义一个 loss function 哦这个 loss function 是一个未知参数 theta 的 function 把 c 大代入 lost 我们就知道这个赛是好还是不好怎么定这个 loss function 呢那你需要有一些训练资料这些训练资料需要有 label 那你把这些训练资料假设是要做影像辨识的话就把这些图片丢到某一个 function 里面由 sea 所 parameterized 的那个 function 里面看看他会得到什么样的输出再跟你的正确答案算一下距离我们通常如果是分类问题就算 cross entrob 把每一个 example 的 cross entrop 通通都加起来就是我们的 loss

1668772152127

那第三步呢第三步就是要找一个 setup 这个 setup 可以让 loss 越小越好所以我们会写一个这样的式子我们就是要找一个 c 这个 c 可以让 capital l 越小越好这个可以让 loss 最小的 setup 我们用 sea star 来表示它那要怎么解这个问题呢啊在这堂课里面我们用的都是 gradient descent 找出赛道 star 然后就结束了啊你有一个赛大 star 就有一个 fc 大二那你就可以拿 fk 大 star 来做你想要他做的事情你就可以拿 f cup star 来做影像的分类这个这个是我们在第一堂课就跟大家讲过的内容好接下来我们进入 meta learning

1668772197668

一个 machine learning 的 awm 你把它简化来看其实它就是一个 function 这个 function 我们用大写的 f 来表示它这个方向的输入是什么这个方程的输入不是一张图片而是一个 data set 你把你的训练资料丢到这个 function 里面它输出什么他输出训练完的结果假设我们要训练的是一个 classifier 那这个 function 就是吃训练资料作为输入输出就是 classify 我们要拿来分类的那个 classify 有了这个 classify 以后你就可以把测试资料丢进去然后希望他输出来的结果是我们要的所以一个 learning algorithm 它是一个 function 我们这边用大 f 来表示它而它的输入就是训练资料它的输出是另外一个 function 它的输出是一个 classify 那这个大 f 这个方程是怎么来的呢它是 handcrafted 所谓 hand crafted 的意思就是他是人定的它是人想出来的我们今天的这些 learning album deep learning 啊然后 gradient descend 啊等等都是人想出来的那我们能不能够直接学这个 function 呢我们能不能够用 machine learning 的概念来学这个方式呢并没有那么异想天开想想看在 machine learning 里面我们是怎么找一个 function 的透过我们讲的三个步骤在 meta learning 里面其实我们要找的也是一个 function 只是这个 function 跟 machine learning 一般要找 function 不一样我们要找的 function 是一个 learning equism 但是我们也可以透过在 machine learning 里面学过的三个步骤

1668772508548

来想办法把这个 learning 的 album 找出来这个就是 made a learning 要做的事情好我们在这边看一下有没有同学要问问题的他并没有像办法像翻车鱼一样翻车鱼就是每次都会生好几亿个卵嘛然后只要有其中一只翻车鱼活下来就好了那就我所知对不对它好像没有办法也是生产很多的后代诶就是这样好那我们刚才说 machine learning 透过三个步骤来找 function 那 made a learning 透过三个步骤来找 learning alism 第一个步骤是你的 learning alism 里面要有一些要被学的东西我就像在 machine learning 里面我们说 neuron 的 weight 和 bias 是要被学出来的那在 learning over 里面有什么东西是要被学出来的呢那就看你什么东西你想要让机器自己帮你决定那那些就是要被学出来的东西在 deep learning 里面你可能会考虑想要自动学出 network 的架构你可能会考虑想要学初始化的参数那你可能会考虑想要学 learning rate 那这些我们之前都是啊让机器自己决定但是呃不是之前说错了之前我们都是人自己决定的这些什么 network 的架构啊 learning rate 啊那个是你自己设的你会设不同的参数看看哪一个参数可以得到最好的结果现在我们期待他们是可以被学出来的我们把这些在 learning average 里面我们想要他学的东西啊统称为 f 哦之前我们是用 set up 来代表一个 function 里面我们要学的东西那我们现在用 file 来代表一个 learning equism 里面

1668772635926

我们想要他学的东西我说一个 learning aid 在接下来的投影片里面我们都把它写成 f 和 f 下标方代表说这个 learning algorithm 里面有些是未知的有发这个参数它是未知的好那其实不同的 mata learning 的方法他就是想办法去学不同的呃 component 它就是想办法去学一个 learning equisite 里面不同的 component 当我们去学不同的 component 的时候我们就有了不同的 meta learning 的方法好那第二步呢第二步我们说定一个 loss function 这个 loss function 会决定说某一组参数它有多好那现在我们的 loss function 在 made a learning 里面我们的 loss function 就是要决定一个 learning equism 它有多好那我们这边用同样用大 l 来代表这个 loss function 大 l 的 fine 就代表说现在这个 elm 用来作为这个参数的这个 album 它到底有多好如果 l of five 哦它的值很小肉很小就代表它吃的好的 learning algm 反之它就是一个不好的 learning algm 但是我们要怎么决定这个大 l 呢在一般的 machine learning 里面我们说大 l 来自于训练资料在 meta learning 里面大 l 是如何决定的呢我们的训练资料是什么呢在 made a learning 里面我们收集的是训练的任务假设你今天想要训练一个 binary 的 classify 想要训练一个二元的分类器那你要准备很多二元分类的任务诶我们就要准备很多二元分类的任务举例来说啊你有一个任务一个任务一呢就是要分别苹果跟橘子的差别哦你有一个任务二它就是要分别从跟脚踏车的差别

1668772892573

1668772990614

1668773038264

1668773155076

1668773171629

而每一个任务里面我们都会有分训练资料跟测试资料哦所以这个 may have learning 呢它是有点复杂的我们有训练的任务每一个任务里面有训练资料有测试资料好那接下来我们就是要来定这个大 l 应该长什么样子好我们怎么知道一个 album 好不好呢那就把某一个任务里面的训练资料拿出来给这个 album 学看看好所以我们有一个任务一任务一是分辨苹果跟橘子我们就把任务一里面的训练资料拿出来丢给这个 learning egm 那就会学出一个 classify 我们这边用 fc 打这个上标一二来代表说啊这个是任务一的 classify 他的工作呢是分辨苹果跟橘子它是根据这个 learning algism 它找出来的最好的 classifi 好那我们怎么知道这个 classify 好不好呢如果这个 classify 是好的那就代表我们的 el 规则是好的反之如果这个 classify 是不好的就代表说这个 egm 是不好的那不好的 album 我们就会给它比较大的这个大写的 l 的这个 loss 那怎么知道这个 classify 好不好呢我们就把这个 classify 套在训练资料上所以不要忘了每一个任务里面说错了我们就把这个 classify 跑在测试资料上那不要忘了这边每一个任务里面都是有训练资料跟测试资料的所以我们就用训练资料得到一个 classify 以后把测试资料拿出来然后用这个 classify 来分类看看看看会得到什么样的结果按照我们的这个测试资料啊是有标注的哦在我们的每一个任务里面我们的训练资料是有标注的测试资料也是有标注的所以我们可以把测试资料的这些图片 d 到 f fi 学出来的这个 classify 里面得到 classify predict 的结果然后再跟正确答案做一下比较

1668773277254

1668773313599

然后呢我们就得到一个 l 上标一那这个 l 上标一就代表说这个 classify 用在这些测试资料上的时候它的表现如何那如果这个 l 上哦这边讲一下这个 l 上标一是怎么被计算出来的啊怎么计算 l 上标一呢其实跟我们在做我们训练的时候是很像的我们就是把测试的这些资料丢到 fc 打上标 e star 里面好吧在测试资料丢到 fc 打上标 e star 里面然后它会得到输出然后计算输出跟正确答案之间的差异计算 cross entropy 把 cross entrop 统统加起来就得到 l3 标一如果这个 l 上标一的值越小啊这个 loss 越小在测试资料上面的这个 loss 越小就代表我们训练出来的 classify 越好那这样就代表我们的 learning algm 略号它是一个 lost 小的 learning alg 好那反之呢如果这个 l 越大也就是我们认出来的这个 classify 用在测试资料上的结果越差就代表说我们现在的这个 learning algm 是一个不好的 learning algm 那到目前为止啊我们都只考虑了一个任务那在 meta learning 里面你不会只考虑一个任务你准备了一大堆的训练的任务所以你不会只用苹果和橘子的分类来看一个 binary classify learning algorism 它的好坏哦这是一个可以学 binary classified alism 但我们不会只拿苹果和橘子的分类来看它好不好你还会拿别的二元分类的任务来测试它比如说你就把那个呃分脚踏车跟汽车的训练资料丢给这个 classify 叫他交给这个 learning egm 叫他写一个 classify 像这两个 learning egm 是一样的但是因为丢进去的训练资料不一样所以产生的 classify 也不一样

再打上标 e star 代表的是说呢这个呃呃这这一个 classify 他做的事情是分类苹果跟橘子那这个 set 打上标二 estar 是分类脚踏车跟汽车好那我们一样这个测任务二呢它有一些 testing 的 data 我们一样把他的 testing data 呢丢给这个 fc 打上标 20star 然后看看说得到的正确率怎么样我们就计算出 l2 l2 就是这个 learning algorithm 它在第二个任务上的表现我们现在知道说这个 learning 的 album fi 在任务一和任务二上的表现以后我们就把任务一和任务二上的表现把它加起来就得到这个 alism 的 total loss 那这边呢我们在做我们在做举例的时候呢只讲了两个任务但是实际上你在做 made a learning 的时候你不会只准备两个任务你会准备一大堆的任务哦所以你今天的大 l 的 fire 这个发音到底有多好呢你会看在所有任务上面 lost 的平均值你会准备大 n 个任务这个 n 可以是一个很大的数字你准备一个大 n 个 binary 2 元分类的任务然后把用 fire 来当做参数的这个 learning algazine 去这个些大 n 个任务上都跑过一遍在这大 n 个任务上都训练出大 n 个 lefire 然后在大 n 个任务的测试资料上去看看说这个 class fi 大 n 个 classify 表现怎么样然后计算出大 n 个 loss 把所有的 lows 平均起来就代表了现在这个 learning over them 他的表现有多好好讲到这边呢有一件事情你可能会觉得有点怪怪的这边在每一个任务我们要计算一个 loss 的时候对每一个任务要计算 loss 的时候我们是用测试资料来进行计算而在一般的 machine learning 里面一般的 machine learning 里面所谓的 loss 其实是用训练资料来进行计算的对不对

1668773429394

在一般的 machine learning 里面我们的大 l 是用训练资料进行计算但是在 meta learning 里面我们的这个小 l 是用测试资料进行计算你一听到什么用测试资料是不是就觉得让你心跳一下咦这边怎么可以用测试资料呢我们在第一堂课就有学过说你是在训练资料上面进行训练然后把你的 classify 用在测试资料上啊在训练资料上训练一个模型然后用在测试资料上啊你怎么会把测试资料拿来做使用呢但是这边呢跟一般 machine learning 不一样的地方是我们做的是 meta learning 我们的训练的单位是任务所以你可以用训练的任务里面的测试资料哦训练的任务里面的测试资料是可以在 meta learning 的训练的过程中被使用到的那我知道听到这边也许你会有一点 confuse 诶这个在胡说什么也有测试资料听起来乱乱的那等一下呢我们把 meta learning 的演算法介绍完以后我们会把 made a learning machine learning 再做一次比较希望那个比较可以让你更清楚 made a learning 跟一般 machine learning 他们相同的不相同的地方在哪里好我们讲完了两个 step 我们现在已经知道要劝什么我们也可以定出 loss 第三个任务就是要找一个 learning algorithm 找一个 f 让 loss 越小越好这件事怎么做呢我们已经写出了那个 lost function 啊叫 l 到 fl 的发 some mention over 大 n 个任务的 l n 那我们现在要找一个 fine 去让 l 发它的值最小那怎么做呢你就是找一个发让 l 的翻译的值最小那这个可以让 l 的翻译的值最小的这个发音我们叫做 find star 那怎么解这个 optimization 的问题呢就看看你要用什么方法解都可以呀看你知道什么你可以解 optimization 问题的方法

1668773595202

假设今天呢我们知道怎么计算 partial fine partial l of fine 是我们会计算这个规定那没有问题直接用 gradient descent 就结束了但是有时候你会遇到一些问题就是如果这一项是没有办法计算的呢因为这个发它可能是一些什么内 work 架构啊之类很复杂的东西如果 partial fine partial l 的发这个发音对大 l 的 gradient 是无法计算的那怎么办呢那就不记得我告诉你说如果你在解一个 actimization 的 problem 的时候如果你没有办法计算 gradient 没有办法计算微分的时候怎么办呢用 reinforcement learning 映衬下去就结束了所以假设今天 l 的 fi 没有办法对 fa 做为分那没关系也许你可以考虑用 ile 定做或者是也有人会用一些 evolutionary 的 alism 硬做反正就是硬把这个 optimization 问题解开你就得到一个 learning 的 album 叫做 fiest 好那假设反正呢不管用什么方法我们现在把这个 optimization 的问题解开了得到 five star 了那就结束了我们就让机器自己找出来的一个 learning algorithm 这个 learning algm 是一个被认出来的 learning algorithm 我们叫它 f 下标法一二好所以怎么 make a learning framework 是这个样子你收集了一大堆训练资料根据这些训练资料透过我们刚才讲的三个步骤你有个 learned 的 learning alism 添加点拗口啊它是一个 learn learning algm 我们叫做 f five star

然后接下来呢你有测试的任务啊假设训练的时候训练的任务是教机器分苹果跟橘子交机器分脚踏车跟汽车测试的时候是要分猫跟狗那每一个任务里面都有训练资料都有测试资料那你就把测试任务里面的训练资料这个点拗口哦它是测试任务里面的训练资料学出一个 classify 然后呢再把这个 classify 用在测试任务里面的测试资料上然后你就可以得到你想要的结果好那测试的任务是我们真正关心真正要解的真正希望我们有好结果的任务那用这些训练的任务以后用在测试的任务上希望会有好的结果它厉害在哪里呢呃不知道大家有没有听过 f 下 learning 翻译成中文通常是翻译成那个小样本每个类别都只给他三张图片它就可以学会做分类那很多人听到 fclearning 往往会跟 made a learning 搞混在一起就想说 made a learning 其实就是 fx learning 那其实它们两者是有不太一样的区别的 feel 像 learning 比较像是我们期待机器达成的目标就是只用一点点训练资料就可以训练出我们要的结果但是为什么大家会觉得 fx learning 跟 man 哈 learning 非常的像呢那就是因为今天你想要达到 future learning 他只要看到一点点的资料就可以学起来所以那些 few 下 learning algorim 通常就是用 made a learning 得到的所以大家往往会觉得说诶 feel 下 learning 几乎就等同于是 mea learning 不过两者还是有微妙的区别的好我们到这边看一下同学们有没有问题要问的好我看一下好这个建成说等于测试任务是不能碰的对照一般 n l 的话没错

1668819205840

对照一般 n l 的话这个是你的训练资料这个是你的测试资料不过我觉得在 made a learning 里面我们就不要我们讲这个训练资料这句话的时候要非常的小心啊我们也在测试任务训练的任务拿来训练 fire star 然后用在测试任务上没有有个同学说每个 task 的 testing data 对于 meta learning 算是 training data 对就是 training task 里面的 training data and testing data 就是我们的 training data 但是在 meta learning 里面我们要避免用 train data 这个词那个很多 paper 在写这个没啥人理相关的事情的时候他其实就没那么讲究他就会告诉你说哦我用了一些 train data 他就没有讲清楚说他的 training data 到底是指 training task 还是说 testing task 里面的 training data 那个这个就非常容易造成误解所以在这堂课里面我们就说训练的任务里面有训练资料跟测试资料测试的任务里面有训练资料跟测试资料就想成是 training task 跟 testing test 就好对对对就是要想成 training task 跟 testing task testing tek 的 training data 在 ma learning 里面是不能碰的对 testing task 的 training data 是不能碰的好那个建成说 few shot 是目标 meta 是手段对对就是这个意思那看起来大家都还这观念观念都还蛮正确的那接下来呢呃就先跟大家稍微比较一下 machine learning 和 ming 的差异然后呢我们再休息十分钟好我们来看一下 machine learning 跟 made a learning 的目标 machine learning 的目标是要找一个 function 我们这边用小 f 来表示

1668819332688

1668819385417

1668819458234

1668819532206

1668819643030

这个 function 可能是一个 classify 百张图片丢进去它就告诉你分类的结果 meta learning 一样是找一个 function 但他要找的方式我们这边用大 f 来表示我们要找一个大 f 这个大 f 是一个可以找小 f 的大 f 不知道大家听不听得懂我在说什么总之你有一个 learning algm 叫做大 f 这个大 f 持训练资料作为输入它直接输出训练的结果也就是一个 classify 希望这个 classify 可以被拿来使用希望这个 classify 可以丢一张图片进去就输出分类的结果好的训练资料呢这不就在 machine learning 里面你是拿某一个任务里面的训练资料来进行训练在 meta learning 里面呢我们是拿训练的任务来进行训练这个很容易搞混所以你会发现很多文献为了解套怎么解套呢他们不把任务里面的训练资料跟测试资料叫做训练资料跟测试资料在文献上常常有一个解套的方法是把任务里面的训练资料叫做 support 把测试资料叫做 query 尤其是在一个叫做 learning to compare 那个系列的 work 里面更常使用 suppose 跟 query 这个词汇啊所以你看到有个 paper 说呃他用 spose 做了做了什么在用 query set 怎样怎样怎样这个 suse query set 指的就是一个任务里面的训练资料跟测试资料好那在 machine learning 里面呢我们就是有一个 hcrafted learning algm 训练资料丢进去训练结果也就是一个 classified 跑出来在 made a learning 里面我们是有一堆训练的任务那因为 may learning 他所谓的训练是 involve 一大堆任务的

所以在这堂课里面我们把 meta learning 的 learning 叫做 across task learning across test training 我们把一般的训练因为如果我们讲 training 的时候你很容易误解不知道他是这样子的 training 任一个 learning ison 的 training 还是有了 learning algorm 以后找出某一个 classified training 这两个 training 都是不一这两个 training 是不一样的哦所以这也是一个 training 的过程这也是一个 training 的过程但为了区别这两种圈内的过程我们把根据一堆任务学出 learning album 这件事叫做 across task journey 只用一个任务里面的训练资料来学出一个 classify 这件事叫做 within test 的 training 好那所以在 machine 在 machine learning 里面呢完整的 framework 就是你有训练资料然后你把这些训练资料拿去产生一个 classify 然后把 testing data 丢到这个 classify 里面你就得出 classify 的结果而在 meta learning 里面你是有一堆训练的任务把这些训练的任务拿来产生一个学出来的 learning album 叫做 fa sea fist 然后接下来六个测试的任务测试的任务里面有 query set 跟 testing set 也就是这个 support set 跟 query set 啊你把这个测试任务里面的训练资料丢到 learning 的认出来的 learning album 里面得到一个 classify 再把测试资料丢进去然后得到分类的结果那我们把这个 math learning 里面的这个测试叫做 across test 的 testing 因为它不是一般的 testing 一般的 machine learning 你的这个 testing 呢我们叫做 within test testing

就是你就是把测试资料丢进去就结束了但在 made a learning 里面我们要测试的不是一个 classify 表现的好坏而是一个 learning vim 表现的好坏所以在 meta learning 里面大家了解吗在 meta learning 里面所以为了强调说 made a learning the testing 不是一般的 testing 我这边叫做 tc 跨任务的测试在这个跨任务的测试里面所以今天在 across test testing 里面你有为 fintest 的 training 加 waftest test 那有时候呢我们也在一些文件上会看到说这整个流程一次 we fintest the training 加一次 reftk 的 testing 这两个这个流程合起来叫做一个 episode 叫做一个 episode 好那 loss 那在 machine learning 里面我们有一个大写的 l of sea 那这个 l 是 some mention over 所有的 training data 但这个 training data 是来自于某一个任务在 meta learning 里面呢我们是 some mention over 在在 meta learning 里面呢这个小写的 l 他是 some mention over 某一个任务里面所有的测试资料而这个 sumention 呢是 some mention over 所有的任务所以 machine learning 你的大 l 是用一个任务算出来的 meta learning 的大 l 是用一把任务大 n 个任务算出来的好那接下来呢我们来稍微讲一下 training 的时候会发生什么样的状况在 meta learning 里面呢假设你 training 的时候需要算小 l of fine 小 a 小 l 说错了小 l 的 n 因为因为一般我们在做 training 的时候假设你今天要用 gradient descent 那通常会需要把你的 loss 能够求出来你当然要能够求出你的 boss 那你要能够求出这个大 l 我们就要能够算每一个任务的小 l 要算每一个任务的小黑

1668819725697

1668819890766

其实没有那么容易要算每一个任务的小 l 你需要经过一次 within test 的 training 一次 within test testing 也就是一个完整的 episode 你才能够算出一个小 l 哦所以这边要算一个小 l y 这个运算量往往非常大你光是要算一个任务的小 l 然后把它统统加起来变成大 l 你就要做一次完整的训练再做一次测试你才能够把这个小 l 把它给算出来好那假设啊我们今天这个 optimization 的 album 里面你要找一个发音让 l 的发音最小这件事情的时候你需要算这个大 l 很多次的话哇跟 within test testing 好多次那在文献上啊尤其是 learning to initialize 也就是非常知名的 memo 那系列的 work 里面往往把 across task training 叫做 auto lo 把 within test training 叫做 inner loop 因为你在 across test training 里面你要跑好几次 within test training 所以 across test training 是 alter loop 那 within test training 是 inner loop 不过奥特 loop inner loop 这个称呼通常只有在 learning to initialize 那个系列的 work 上才会有了如果不是 learning to initiate 这个系列 work 通常也不会这样叫因为有时候你的那个 learning 的 elf 真的他不见得是 erative 我们在做 gradient descent 的时候那个 learning algorithm 就是要反复跑嘛要 iterated 去跑嘛所以他有很多 loop 所以这边叫 alter loop 跟 in the loop 但有些 learning algm 其实没有 loop 那这样叫 alter loop 跟 in the loop 就有点怪了

1668819947052
所以我这边就叫做 within test training the across test training 但是在 learning to initialize 那个系列的文章里面 within test training 叫 in the loop across test training 叫做 outer 路好刚才讲的都是 made a learning 跟 machine learning 的差别那他们有没有什么一样的地方呢他们其实也有蛮多一样的地方的事实上很多人在 machine learning 那边学到的知识跟基本概念都可以直接搬到 ma learning 来用举例来说在 machine learning 上面你会害怕 er fee 在你的 training data 上对不对你会害怕所以在 training data 上做得很好但是在 testing data 上做的不好在 meta learning 里面也有一样的问题你会害怕说你 machine 找了一个 learning algorithm 那这个 learning algorithm 只有在 training the task 上做得好来一个新的 tc 的 task 反而会做得不好所以 made a learning 也有可能有 overfitting 的问题如果遇到 open f 点问题怎么办呢在 machine learning 里面你是不是最釜底抽薪的方法就是收集更多的训练资料在 made a learning 里面也可以做一样的事你要 made a learning 真的做得好那你就收集更多的训练的任务啊就是你看有些你你你如果训练的任务越多就代表你的 training example 越多那你训练你在这些圈里任务上学出来 learning alism 就越有机会可以 generalize 用到新的任务上面那我们在 machine learning 上会做 data augmentation 你会用一些方法来增加在无在没有增加太多额外附带的情况下增加你的训练资料在 meta learning 里面你也可以做 augmentation 你也可以想一些方法来增加你的训练的任务好

那这边有一个小这边有一个 made a learning 的问题主要在做 made a learning 的时候我们还是要做 optimization 你还是要想办法去找一个 fine 可以让 l 的发音越小越好但是假设你今天 minimize l of f 的方法一样用的是 gradient descent 难道那个 gradient descent 就不用调参数了吗假设你要 learn learning rate 但是你 learn learning rate 的时候你也要用 gradient descent 你不是有另外一组 learning rate 要调吗你就是有另外一组 learning rail 调所以你在自己做 made a learning 的时候啊也是要报调一波参数的只是你报调的不是每一个任务训练的参数而是 learn learning algorithm 的时候的参数所以你有时候会觉得哇说明它 learning 好像是呃为了避免让自己压力更大反而压力更大为了避免秃头然后让自己压力更大结果反而秃头这样所以除非他能力也是需要调参数的但是 made a learning 期待做到的目标是假设我们假设花了很多力气爆挑一波参数找到一个好的 learning algorithm 以后它可以用在任何新的任务上以后在新的任务上就再也不用调参数了一劳永逸我们报调一次参数找出一个好的 learning algorithm 这个好的 learning egm 就不必调参数了可以用在任何新的任务上好那既然讲到要调参数啊那就遇到一个问题了就记得在我们学 learning 的时候我们把我们不是只有 train second testing and 我们是有全年 set 有 development set

有 testing set 你用 development set 来选择你的模型对不对你用 development set 来决定比如说你的 network 架构应该长什么样子而 meta learning 我们有参数要调啊那 make a learning 是不是应该要有 development task 可能我认为 ma learning 应该要有 development task 所以在 meta learning 里面你应该要有 training task 要有 development task 来决定训练那个 learning alism 的时候的一些 hyperparameter 然后才跑在 testing 的 task 上面不过如果你读 make a learning 的文献你会发现说很多没 learning 的文献诶它是没有 development task 的它是只有 training task and testing task 但是我认为 may learning 应该要有 development task 好那我看看大家有没有问题要问的好我看一下哦对就是有可能会有这个问题这就是一个梗啦就是现在我 made a learning 对不对以后就会有人去提 made a made a learning 还会有人再提 mea mea meta learning 不知道什么时候才会停止什么状况 l of fi 会没办法对 fia 作为分取决于你的有同学问说 l of fire 什么时候没办法对发音作为分取决于你的发音是什么对不对就是假设你的发音是比如说 learning rate 你要能够做微分呐你的你要那个东西就是你拿 fi 去对 l 发作为分的时候你要能够计算当翻译做小小变化的时候发会有什么样的影响假设你的 fly 它根本就是 discrete 的东西它是离散的东西

比如说 network 架构一层两层三层那他根本没有办法做小小的变化你根本没有办法说从三层变到 3.1 层看看会发生什么事吗所以如果你的 fire 是一些离散的东西那你没办法做微分对然后对有个同学说像 made a learning 里面 i ga 之类的都可以用对 lga 之类的都可以用 development task 是什么这个这个就是你想看你在做 ma learning 的时候呃你不是比如说你用 gradient descent 来解那个 l lofi 吗那 gradient descent 里面不是也要调 learning rate 吗那你那个 learning rate 要怎么怎么决定你是不是要是不同的 learning rate 那你是不同的 learning rate 有得到不同的 learning algorithm 以后就我们现在的 learning rate 是要找 learning equism 的那个 learning ro 我们是不同的 learning rate 得到一把 learning equism 以后你怎么知道哪一个是最好的呢那你应该用 development set 来挑吧然后用挑出 development set 最好的那个 learning algm 然后才把它用在 testing test 上面对不对这样你才不会 overfit 到那个你才不会等于是拿那个 testing task 来调你的 hyperparameter 希望加我回答到大家的问题很多人不知道用 development task 这件事大家其实也不必太压抑我觉得这个一个新的技术在发展的过程中啊本来就会有很多的磕磕绊绊那今天不是所有的论文你会发现很多 ma learning 的论文他没有 development task 但是我相信在比如说 10 年后大家都会知道应该要用 development task

其实我也没有修我没签我其实知道你知道就是自学这种课都不是你想修就可以修的吗我当时也没签到了我是旁听而已啦那那个时候李娟田老师就说哎不是每个人都知道要用 development data set 你读了很多论文有些论文就没有用 development data set 它就是券在 training data 上直接用在 testing data 塔上用 testing data 来调参数啊这个那个甜甜圈前老师就说这个是躯体但我们要知道不要这么做但今天大家都知道是 machine learning 你就是要切 training se development second testing set 那未来大家也都会知道说 meta learning 你就是要签 training task development task contesting task 希望这个回答大家的问题好我们在这边休息一下我们休息一下我们十分钟后回来我们就是 05:46 回来

# 第二集

1668820312425

那我们已经讲完了 meta learning 的基本概念接下来就是举一些实例告诉你说在 meta learning 里面什么东西是可以被学的好那我们一般最常用的 learning algorithm 呢其实今天就是 gradient descent 啊只说在 gradient descend 里面我们就是要有一个 network 的架构然后呢你初始化一下你的参数我们把这个初始化的参数叫做 c 大零然后呢你要有一些训练资料那他们是从训练资料里面 simple 一个 batch 出来对不对我们第一堂课就跟大家讲过 batch simple batch 出来计算 gradient 然后用这个 gradient 呢来 update 你的参数所以从 c 大零变成 sea plan 然后再重新计算一次 gradient 在 update 参数然后就反复这样下去直到次数够多你满意为止那就把最终训练的结果最终得到的参数把它输出出来好那在这整个过程中哪些东西是可以劝的呢首先 initialize 的参数可以劝的哦所以 c 大林是可以劝的怎么说呢一般我们 c 大林呢你就是 render initialize 的吗从某一个固定的 distribution 里面 simple 出来的嘛但是你也知道说塞大林对结果往往有一定程度的影响好的初始化参数不好的初始化参数可以天差地远那我们能不能够透过一些训练的任务来找出一个对训练就是特别有帮助的引力雄的参数呢可以这个算法就是最在我觉得在 meta learning 这一系列 work 里面可能大家最耳熟能详的 model agnostic meta learning 它的缩写叫 memo 那它的发音呢就跟哺乳类动物有点像哦但有另外一个这个 memo 的变形呢就叫做 reptile 那我觉得不知道是不是故意的哈把这个名字取成 reptile

1668820420139

1668820445366

1668820461229

reptile 呢就是爬虫类的意思这些方法的细节因为时间有限的关系所以我们今天就都不细讲我只是把一些 reference 列在这个投影片上给大家参考但是在作业里面就这个我们会问很多跟 made a learning 跟 mmo 有关的问题所以假设你想知道更多有关 mo 的细节你在作业里面可以学到跟更多跟 memo 有关的事情好所以有一系列的方法它就是 learning to initialize 它去 learn 这些 initialized 的参数其中最有代表性的就是 memo 但是就像我们刚才讲说做 made a learning 的时候你也有 hyperparameter 是你需要挑的所以做 memo 的时候虽然你要去认一个 initialized parameter 但是 learn 这个 initialize parameter 的过程中也是有很多 hyperparameter 你需要自己决定的这实际上最原版的 mmo 并没有非常好劝啊有一篇 paper 呢叫做 how to train your mammal 啊这里是一个玩意梗啊这个卡通叫 how to 有一个动画叫 how to train your dragon 嘛他就把 dragon 改成 meal 所以这篇 paper 的 title 叫 how to train your memo 他就说他试着转的 memo 3 次也用不同的 rendc 你知道 train initial parameter 这件事他也需要 rendency 你也需要做 gradient descent 那如果你对这些有困惑的话在作业里面你可以更详细的知道 memo 确定的细节啊作业那个在在作业里面有这个 memo 的范例的城市那你看那些城市以后可能可以让你对 memo 有更进一步的了解老师劝 m 也是要调参数的也是需要 random seed 的只要试了三个不同 random seed 发现就是红色这三条线有时候劝得起来有时候劝不起来所以在这篇 paper 里面他就提出了一个新的方法叫做 memo 加加啊期待说啊 mo 加加可以做起来

1668820556453

但有关更多 memo 加加细节大家在自己去读 how to change 有 memo 这篇文章好那讲到 memo 啊讲到找一个好的 visualization 有没有让你想到课程的另外一个主题呢在课程的另外一个主题讲 self supervised learning 的时候我们是不是有提到好的 initialization 这件事情呢在 memo 里面我们有一堆训练的任务但每个任务里面有训练资料跟测试资料了我们一堆训练的任务根据这些训练的任务找出一个好的 dralization 然后呢用在测试的任务上好那但是在 self supervised learning 里面我们是怎么做的呢在 self supervised learning 里面我们就是有一大堆的没有标记的资料那这些没有标记的资料我们可以用一些 proceed task 去训练它比如说在 bt 里面就是用填空题来训练你的模型那其实在影像上也可以做 cell superblearning 你也可以说把影像的其中一块盖起来叫机器必须预测被盖起来的一块但今天在做影像的 sales pervise learning 的时候可能这个 masking 的这种方法填空的方法不最常用的今天比较流行用另外一个系列我们在课这个课程里面没有介绍的 contrastive learning 的方法那这个有兴趣大家再自己去研究那总之讲到好的引力 itialization 这件事啊是不是让你想到 self supervised learning 呢在 cell supervised learning 里面我们会先拿一大堆的资料去做 pretrain 那 pre 确的结果我们也说它是好的 initialization 然后把这些好的 initialization 一样可以用在测试的任务上那这两者有什么不同呢当然如果我们直接比较 memo 跟今日的 cell supervised learning 的话

1668820787402

那至少最明显的不同是啊 memo 呢这些任务是有用到标注资料的而在 self supervised learning 里面我们是没有用到标注资料的所以 pretrain 这一招 sell supervirning 这一招虽然会好但是你不知道为什么会好我们其实今天并没有非常清楚说为什么这些 process 的任务对 testing test 会有帮助而对 mo 而言它会好是不是理所当然的也许它就可以 transfer 到 testing 的任务上但是如果你回到几年前在还没有 self supervised learning 这个词汇的时候你的 sal supervised learning 呢它会这个词汇会爆红起来也是伊拉克在 2019 年 4 月的时候说的我记得是好像是 4 月 30 号之类的第一次讲 memo 的时候其实是 4 月 30 号之前的那个时候我们都还不太清楚 sale supervise learning 这个词汇那是师傅把任意这个词汇当然在养哪个讲说这个 cell supervise learning 很厉害之前其实也有人用过这个词汇了只是之前如果你随便发明这些怪怪的词汇的话你肯定会被别人抨击嘛不过大神讲说有一个技术叫 cell supervised learning 那就有了 cell supervised learning 好总之过去啊在 sales supervised learning 这个系列还不红的时候那个时候 pretraining 有另外一种想法比较常见的做法是你一样有好几个任务的资料你把这些好几个任务的资料通通都倒在一起把它当做一个任务进行训练然后接下来呢你一样可以找一组好的 itialization 一样可以把它用在测试的任务上那像这样子把好多个任务的资料通通倒在一起当做一个任务来训练的做法

1668820844154

这个叫做 morttest ching 那其实一边今天一般你在做 memo 的研究的时候那通常会把这种 mottest 圈联方法来当做 meta learning 的 basel 为什么会把这样的 mortal test learning 当做 memo 的 baseline 呢因为仔细想想你会发现说这两个方法他们用的资料都是一样的一边只是我们会把不同的 task 分开另外一边把所有的 task 的资料倒在一起这两种方法有什么样的差别呢好假设你想要知道更多 made a learning demo 跟 pretrain 的差别的话啊你可以看一下这个影片而在这个影片特别我今天特别要强调这个影片这期这样请大家务必要看是因为这个影片里面它是有防不胜防的业配的啦那我现在要特别夜配这个影片这个就是夜配的业配就是 meta 也配好那在这些投影片呢你会发现说我们这边的训练的任务跟测试的任务差距并没有很大刚才的举例里面我都说训练的任务是分类呃这个呃苹果跟橘子分裂类车子跟脚踏车但是在今天这个例子在这些投影片的例子上啊我特别说我特别举了一个例子是说诶每一个训练的任务都是要分类猫跟狗只是现在每一个任务里面的图片它的类型是不一样的在任务一里面啊是真实的图片好在任务二里面呢是这个呃油画的图片啊在任务栏里面是卡在测试任务里面是卡通的图片那你很会说这个不就是 domain adaptation 吗我们在某些任务上面学到的东西在某一些某一些抖音上学到的东西要被 transfer 到另外一个 dman 没错他就是你也可以说它就是 domain adaptation 所以假设我们今天在做 main a learning 的时候我们的不同的任务其实就只是不同的 dman 而已

1668820957247

那你也可以说 maharmony 就是一种 dman adaptation 的方法那就那那那当然有人可能那其实在 machine learning 里面的这个 task 呢跟抖妹的定义它们的分也并没有那么明确我可以说这个是不同的抖妹但我也可以说他们就是不同的任务其实都是可以的这假设你今天不同的任务其实就是不同的抖面上的同样的分类问题的话你也可以说没他的脸是一种解 dman addictation 的方法好总之呢我觉得在 machine learning 这个领域里面呢有千千万万的词汇不断的被新词汇不断的被发明出来总觉得大家在研读这些文献的时候其实也不用太拘泥于这些词汇你要真正要在意的是这些词汇背后所代表的含义是什么好那 memo 到底为什么会好呢有两个不同的假设有一个假设是没 memo 找出来的那个 initial 的参数它是一个很厉害的 initial 的参数这个很厉害的 initial 的参数它可以让我们的比如说 gradient descent 这种 learning algori 快速的找到每一个任务账号的参数那另外一个假设是说这个 initialized 的参数它本来就跟每一个任务上最终好的结果已经非常接近了那所以因为他已经跟好的结果非常接近所以你直接 apply gradient design 就可以轻易的找到好的结果到底是哪一个呢有一篇 paper 呢它里面提出来的一个方法叫做这个呃有一篇 paper 呢它的 title 是 raid learning or featureuse 左边这个叫做 raid learning 右边这个叫做 featuring youth 那到底 mamal 它的好是好在左边这个理由还是右边这个理由呢那你可以自己去看一下 paper 会发现说呃在 paper 里面得到的结论是 feature reuse 才是 m 好的关键那在这篇 paper 里面呢同时提出来了另外一种 memo 的变形叫做 annie 啊

1668820998592

在我们的作业里面也会问大家一些跟 neo 相关的问题 a new 是 almost no in the loop 的缩写 almost no inner loop 啊缩写是 annie 好的 may helen 你有非常多的变形了假设你想要知道更多背后的数学的细节的话你可以参考这支影片那甲那 memo 有一个可以减大幅简化运算的变形叫做 first order memo memo 大家可以看这支影片啊如果你想知道什么是 rap tile 的话你可以看这支影片啊我们上课就不再讲我们把这些呃内容留在这个作业的选择题里面我们可以学 optimizer 你知道在 update 参数的时候我们需要决定比如说 learning r momentum 呢等等参数等等 hyperparameter 而像 learning rate 这种 hyperparameter 是可以的那像这样子的想法在很早以前就有了 nips 2016 就有一篇 paper 他的 title 叫 learning to learn by gradient descent by gradient descent 哦这个不是 table 啊它的名字真的就叫做 learning to learn by gradient descent by gradient descent 这个大家都是命名大师啊大家都很会取这个有梗的 title 而在这篇 paper 里面呢他就直接认了那个 optimizer 一般我们的 optimizer 什么 add a proper 是人想出来的它的 after miser 它里面的参数是自动根据训练的任务学出来的那他那边他把他的方法呢就直接叫做 l s t n 了因为他把训训练那个和呃这个 optimizer 里面的这些参数

1668821108549

1668821180377

1668821211717

1668821281645

1668821340516

这件事情把它类比要训练一个 l s t n 上但我们这堂课里面没有讲过 l s d n 嘛所以你不知道 l s t n 是什么没关系反正这个就是认出来的 optimization 那他做的第一组实验是训练在 n nest 上然后直接测试在 n nest 上了那所以得到的结果呢当然是挺不错的橙色这一个是认出来的 timon 其他颜色的这个客服呢是其他的方法但是如果我们是训练在 n nest 上测试在 n nest 上而且 network 架构都一样这根本就是 cheating 嘛这样没有什么特别厉害但是早在 2016 年试试看然后呢诶结果不错但测试任务呢测试任务改成两层看看到底能不能够做得起来它测试的时候测试在两层的内幕上可不可以做的起来可以但他发现说呢改一下那个 activation function 就不 work 了训练的时候如果没记错的话应该是用 smo 但是测试的时候 network 架构里面改成 ru 哇这个能认出来的 optimization 就坏掉了哦好刚才讲了我们可以训练初始化的参数可以训练 optimizer 那能不能够训练 network 架构呢当然可以训练 network 架构那在训练 network 架构这系列的研究呢就叫做 network 其实就是鼎鼎大名的 network architecture search 其实就是 early as 其实我知道很多同学应该都听过 network architecture search 这个记住只是你不太清楚他跟 made up learning 的关系是什么而已如果你今天在 meta learning 里面

你认的就是 network 的架构翻译你把 network 的架构当做翻译的话那我们就是在做 n a s 好但是在 n a s 里面呢我们的 fire 是 network 架构我们要找一个 fi 去 minimize l of fine 但既然 phynetwork 架构显然做微分就有问题了显然算 brain 就有问题了怎么办记得我们这门课里面反复强调的当你遇到 optimization 的问题没办法上微分的时候 reinforcement learning 运作也许是一个 solution 好怎么用 reforcement learning 硬做呢你就把 fi 呢想成是一个 agent 的参数然后这个 agent 呢这个 reinforcement learning 里面的 agent 呢它的 output 是什么它的 output 就是 network 架构相关的 hyperparameter 举例来说它会 output 的就是现在第一层你到比如说 filter 它的长是多少它的宽是多少它的 strike 多少 filter 的数目是多少等等今天你的 a 卷它的 output 就是 network 的架构相关的参数然后接下来呢你就要训练你的 agent 让他去 maximize 一个 reward 那在这边我们的 reward 是什么呢所以我们训练这个 a 卷去 maximize l to find a 乘上负号就等于是 minimize l of f 我们用 i 的演算法直接去训练这个 fi 去 meml 到 five 那我们就是做了 network architecture search 好那这边是有一个从文献上截下来的图希望可以让你更清楚知道说这个 typical 的 n a s 是在做什么的啊就是我们有一个 agent 那这个是比较早的 work 了所以那个时候呢把 agent 呢想成就是一个 recurrent network

那这个 recurrent network 每次呢会输出一个 network 架构有关的参数比如说他会先输出 filter 的高是多少然后再输出 filter 的宽是多少然后再输出 stride 的呃横向的 strike 是多少在输出纵向的 strike 是多少在输出要多少的 filter 等等然后第一层第二层输出完了以后接下来再输出 n 加一层接下来再输出 n 加二乘以此类推好的有了这些参数以后就根据这些参数建出一个内建完 neo 以后就去 train 这个 neo 缺一个 train network 的过程呢其实就是 with ftk 的 training 好然后接下来呢就去做 reinforcement learning 你可能会把这一个 network 他在测试资料上面的 accuracy 当做你的 reward 然后呢来训练你的 a 卷那训练这个 agent to maximize reward 的过程其实就是 across task training 那我知道说在 network tea search 文献上其实不常提到什么 within test training 跟 across 全景这样子的讲法了但是其实你想想看 neta search 它可以视为是没 a learning 的其中的技术只是我们现在要认的是集中在那我知道说比较早的 network architecture search 那些 paper 啊他们往往训练的任务跟测试的任务就是同一个啊比如说你训练的时候你是要训练一个 agent 他可以找一个 network 这个 network 在塞发 ten 上做得好那测试的时候你也是直接跑在三发 ten 上感觉有点躯体不过近年来啊有很多 naval architecture search 的文章都已经进步到都已经呃有所改变他们的 training 的任务跟测试的任务都已经有人尝试过可以是不一样的了好那除了这个 reinforcement learning 以外啊你要用 evolutionary 的 algorithm 也是可以的啊我们这边就直接列一些文献给大家参考

那其实啊你硬要把 nearchitecture 改一下让它变得可以为分也是可以的有一个经典的做法呢叫做大啊缩写就是 fal architecture search 这个它是 defi teor sch 缩写这个大词呢它就是想办法让这个问题变的是可以为分你就可以直接用 gradient descent 来 minimize 这个 l of fine 那至于大致的细节就留给大家自己慢慢研究好除了 nearchitecture 以外还有什么可以认的呢 data processing 也有可能可以认大家知道说诶我们在训练 network 的时候你不知道做 data augmentation 吗作业三还让大家自己尝试各种不同的 data augmentation 的方法那当然 data augmentation 的方法现在你是用 trial and error 去试出来的那能不能够硬去学 data augmentation 这件事呢能不能够训让我们去训练出怎么自动找 data augmentation 呢是可以的那我们就列一些 paper 在这边给大家参考那我们知道说今天在 training 的时候啊有时候你会需要给不同的 sample 不同的 weight 但是要怎么给每一笔 data 不同的权重呢这边就有不同的策略那有人的策略就是说哎如果有一些 example 距离帮对特别近它是特别难的 example 也许就要给他比较大的 way 像 network 比较 focus 希望他可以学得比较好但是你也会看到文献有相反的结论说诶这个比较 noisy 的这些 label 应该给它比较小的位置这些 example 如果他比较接近 boundary 可能代表它比较 noisy 代表它比较困难他的难可能是不合理的因为代表他 label 好不好根本就标错了也许你应该给它比较小的 we

那怎么决定这个 simple weight 的 strategy 呢你可以用 lt 把 simple weight strategy 直接认出来然后让我们迅呢根据让我们迅可以学到说诶根据 data 的特性自动决定说 simple 的 weight 要怎么设计到目前为止啊我们看到的这些方法都是基于 gradient descent 再去做改进哦我们刚才看到的所有方法都是认了 gradient descend 其中的 component 但是我们有没有可能完全舍弃掉 gradient descend 呢我们有没有可能直接扔一个 network 这个 network 的参数就是 f 这个内部直接是训练资料作为输入直接输出训练好的结果如果真的有这样一个 network 它可以吃训练资料作为输入输出训练好的 network 的参数那我们就可以说我们甚至让机器发明了新的 learning algorithm 我们已经抛弃了 gradient descent 机器发明新的 learning album 有没有可能做到这件事呢也不是完全没有可能的已经有一些论文往这个方向进站而到目前为止啊我们还是把训练跟测试分成两个阶段我们的 learning 我们有一个 learning algm 它是拿训练资料进行训练然后输出训练好的结果然后把训练好的结果用在测试资料上看有没有可能更进一步直接把整个 episode 也就是一次训练加一次测试这个是有可能的有一个系列的做法它就是直接把训练资料跟测试资料当做 network 的 input network 读完训练资料以后你也不知道里面发生了什么事也许他就是学出了一个 learning alism 也许他就是找出一组参数不知道不知道他发生了什么事他读完训练资料以后再给他测试资料他直接输出这些测试资料的答案也就是我们不再有训练跟测试的分界

一个 episode 里面不再分训练跟测试而是直接用一个 network 把训练跟测试这件事情一次搞定有没有可能做这样的事呢其实这样的方法今日并不罕见有一个系列的 may have learning 的方法叫做 learning to compare 它又叫做 metric base 的方法这一系列的做法就可以看作是训练和测试没有分界一个 network 直接把训练资料测试资料都读进去而直接输出测试资料的结果那如果你想学更多跟 learning to compare 有关的东西的话那其实在过去的上课有讲过 metric base approach 那这边就把过去上课的录音贴在这边给大家参考啊最后啊也许你会很好奇说 made a learning 这样的技术真的有应用吗它真的有被用在任何地方吗 may have learning learn to learn 直接扔一个 album 听起来非常的科幻他真的有实际的应用吗今天你在做 meta learning 的时候啊你最常拿来测试 ma learning 技术的任务叫做 few shot 的 image classification 在 few shot image classification 里面你每一个任务都只有几张图片哦你每一个类别每一个 class 都只有几张图片啊比如说你现在分类的任务是有三个 class 进来一张 image 你要把它分成三个类别每一个类别你都只有两张图片每个类别你都只有两张图片你希望透过这样一点点的资料就可以训练出一个模型给他一张新的图片他可以知道这张图片属于哪一个类别那在做这种 few shot classification 的时候啊最常见的一种 classification 的呃你常常会看到一个名词叫做 n vk 下的 classification 那 n vk 下的 classification 是什么意思呢 n vk shop 的 classification 它的意思就是在每一个任务里面我们有 n 个 class 而每一个 class 我们只有 k 个 example

举例来说在上面这个例子里面我们有三个 class 每一个 class 只有两个 example 那它就是 three way to shot 的 classification 好那在 meta learning 里面呢如果我们今天要教 machine 能够做 n vk shot classification 那意味着说我们需要准备很多的 n vk 下的 classification 的 task 当做训练的任务将马逊才能够学到 n vk 下的人民 album 那要怎么去找一堆 n v k 下的任务呢要怎么去找一堆 n v k 下的全年的 task 那在文献上最常见的一种做法是使用 obliga 这个 cpus 当做 benchmarcus 你知道这个 omega 是这就好像说你今天在做生物实验的时候你都用果蝇来做生物实验嘛那在 made a learning 里面如果你想要做快速做相关实验的话最常做的选择就是使用 ea 在 onea 这个 cos 里面呢有 1623 个不同的那每一个 character 呢有 20 个 example 啊比如说这是某个 character 它就是勾起来然后点两点那像这个 character 它就有 20 个不同的 example 啊就是找 20 个人每个人呢都去写一遍这个 character 然后把他资料收集起来啊所以每一个 character 有 20 个 example 总共 1623 个 character 那有这些 character 以后呢你就可以去制造 n vk 下的 classification 举例来说假设你要制造一个 twenty 位 one 下的 confication 任务的话那你要怎么做呢你就从那个 onega 里面呢选出 20 个 character 然后每一个 character 就只取一个 example 那你就得到一个 20 位 one shot 的 classification 的任务好像这边这个样子好这边呢每一个呃图片就代表某一个 character 每一个 character 这边只有一个 example

而每一个 character 在 n vk 下的任务里面就代表了一个 plus 哦所以 20 位弯下的 classification 的任务他的训练资料也就是 ort 就长这个样子那测试资料呢测试资料就是你从这 20 个 character 里面再去 onea data set 里面找某一个 example 出来然后接下来就问你说诶这个 casting 的 example 这一个 query set 它是这 20 个 class 里面的哪一个啊那这个东西到底是哪一个 class 呢这个看起来有点像是豌豆射手了其实人呐在做这种 future classification 是非常厉害的所以这种 future fication 可以难倒机器但往往难不倒人像这个它是属于哪一个 class 呢它是属于哪一个 character 呢我相信你一眼就可以看出他应该是这个 character 了好那在使用 onega 的时候呢一半呢是拿来制造 training task character 另外一半是拿来制造 testing task character 然后这些 training character 啊如果你要去制造一个 n vk 下的任务你就是从这些 training the character 里面先随机 sample n 个 character 然后这 n 个 character 每个 character 再去 simple 开个 example 集合起来你就得到一个训练的任务那测试的任务呢你就从这些测试的 character 里面拿出 n 个 character 然后每个 character simple 开个 example 那你就得到一个 n 位 k 下的测试任务然后测试在测试任务上好那你可能会问说这个更为开下的任务做在欧尼 ga 上面这个有什么用呢这个就是没有什么用了但是 meta learning 不是只能用在 onea 上面我这边呢这个 table 上面是列举了 meta learning 在语音还有自然语言处理上的应用那这边的纵轴啊是不同 meta learning 的方法有 learning to initialize learning to compare 还有其他类型的 meta learning

的方法比如说 network exture search 等等而横轴啊就是不同的应用比如说 some event detection he was buttt classification of voice conversion 呢 sequence machine tration speak regnition 等等像这些语音还有 nlp 相关的任务都已经有人尝试在上面使用 meta learning 所以 meta learning 不是只能用非常简单的任务今天在学界已经开始把 made a learning 推向更复杂的任务看看未来 made a learning 这个技术能不能够真的用在现实的应用上它可以走得多远好那这个就是本学期想要跟大家分享的内容了

# 学习内容

马尔科夫决策过程：https://www.bilibili.com/video/BV1wb4y1C7LG/?spm_id_from=333.337.search-card.all.click&vd_source=1c562831fab1cb4101e5b95d41c170e0

# 参考视频

李宏毅：https://www.bilibili.com/video/BV11E411G7V9/?spm_id_from=333.880.my_history.page.click&vd_source=1c562831fab1cb4101e5b95d41c170e0

较能清除的解释的：https://www.bilibili.com/video/BV11E411G7V9/?spm_id_from=333.880.my_history.page.click&vd_source=1c562831fab1cb4101e5b95d41c170e0

马尔科夫链：https://zhuanlan.zhihu.com/p/448575579

在 maml 中使用马尔科夫链是指在求不同任务的概率时么？

x1 表示的是一个 task，还是一条数据？应该是一条数据，

hessian 矩阵:

# 阅读笔记

1668859347128

1668859460557

# 第一集

# 第二集

# 学习内容

# 参考视频

# 阅读笔记

我的博客修改记录

未命名