少年气

我不写博客好多年。

这对于没什么思想而且文笔很差的我而言,并不是什么坏事,因为可以预见在一个月之后的某个夜晚,我会羞愧难当,并永久地删掉这一段文字——就好像我成长了很多,以至于可以全盘否定以前的自己。长此以往,在本科期间我甚至没有留下一丁点可以追忆的碎碎念。

一切的起因是我大二时曾经看过孙锴学长的博客,里面有这样一段话:“年轻人应该向前看,回忆性的文字,我是不愿意多写的” (有趣的是,孙锴学长在几年之后也删掉了这篇博文);加之我迷信着巅峰之后就是深渊,过早的总结总是片面且短视的。然而人生不过短短几十年,等到该给一个人定调之时,久远的记忆都已经模糊。我不指望自己是侯晓迪、戴文渊这类毕业时仅靠论文发表记录就能傲视群雄的大咖,我的头脑相对简单,若是博士毕业(如果可以)时,留下的印记只有那么几篇读起来味同嚼蜡的论文,而没有其它可以追忆的时光的话,未免也太枯燥了。

于是我决定重拾起这个废弃的网站,上一篇博文还在三年前,刚刚结束了 Cornell 公费交换的一个月,还没有经历过学术圈和社会的拷打,觉得人工智能和区块链是人类的未来。这三年,我经历了很多——开心的失落的骄傲的颓废的瞬间,但总的来说我过得很满意;作为 14 级唯一一个毕业之后没有继续深造的同学,每每被问及工作的事宜,都会听到一些有趣的言论:

对于第二类,我通常都是客套回去一笑了之,我既没有百万年薪,也谈不上做什么高大上的事业——学界前沿的 research 那自然是不可能的,我也有自知之明;开发工业级别的服务、站在浪潮上与资本斗智斗勇,那我更谈不上,也暂时志不在此;当然相比大部分高校板砖的博士生,我做的东西可能还算有些有趣,我很幸运能在一个尊重我个人意愿的组里从事着一些不算太 trivial 的工作。

长期在崇尚学术的环境下浸淫的本科生容易对科研产生不切实际的幻想,我决定去工作的那一刻,有些同学会觉得我已经跟他们不是一路人了。记得毕业那天,同学发了一张毕业照,配文是“以就业率 0 为骄傲的班级”,致远学院的老师们纷纷点赞。是啊,致远不就是以培养博士生为傲吗?几年以来致远的毕业名册里,选择工作的同学,毕业去向那一栏都被留了白。我至今仍然觉得张杰离开之后,学院都没有给本科生传递正确的价值观——接触科学大师,培养国际视野的另一种说法是:跟大佬搞好关系,暑研混推荐信。为什么学长学姐们都告诉你们不要找留学中介,因为我们自己就是交大最大的留学中介呀:)


扯得有点太远,言归正传。

昨天晚上与首长又约了一顿饭,我们几乎保持着很规律的半年见面一次的频度,这个节奏对我来说很舒服——既没有频繁到无话可聊,也能够依稀记起上次见面时对方的状态和立场。首长仍然是我六年前第一次见到的首长,时间在他身上留下的痕迹不是很明显,脸庞和身材几乎没有变化,头发也没有丝毫稀疏的迹象;装逼如风的气质稍稍有些收敛,但仍然看得出他的自信和热情。聊到平时的业余生活,首长表示正在 b 站学罗翔老师的课,对知识的渴求与过去别无二致。

毕业之后跟很多同学一起吃过饭,每次聚会遇人必称“老板”,对于彼此的研究方向,大家表面上会夸赞两句,实则大部分时候都没有用心在听——因为已经不算同行了,大三领域细分之后,很少有人会有耐心听完对方在做什么;不过半个小时,大家的话题都会统一转到八卦上去,AAA 是 BBB 的前女友,CCC 没拿到 DDD 的教职是因为 EEE,这种在饭局上谈论圈里不算光彩的秘密的行为,大家称之为 social。首长似乎一直对这些事情都没有什么兴趣,是一个相对纯粹的学者。

如果说我曾经对“科学”(区别于计算机科学,后者我分类为工程学)有那么一丝丝信仰的话,可能也是受首长的言行举止所影响。尤记大一那次学子讲坛,首长向我们介绍《哥德尔、艾舍尔、巴赫》,解析多个声部演奏同一个旋律如何产生卡农、哥德尔定理与自我指涉的时候,让我产生了久违的幸福感——我们的世界,逻辑和艺术是一体的。

两年前的 Ph.D.申请,我们都可以说以失败告终,我并不为自己感到可惜,因为我自知自大三以来,没有做出什么有价值的工作,也缺乏能产生有趣想法的灵魂;首长的失利可谓更加可惜,暑研期间选择了一个神坑的课题,最后跟组里也不欢而散。首长最后做出的选择让很多人都深感可惜,我在各种场合都能听到不同的人发出“天垚这个 Ph.D.读亏了”的言论,但是首长显然不是会轻易受大家影响的人,毕业前的经验分享活动,首长的标题是《致新时代的黄埔人》,表示大家的视野不能局限在计算机科学,我们有更远大的舞台可以施展。

一见面,首长就非常主动地想介绍他的研究成果。提及映射、生成模型、定理、类型系统,首长就像当年在学子讲坛那样滔滔不绝。离散形式和公理化的数学系统是他的强项,听完之后对机器学习失去兴趣多年的话竟然有些被说服,也不禁佩服起他建立一套体系的功底;尽管落实下来是另一回事——已经是肉眼可见的一篇博士论文的体量,但我隐隐之中仍然对于这样有灵魂的想法感到欣慰:贯穿符号主义和连结主义的,不仅仅是 graph。最后首长很淡定地说,非常幸运 gus 能成为他的老板,而且 zz 在同一年学术休假。如果 zz 是他的 co-advisor,这个项目不可能进行下去。

我听到的时候有点震惊,后来倒是转为佩服,回想起这两年在 zz 下面所接触过的项目,大都是有着短期切实的目标。如果不能确定一个步骤能够短期内完成,我们通常会去委屈求全——标准的工业界作风。从另一个角度来看,system research 确实需要有效的中间过程反馈,否则整体工程体量很可能会压垮一个心灵脆弱的博士生,符合 zz 的系统背景。现在看来,首长可能不需要这样的短期反馈,在一个项目中同时涵盖编译器,crowdsourcing 和 DL,已经是智力上的极大满足,对于我们这类码农来说可谓是一种浪漫了;读博既然要五年时间,为什么不花时间来干“看起来做不出来”的事情呢(虽然中途折戟的占大多数,还是要有一些规划)。想起前些日子在 twitter 直播读博几年失败感悟的项思陶,虽然进入了图形学名组,但是做着自己不喜欢的研究,也感受不到智力上的愉悦。相比之下,首长的状态要健康很多;gus 性格佛系,不那么在乎论文,也支持他特立独行的研究——他当年终究是做了正确的决定,能吸引到一起的人必然是志趣相投的。

我个人对于 AI 圈的浮夸风是持负面态度的,首长这类的年轻人让我看到了这一代的希望——有人仍然以哲学思辨这种古典的方式对待深度学习这门“显学”,即便不算成功,也是值得回味的一段旅程。


周六早上的 3A 线上校友会,看起来又是一场成功人士的聚会,各路年轻的老板和教授们共聚一起聊聊往事吹吹牛逼,很是愉快。我想成功学的毒鸡汤我已经喝过不少了,也不多这一次,况且这是上一个十年能吃到人工智能红利的前辈们的主场。有趣的事情是,同为 DMLC 三杰,天奇和敏捷在介绍人生经验,而沐哥却在另一个平台忙于公关隔壁组员工离职的事宜(已经上了热搜),互联网行业众生丑态尽显无疑,看完之后五味杂陈,我的好朋友无端受到了指向性的攻击。原事件本是一起罗生门,在亚麻这类公司离职也是再常见不过的事情,在众人发酵和看不见的推手之下,即将演绎成一部大家都爱看的宫斗剧。我对此事完全没有兴趣发表评价,只是希望尽快风平浪静,被匿名用户破脏水的同事和前同事一切安好。

如今越来越能理解天奇毕业时毅然选择了教职,尽管这两年来资本不断介入,高校还是在尽力保持着一片净土。当沐哥作为 MXNet 唯一坚守的一代目作者为了管理和权衡各种矛盾焦头烂额之时,天奇仍然能够亲力亲为地在一线写代码讨论细节,不可谓不令人羡慕。

我对天奇最深的印象是他的随和以及对技术的全面掌控力,能开发出 TVM 这种影响力的工作的人,能够有耐心听完小白(比如我)不靠谱的想法并提出合理的改进建议,并且花大量的精力参与开源社区的建设,实在是这个时代的幸事。每次听完同事抱怨环境的吐槽和媒体的不靠谱,天奇的态度总是“我们做好自己的事情”。对于为人处世,天奇的建议是:“聪明的人有两种,一种人显得自己很聪明,另一类会让自己周围的人觉得很聪明。”,俨然一幅人生导师的态势。

见过各式各样的技术人:有本领却不可一世目中无人的;技术一般但是做到管理层还喜欢瞎指挥的;随着年轻的上升技术判断逐渐下降的;沉迷于 PR 而疏于正业的;对不如自己优秀的人没有同理心的;曾经有过辉煌但是一直吃老本的。愈发感觉到天奇的难能可贵,在我们还沉迷于给现有的框架加新特性的时候,天奇更关注的是从减法做加法,思考更加统一的结构和从中能启发的新想法。作为一个并非系统背景出身的人,天奇并不是最早接触 Halide 的那一批人,但是却能第一个把相关的想法应用在深度学习算子加速上,一方面是依赖他所在的前沿学术环境,另一方面是凭借自身对技术的追求、新事物的好奇心和惊人的行动力。其行动力的来源,是源自内心的热爱吧。即使在论坛上遇到开喷的同行,他也能够保持客观的态度,进行有建设性的讨论,与某些愚蠢却有了权力的人的嘴脸形成鲜明的对比。

印象中天奇一直微笑着,态度很温和。即使我向他表示没有什么进度,他也会微微一笑表示很自然,但也不忘记委婉地告诉我读博期间要合理利用自己的优势,把握时间。敏捷也继承了一样的风度,每次遇到棘手的问题都是自己亲力来解决,从不麻烦别人。而对于适合用来培养新人的项目,也会主动把机会交给年轻人。天奇说过相比业界更喜欢与学生一起工作,也许正是因为这样才一直保持着“纯粹感”,就像学生时代题目不会做时有求必应的那位大佬。


虽然不愿意再提,但是我依然认为我去年在 transformer 上进行的一些尝试是有意义的。出于“不要爱上自己的研究”这一准则以及这个课题的时效性,我必须向前看了。如果说去年我最欣赏基于 transformer 的工作是什么,我会回答 XLNet,并非出于其研究的价值,而是作者放弃更科学的准则,而近乎偏执地用这一篇论文来反驳前一篇文章审稿人的荒唐观点,并捍卫了 Transformer-XL 的有效性,正如知乎上某位朋友所言:

先说 XLNet,这篇文章的诞生一定程度因为其前作 TransformerXL 被 ICLR 残忍拒绝。在下相当喜欢 TransformerXL 这篇,也恭喜论文最终被 ACL 收录。一切似是皆大欢喜,可复仇的种子却已种下。或许只是因为 ICLR Reviewer 轻描淡写的一句“LM 研究已无用”,六个月之后,XLNet 应运而生。

这个有明显执念的决定,从学术角度出发,是有待商榷的。引入 TransfomerXL 使得文中的 Auto-regressive Pre-train 方法和 BERT 基于 Tranasformer 的 Mask LM 方法无法同台较量。而我暂没有看到用 Transformer 做 Backbone 的后续实验(欢迎指正!)。我如果是 Reviewer,八成会问这个问题。可哪怕是如此,谁不渴望如此的年少轻狂:手刃仇敌,并昭告天下。

或许你明白这个选择不是最好的决定,只是你知道,有些东西,看似无关紧要,却对自己有多么重要。所以,最终无非是考虑代价几何,并坦然接受罢了。

作者:猪猪侠和狗子链接:https://zhuanlan.zhihu.com/p/77565757 来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我喜欢这样的故事。


疫情期间偶然看到了《我们与恶的距离》,深感惭愧。虽不至于太宰治那般“我这一生,尽是可耻之事”,但毫无疑问,我们是世界上很多“恶”的推手:在 AI 浪潮兴起的时候我们蜂拥而至,在泡沫破碎的时候我们唯恐不及;我们会因为利益相关而攻击同行的论文,也会因为不认识对方的派系而拒掉满怀热心的申请者;看到创业公司出现危机的时候墙倒众人推,而圈内尊敬的人身上爆出丑闻时我们缄默不言。

我学会了这个体制下的潜规则:论文带上大佬的名字更容易中;有 connection 才能拉到更好的 funding,申请到更好的学位和职位;fake it till you make it——《Bad Blood》(强烈推荐这本书)。在适当的时候我会装作圆滑,跟诸位老板们都保持着良好的关系,渐渐失去的却是作为一个(可能成为)学者的风骨和所谓“少年气”的气质。

越写下去越发现自己的文笔之贫瘠,就此作罢。不知不觉已经凌晨两点——又是一事无成的一个周末,好在终究把积郁在心中的一些想法写了出来,新的一周也不再去纠结一些人和事情。愿诸君事业有成,不忘初心。

Author: expye(Zihao Ye)

Email: expye@outlook.com

Date: 2020-05-18

Last modified: 2020-07-30 Thu 01:44

Licensed under CC BY-NC 4.0