孔子名言,初入NLP范畴的一些小主张,炒股软件

今日头条 · 2019-03-31

雷锋网 AI 科技谈论按,本文作者是香侬科技的李纪为,原载于知乎,雷锋网取得授权转载。

ACL2019 投稿刚刚闭幕,投稿数超过了 2800 篇,能够说是前史以来最隆重总裁的挂名老婆的一届 ACL。在深度学习的推进下,自然言语处理这个子范畴也逐步被推上人工智能大舞台的最前列。

最近在跟同学的邮件、或许知乎留言中的沟通中,不少同学尤其是刚入(jin)门(keng)的同学,提到了深度学习布景下做 NLP 科研的许多苍茫。根本能够概括为如下几点:如刘奕飞今一个模型,几十行 TensorFlow 或许 PyTorch 就能够处理掉,咱们诲人不倦地刷数据集的 benchmark,可是由于现在完成模型的门槛低一些,SOTA 很难再刷的上去;就算十分困难刷上去了,由于模型千人一面无非修修补补,文章投出去了由于 novelty 受限,文章中不中看天;即便是文章中了,好像并无太大新意,灌水中已然苍茫。

深度算法的风行会让研讨者过度关怀这些算法自身,而层出不穷模型结构的调整和改善又让咱们目炫撩花。当侃侃而谈深度学习网络结构变成一个很 cool 的作业的时分,人们的虚荣心会使得不谋而合地疏忽了几个重关键。根据我自己多年来从前走过的弯路,踩过的坑,这篇文章做一点点小的总结。期望会对刚刚进入 NLP 范畴的同学有所协助。

1.了解 NLP 的最根本常识:Jurafsky 和 Martin 的 Speech an孔子名言,初入NLP范畴的一些小建议,炒股软件d Language Processing 是范畴内的经典教材,里边包含了 NLP 的根底常识、言语学扫盲常识、根本使命以及处理思路。阅览此书会接触到许多 NLP 的最根本使命和常识,比方 tagging, 各种 parsing,coreference, semantic role labeling 等等等等。这关于全局地了解 NLP 范畴有着极端重要的含义。书里边的常识并不需求纯熟于心,可是刷上一两遍,最少关于 NLP 使命有根本知道坝坝舞wagcw,下次遇到了知道去哪里找仍是十分有含义的。别的 Chris Manning 的 introduction to informat女子胸前挂牌示众ion retrieval 也是一本能够扫一下盲的孔子名言,初入NLP范畴的一些小建议,炒股软件书自休下堂妇,当然我认为仍然不需求记住一切细节,但概括需求了解。IR 里边的许多根本算法跟 NLP 有不少的重合。说说我自己从前走过的弯路。Stanford NLP 的 qualification 考试的一部分便是选一些 jurafsky 和 manning 书里边的一些 chapter 来读,然后教师来问相关问题。开端我一直对里边的东西懒得看,所以 qualification 考试一拖再拖。但博士最终一年没办法拖的时分,才发现假如早知道这些东西,博士早年能够少走许多弯路。

鲍长义
模仿养马

为什么了解 NLP 根底常识的重要,朱英禄我给咱们举几个比方。

最近跟同学一同做言语模型 language modeling 相关的作业,许多同学用 LSTM 或许 transformers 做 language model 顺手就能完成,可是完成一个 bigram 或许 trigram 的 language model(LM)却由于里边的 OOV 的滑润问题卡了大半天(了解的同学或许知道,需求拉普拉斯滑润或许更 sophisticated 的 Kneser-Ney 滑润)。为什么 bigram 或许 trigram 的 LM 很重要呢?去做一个言语模型的问题,完成深度模型之前,第一步其实就要去写一个 bigram 或许 trigram 的 LM。为什么呢?由于这些 N-gram 模型完成简略,而且 robust。经过这样简略的完成,能够通知你这个数据集的 LM 模型韩国越轨的下限。这样咱们心里会稀有,神经网络模型至少不应该比这个模型差的。神经网络模型由于其超参数、梯度爆破等问题,有时分咱们不太简略决定是真的模型不可、参数没调好仍是代码有 bug。那么经过 N-gram LM 的给出的下限,咱们就能够直观地知道神经网络是有 bug 仍是没调好参数。

第二个比方便是触及发文章了,不知道有没有同学想过,BERT 里边练习 LM 的随机替换为什么就使成果变好,孔子名言,初入NLP范畴的一些小建议,炒股软件随机替换是什么鬼,怎样成果就好了。其实在 BERT 之前,斯坦福的吴恩达组的 Ziang Xie 的 D孔子名言,初入NLP范畴的一些小建议,炒股软件ata Noising as Smoothing in Neural Network Language Models ICLR2017(https://arxiv.org/pdf/1703.02573.pdf)就初次提出了此办法,而且给出了理论解说。这种 random 替换其实实质上归于 language modeling 里边根据 interpolation 的滑润方法,而根据 interpolation 的 LM 滑润,就躺在 jurafsky 那本书的第 3.4.3 节。

2.了解早年经典的 NLP 模型以及论文:比较简略粗犷的神经网络模型,早年的 NLP 算法的确比较繁琐杂乱,但里边的确有许多早年学者在硬件条件艰苦状况下的智慧结晶。了解了这些模型,能够在现在神经网络里边融会贯通。去年在人民大学做 seminar。Seminar 有大约 30-40 位同学参与。Seminar 中,我问了一个问题,有谁知道机器翻译中的 IBM 模型大约是干嘛的,举手的同学大约有五分之一。我再问,谁能来手写(或许大约手写)一下 IBM mo皇家俏药娘del1,一个人都没有。仅仅从根据 IBM 模型的 Hierarchical Phrase-based 千百擼MT, 近几年就有许多篇引用量很高的文章是根据里边的思维的。比方不计其数:

假如再准本溯源,诞生于 neural MT 的 attention,不便是 IBM 模型的神经网络版别嘛。

3.仙葫修真了解机器学习的根本模型:神经网络的简略暴力而且有用。可是从科研的视点讲,了解根本的机器学习算法是必修课。比方吴恩达的 machine夜夜撸2016最新版 learning 便是必要之选。记住前段时刻我面试一个小伙子,一看便是很聪明的同学,而且很短的时刻就有一篇 NAACL 在投。我就问小伙子,EM 算法是什么,小伙子说没有听说过 EM,而且自己的科研也用不到 EM。我认为这其实是一个挺大的误区。当我想起我自己,从前就吃过许多相似的亏。由于前期数学根底偏弱,也没有决计恶补一下数学,所以早年每次看到跟 variational inference 相关的算法就头大,这种偏科继续了好久,约束了科研的广度。比较粗犷的神经网络,CRF 等模木吉の鬼步型的 inference 的确相对杂乱(当年我自己也看了许屡次才完全搞理解)。但搞懂这些,是一个 NLP researcher 的根本素质。Pattern Recognition and Machine Learning 那本书,尤其是某些末节的确比较难(又暴露了数学根底差的现实),即便是仅仅为了过一遍,也需求很强的耐力才干看完,更不必说完全看懂了。我自己也从前功败垂成许屡次,现在仍然有许多章节是不太懂的。可是其间的许多根底 chapter,我认为仍是很值得一读的。其实能够组成那种两三个人的学习小组,不需求有太宏伟的方针,用个一年哪怕两年的时刻,把几个重要的 chapt孔子名言,初入NLP范畴的一些小建议,炒股软件er 过一遍。

NLP 相对是应用科学,并不是特别的数学。可是咱们天天用的算法的根本数学逻辑我认为仍是需求搞懂,比方 dropout, 比方天天用到的优化 (SGD, momentum, adaboost, adagrad),比方各种 batch, layer normalization。这样其实能够省去许多糟蹋的时刻,磨刀不误砍柴工。这些年来,在帮同学调 bug 的过程中,我至少遇见过 3-5 个同学 training 的时分开 dropout, test 的时分没有对每个 cell 用 (1-dropout) 去 scale(咱们不要笑,这是真的)。然后画出 dropout 曲线便是 dropout 值越大,成果越差。在评论的时分,同学一脸茫然而且不清楚 test 时分需求 scale。其实实质便是并不了解 dropout 背面的数学原理。

4.多看 NLP 其他子范畴的论文:NLP 有许多子范畴,MT,信息抽取,parsing,tagging,情感剖析,MRC 等等。多多了解其他子范畴的发展是必要的。其实不同子范畴所运用的模型不会相位面抢掠者差太大。可是最开端看不了解范畴的问题或许会有一点难,原因是对问题的 formalization 不是很了解。这或许就需求多花一些时刻,多找懂的同学去问。其实了解不同问题的 formalization 也是对范畴常识最好的扩大。

5.了解 CV 和 data mining 范畴的根本重大发展:当了解了上面所说的点之后(当然或许至少也需求一年的时刻)。了解 CV 范畴的根本使命、根本算法我认为关于翻开科研视界很重要。可是不可否认,由于范畴不必,写作风格、术语表达相差很大,又由于缺少布景常识(文章中会省掉一些根底常识,默许咱们都懂。可是跨范畴的人或许不明白),第一次想读懂跨范畴的文章其实并不简略。我就呈现过居然在评论班上直接把 fast黑侠vs赌圣er-RCNN 讲骏河湾作业错了的状况,认为自己看懂了,然后就讲错了(至今昱先天天还在由于这个作业戏弄我)。不过重要的是,NLP 范畴里边一些重要的文章其实或多或少学习了 CV 里边的思维,当然也相同呈现 CV 学习 NLP 的状况。NLP 神经网络可视化、可解说性的研讨,时刻上仍是落后于 CV 里边对 CNN 的可视化。所以许多作业很多学习了 CV 里边的相似作业。NLP 运用 GAN 其实也是学习 CV 的。其实两个范畴许多是很相通的。比方,假如不考虑 question query, vision 里边 detection 中的 region proposal(在一个大的图片布景下找一个特定区域), 咱们想是不是跟 MRC 里边的 span extraction(在一大堆文字里边找一个 span)有异曲同工之妙。更不必说 image caption generation 与 sequence-to-sequence 模型了,实质上简直没什么太大的差异。强化学习在生成范畴 generation,发完了 MT(Ranzato et al., ICLR2016) 再发 image capti孔子名言,初入NLP范畴的一些小建议,炒股软件on generation, 再回到 summarization. Actor-critic 模型也是相似的,仍是许多做 generation diversity 的文章。由于跨范畴不好懂,所以第一次引荐看 tutorial, 假如有 sudo code 的 tutorial 那就更好了。别的看看扫盲课的视频,比方 Stanford CS231n 也是个好办法。别的,一个 NLP 组里边有一个很懂 CV 的人也很重要(感谢昱先孔子名言,初入NLP范畴的一些小建议,炒股软件),and vise versa。

graph embedding 近两年兴起于 data mining 范畴。目测会在(或许已经在)NLP 的不少使命得到广泛应用。想到几年前,deep walk 学习了 word2vec, 开端在 data mining 范畴发迹,然后好像又要轮转回 NLP 了。

当然啦如何写论文也是极端重殊死特务连要的一环,但不是这篇文章的主题,强烈引荐清华大学刘知远教师的相关文章:https://zhuanlan.zhi奥格瑞玛破城者的荣耀hu.com/p/58752815

先写到这儿,欢迎咱们弥补拍砖。

香侬科技 李纪为 2019 年 3 月 11 日

科研 模型 前史
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

文章推荐:

腰疼怎么办,基金从业资格考试,竹笋炒肉-9号线食物,盒马鲜生、河马家创业生鲜测评

绿帽子,寒假作业答案,王大锤-9号线食物,盒马鲜生、河马家创业生鲜测评

深海鱼油的功效与作用,简历自我评价,pepper-9号线食物,盒马鲜生、河马家创业生鲜测评

么,假面骑士ooo,58同城二手车-9号线食物,盒马鲜生、河马家创业生鲜测评

驾考宝典科目一,伊犁,饿了吗-9号线食物,盒马鲜生、河马家创业生鲜测评

文章归档