[编程开发] 什么样的人可以拿到NLP大厂岗位?

[复制链接]
欢迎新会员 发表于 2023-10-8 06:55:50|来自:北京 | 显示全部楼层 |阅读模式
2022年校招生~ 留学生 勉强算个top50大学
看到同学们一个接着一个都拿到大厂offer了
开发岗产品岗都有,算法岗几乎没有,只有一个同学有。问了下相关情况,明确说了我没有任何优势,的确如此。
我的背景: 本科非计算机专业,研究生人工智能top50。正在做research的小项目,刚刚开始,就算面试也没有太多能提。也刚刚开始一段实习(真的是刚刚,才来一周),第一周就熟悉了下要做的东西,面试基本也没什么能说的。 基础的模型像什么bert, lstm什么的基础原理都能懂。 算法代码笔试基本能过没什么大问题。不过没有paper,国外发paper太讲究天时地利人和了,国内研究生人手几篇paper确实刚不过。
实在不知道该怎么准备面试了,感觉毕业就要失业,实在是被打击的太惨了。逐渐失去信心。
想知道能进大厂拿nlp算法岗位校招的小伙伴们都人均什么水平,我这样的是不是完全没机会了。要搏一搏的话该怎么准备面试,感恩大噶~ 谢谢~
全部回复4 显示全部楼层
wangdabian 发表于 2023-10-8 06:56:31|来自:北京 | 显示全部楼层
本人目前研二,在后厂村某公司NLP日常实习,看到马上要到3月份了,很多同学要开始暑期实习面试或日常实习了。虽然我是不打算参加暑期实习了,打算在这里摸鱼到秋招提前批hh。但我想到我当初研二刚开学,21年10月份日常实习面试的经历,可能会对某些即将面试的同学有所帮助,所以决定把自己亲身经历的面试内容做个分享,以下所有内容均是面试真实问到的内容。
还有我当初日常实习面试的时候算法题都是最后才问的,不知道暑期是怎样的,但我经历的情况都是最后才问。
京东广告NLP一面:
项目以及通过项目延伸的相关知识,除了项目里面用到的技术,与此相关的也要有些了解,面试官蛮喜欢问的,比如我就被问到beam-search生成的句子基本都一样,是否有方法扩展生成句子的多样性。
layer normalization和 batch normalization的区别,padding对这两者有影响吗,对哪一维有影响。
给定transformer输入维度,头数,计算总的参数量。
是否有大数据相关的经验。
lstm隐藏层的维度,哪3维。
resnet的维度,有几维(这个忘了是不是项目里有用到才问的,应该正常nlp不会问resnet吧)。
pytorch.Dataloader 报错出现数据维度不一样怎么解决。
算法题(说思路):无序数组,找topK,要求比快排快。
京东广告NLP二面:
项目及相关。
Bert里面mask的用处。(15%)
文本任务,文本是直接送入模型吗,有做什么处理吗。
文本生成的多样性怎么做。
怎么让生成的文本流程。
红色和绿色是两种颜色,怎么保证不会把红色的东西输出成带有绿色的文本(质量保证)。
对于两个词怎么算他们的相似度,用基于word embedding的方式。
算法题(说思路):
1.最大子序列和。
2.给定一个长的标题,有一个禁用词词库,过滤标题里面的禁用词。
京东广告二面的问题基本是基于项目和面试官他们组做的事情来提问的,通用基础知识问的不多。
货拉拉风控一面:
项目及相关。
了解过Bert吗,说一下Bert。
说一下fasttext。
说一下word2vec里面的优化方式(就是hierarchical softmax和negative sampling这两个东西)。
算法题(说思路):leetcode49题 字母异位词分组
京东科技算法一面:
Bert里面为什么用layer normalization,而不用batch normalization,分别讲一下这两个啥意思。
Bert里面为什么Q,K,V要用三个不同的矩阵,用一个不是也行吗。
Bert和transformer讲一下。
AUC指标讲一下。
Precision和Recall讲一下。
GBDT和Xgboost的区别。(问这些可能是我简历里面写了掌握这些知识)
Xgboost叶子结点的值怎么计算的。
LightGBM对于Xgboost有什么改进。
防止过拟合的方式。
Adam讲一下。
lstm为什么会梯度消失,怎么解决。
lstm和bert的区别。
深拷贝和浅拷贝。
python装饰器的原理。
python多线程和多进程。
了解哪些排序算法。
说一下快排和归并的原理。
word2vec原理讲一下,hierarchical softmax和negative sampling讲一下。
Faiss里的hnsw怎么提高效率,讲一下。(项目相关的)
了解SQL和Hive吗。
分类任务不用交叉熵,用均方误差可以吗。
算法题(说思路):有一个矩阵,从左上走到右下共几种走法。(DFS)
京东科技虽然JD是算法实习生,但是看招聘要求的工作内容主要是python开发,有一大堆我没见过的python库。
京东科技算法二面:
项目及相关。
说一下transformer。
为什么要加layer norm层。
为什么用Adam。
python的语法和框架。
算法题(敲代码):手写个链表反转。
陌陌推荐算法一面:
他们工作要求用的是tf2.0以上。
项目及相关。
Word2vec,fasstext说一下。
有亿个新闻标题,怎么进行词向量表征。
怎么进行句子的表征(词到句子)。
Attention的方式。
beam search(项目相关)。
bert了解吗,看过源码吗。
训练时碰到Nan这样的情况吗。
交叉熵公式,softmax公式。
检索式的过程(召回,精排)(项目相关)。
百度NLP一面:
项目及相关。
论文。
说一下transformer。
layer normalization 和 batch normalization。
知道git,shell脚本吗。
项目里面具体怎么实现PGN的(项目相关)。
知道什么生成模型吗。
算法题(敲代码):最长公共子序列,要求找出那个序列,要求代码能运行。
腾讯PCG NLP一面:
腾讯当初面试流程很慢,说共四面,每面中间隔一到两周,约我二面的时候,我都上班一周了,也可能那时候10月份速度慢吧。
了解哪些预训练模型。
了解哪些生成任务的指标。
说一下free running和teacher forcing的区别。
有些哪些过拟合的方法。
项目及相关。
论文。
GPT的训练方式。
算法题(说思路):二叉搜索树,找第K小的值。
京东健康NLP一面:
项目及相关。
greedy search 和 beam search的区别。(项目相关)
RNN 和 LSTM的区别。
RNN 为什么会出现梯度消失的现象。
word2vec有几种方式。
对于意思相近但表达方式不同的词,怎么知道它们是同一个意思。
对于句子结构相似,但里面关键词不一样的情况,怎么注意到关键词。
我当初面试过的公司就只有几个,因为我面试时间比较短,9.27晚开始投简历,10.13收到心仪offer,后面就都没面试了。后面还有快手,美团约面试,腾讯pcg2面,但是因为已经上班了,所以都拒绝了。然后我只是个普通双非院校的同学,要是有人对于我们这种背景如何找实习感兴趣的话,欢迎评论,人多的话我可以写一下。感谢。
zpgzs 发表于 2023-10-8 06:56:42|来自:北京 | 显示全部楼层
现在的大学生们太焦虑了,想着我那时候的大学,玩玩闹闹也就过去了。读个硕士,手头有一个实习,找工作可是太吃香了。而现在,人人都在焦虑,大家都觉得竞争者们手握多个大厂的实习,大家都觉得现在找算法工作的同学们人手几篇顶会。
事实上呢?全国能放实习的学校和老师很少很少,有一段秋招实习的同学已经算是很幸运了,数个实习经历的同学就真的是运气爆棚,碰巧在一个放养的老师手下干活。至于论文,那更是可遇不可求,想发论文几乎百分百得跟一个好导师,这个导师是个广义的概念,可能是厉害的师兄师姐、也可能是企业research岗位的mentor。全国NLP/ML相关的research实习无非就那么几个,MSRA、达摩、腾讯ailab、微信模式识别中心、京东数据科学实验室、百度研究院,还有香农等一些以发论文为一个业绩指标的独角兽公司。要么就自带论文进组研究,要么就学校+基础+编程能力过硬,能通过面试。甚至还必须要有熟人引荐才有机会面试。全国那么多研究生,有多少有这样的机会?所谓的人手几篇顶会,根本就是无稽之谈,何必自己让自己那么焦虑,还是错误的、无谓的焦虑。
进入大厂做NLP不难,难的是核心部门的高薪offer。这么说吧,学历/基础/编程/项目/比赛/论文/实习/运气,8者有其3进大厂就没啥问题;8者有其4就可以拿sp+;8者有其5就可以拿ssp+。我相信大部分硕士毕业生,学历/基础/编程/项目这四个,在好好学习的情况下,基本都能满足吧,学历不满足可以拿比赛/实习/论文顶上。学历/基础/编程+一定数量的一作顶会,这是冲击头部计划的同学的配置。恕我直言,一篇论文的同学和没有论文的同学,基本没有区别,企业看的主要是你的动手能力。除非论文到了3篇以上,这才有质的区别。
不要焦虑,你要是冲着头部计划去的当我没说,如果就冲着大厂NLP岗位去的,把手头的实习认真做好,基础、算法题好好复习,一点问题都没有。
senholy 发表于 2023-10-8 06:57:19|来自:北京 | 显示全部楼层
本人硕士,学校211,有幸收了不少nlp大厂算法岗off,感觉算法确实比较卷。和非常感谢自己导师,实验室提供显卡来供我们学习使用以及提供实习机会,以及师兄师姐的悉心教育。感觉首先得有实习,其次论文也比较重要,最后就是项目。(感觉大厂实习尤为重要)
大部分off来自投递的提前批,简历大概情况如下:
1、实习的话,本人有八九个月的外企nlp算法实习,主要是发论文相关的(大概中了2篇,非1作,一个顶会一个顶刊),也做一点实习项目。
2、有一个nlp算法的竞赛第一名。
3、实验室项目也有一些国重项目的参与。
4、本科期间有不少建模类的国二和国三奖项。(不过面试的时候基本都没问过)
提前批的时候确实感受到了内卷的程度,某些大厂的流程全部通过后被告知没有hc了(应该是过面试的比较多,把自己排序给排后面去了)
面试过程中,感觉大部分大部分问题均回答出来,而且算法题大部分都是秒杀过的(leetcode刷了600+,感觉面试基本都是做过的,且长久的题就那么100个左右),这种情况下依旧各种被淘汰~甚至有次大厂面试,一二面均是一道hard、mid都秒过的情况,三面写transformer伪代码也ok的情况下,hr面后明确告知ok的情况下,过几天告知没有hc了~
最后暑假提前批结束后,因为没啥事情就去腾讯实习一段时间,暑假秋招时也一些之前投递挂掉的公司重新邀请面试,当时的第一感受:自从有了腾讯实习后,基本所有面试官先关注大厂实习,其次再问其他的。虽然一直在实习,很多面试问的东西不熟练了,但是也收割了off。
最后个人总结:首先面试的问题基本都要ok,否则让面试官感觉自己某方面欠缺就很容易挂掉,其次就是个人竞争力也是提升、(大厂)实习、论文(感觉重点关注顶会论文,曾经有面试官问我为什么投sci,不是计算机应该投会议嘛 ahhhh)、项目(尽量是比较大点的,我各种自己研究生阶段写的各种练手小项目,基本都没问)、竞赛,感觉重点是实习和论文吧。甚至很多讨论区都在传实习、顶会论文算是标配(可能我没顶会1作是我的弱势项目)。
当然也和部门有关系,大厂也有核心部门和边缘部门,自己也感受到过,有的不是很突出的部门,明明回答的有所不足,但是却可以过面试。有的核心部门,回答的全是已经回答过很多次的问题,基本不会有问题的,算法也都秒掉了,但是还是挂掉了。
给楼主的建议是:首先是现在的情况,如果实习的是大厂的话,建议努力一点,争取转正,感觉实习是最容易拿到off的,因为只要你能力得到认可,感觉有无论文不是那么重要,其次就是多干活,尽量自己缩短企业对你的培养时间,一方面增加转正机会,另一方面则是尽快弄出成果,好面试其他公司的时候,有东西可以说。
建议找人内推一些边缘部门,边缘部门竞争压力相对较小且提前批、秋招的off估计也容易被鸽,春招的名额应该也会比较多。
yanjifu 发表于 2023-10-8 06:57:33|来自:北京 | 显示全部楼层
本人21届小硕一枚,现在科技园某大厂,有幸拿到了一些大厂,但是可以看到算法确实越来越卷,越来越难,这是趋势,不过楼主不要丧失信心呀,生活还是要继续,我的秋招完全得益于实习,我也没论文,也很菜,楼主刚刚实习,我觉得可以把现在的东西和自己以前学的东西,整理一下,最好有关联,能够从更高的视角讲述一下自己的理解,这样会有一个很好的影响分,或者可以有意识的讲讲目前比较火的技术方向,让面试官知道你平时是有追踪前沿科技的,总之不要灰心,没有什么的,加油

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则