中国科学院计算技术研究所客座学生面试

中国科学院计算技术研究所客座学生一面(40min)

面试是计算所的phd电话交流的，流程如下：

介绍了要做的项目

ICT，商汤和南方电网一起合作的项目。主要做LLM+时序预测，有卡有数据集，但是数据集是南方电网的内部私有数据集，不能公开。
谈谈之前做过的LLM相关的项目，有没有自己跑过，或者测试过一些LLM？

讲了远程实习那段用LLM做漏洞检测和漏洞修复的工作。

pytorch熟不熟？深度学习代码实现能力怎么样？

讲了自己比较熟悉NLP相关的，CV几乎没怎么做过。
为什么要分成NLP和CV两个领域，pytorch代码不应该是差不多的吗？

讲了自己在澳大那边做自动驾驶的时候，遇见的PyG这个包里面会有用来处理图节点之间信息传递的函数，要看一下官方文档才知道到底是用来做什么的。

那讲一下BERT，对BERT熟悉吗，它的训练任务是什么，它和GPT之间有什么区别吗？

BERT:
用过，做过一个情感分析的项目。架构是用的transformer encoder，双向。训练任务分为两种，一种是mask掉一部分词语，让模型预测这些词语是什么，另一种是给定两个句子，让模型判断这两个句子是否是连续的。用的损失函数是交叉熵，优化器是Adam。具体训练任务是用的CLS token的输出来做分类任务。BERT主要用在NLU(Natural Language Understanding)任务上，比如文本分类，情感分析等。

GPT:
没接触过，架构用的是transformer decoder，训练任务就是词语接龙。损失函数会最大化下一个词的概率。用的是自回归的方式，每次预测下一个词的时候，会把前面的词作为输入。优化器是Adam。GPT主要用在NLG(Natural Language Generation)任务上，比如文本生成，对话生成等。
用过tensorRT吗，分布式了解过吗，多卡训练有经验吗？需要用tensorRT测一些模型的latency，属于一些杂活，文章会挂名能不能接受？

完全没用过~~但是可以学~~。多卡只跑过inference。完全没问题。
数学怎么样？二项分布，伯努利分布，正态分布这三者之间有什么关系？大数定律知道吗？做个场景题：优惠券问题。

伯努利实验就是0-1分布，二项分布是n次伯努利实验，正态分布是二项分布的极限分布。大数定律是指随着样本数量的增加，样本均值会逐渐收敛到总体均值。

场景题完全不会）
来问点传统的算法，讲讲快速排序是怎么样的，时间复杂度是多少？还有哪些排序算法可以说一说的？

快速排序具体做法是先选一个基准值，然后把比基准值小的放在左边，比基准值大的放在右边，然后递归的对左右两边进行排序。时间复杂度是O(nlogn)。其他排序讲了堆排，具体做法是先构建一个大顶堆，然后把堆顶元素和最后一个元素交换，然后把剩下的元素重新构建大顶堆，重复这个过程直到所有元素都排好序。时间复杂度是O(nlogn)。
有什么问题要问的吗？

随便问了一点关于项目的问题。

update: oc，已拒绝。

中国科学院计算技术研究所客座学生 一面(40min)

中国科学院计算技术研究所客座学生一面(40min)