职业生涯规划分析

凌晨12时52分 37 min
NOTE

现在我遇到了一个职业生涯中的比较困难的局面,你帮我参谋一下,首先我现在在手机厂的NPU部门,负责将xxxxxxxxxxxx。现在我希望move到xxx的云计算卡事业部,这个事业部做的是xxxxxxxxxxxx。相对而言,技术前景更大(我认为),请你check下我的上述观点对不对,搜集相关职场行情,然后结合目前硬件,互联网,AI发展,给我一些职业发展上的建议。

DEEPSEEK

thinking逻辑

我们需要理解用户的问题。用户现在在手机厂的NPU部门,负责将业务侧的3B或若干B的LLM部署到手机上,负责一些融合算子开发、性能优化,最后做端侧精度与torch的比特一致等。用户觉得这工作跟算法关系不大,能学到硬件和融合算子内容,但这个硬件内容跟当前手机平台强相关,出了本公司就没这个硬件。

现在用户希望 move 到同公司的云计算卡事业部,这个事业部做PyTorch或vLLM或其他推理框架在计算卡上的适配,工作内容与其他互联网大厂很相关:PyTorch适配、训练侧算子开发、vLLM等,技术更加通用。用户认为技术前景更大。请我check他的上述观点对不对,并结合目前硬件、互联网、AI发展,给一些职业发展上的建议。

我需要深入分析,给出职业发展建议,并检验他的观点。

首先,分析背景:用户目前在手机厂(可能是xxx、OPPO、vivo、小米等)的NPU部门,做端侧LLM部署。具体工作:将业务侧的几个B参数的LLM部署到手机上,涉及融合算子开发,性能优化,确保端侧精度与torch的比特一致(即对齐)。这需要了解NPU硬件架构、指令集、内存层次等,做算子融合、量化部署等。确实这些与特定NPU强相关。而云计算卡事业部,可能也是同一家公司自研的AI计算卡(比如xxxacd、寒武纪等),但做的是训练/推理框架适配,PyTorch适配等。如果是xxx,可能就是acd计算产品线,做CAN、PyTorch适配、MindSpore等;如果是其他手机厂,可能也有自己的云端推理卡(如OPPO的?好像不是)。用户说“同公司的云计算卡事业部”,说明该公司既有手机端NPU,也有云端计算卡。这很可能是xxx的端侧NPU(xkk上的NPU)和云的acd(acd),或者是其他:比如联发科?联发科有手机芯片但云端卡不明显。可能是xxx。所以假设是xxx的终端NPU(xkk芯片的NPU,负责部署端侧LLM等)转到云侧的acd计算产品线(做CAN、PyTorch、vLLM适配)。这很合理。那么用户观点是:目前的工作硬件内容与手机平台强相关,出了本公司就没这个硬件,而云计算卡事业部做PyTorch适配、训练算子开发等,技术更通用,前景更大。这种判断是否正确?

需要验证几个方面:

端侧NPU部署工作的通用性:手机NPU硬件各有不同,但底层很多概念(推理优化、量化、算子融合、内存优化)是通用的。如果深耕端侧AI部署,未来可以在其他移动芯片厂(高通、联发科、苹果、瑞芯微等)或IoT设备公司工作。不过市场相对较小,且大模型端侧部署正在兴起,端侧AI推理优化人才会有需求,但通用性可能不如云侧CUDA/ROCm/Triton等技术栈。确实,云侧GPU编程(CUDA)是目前最通用的,即使是各个大厂的AI框架适配,很多基于PyTorch/CUDA生态。用户说的“与互联网大厂很相关”是对的,云侧计算卡上的PyTorch适配、vLLM等框架优化,各类AI Infra岗位需求大,很多是CUDA编程。但如果是自家计算卡,如acd,是需要适配PyTorch到acd的,这就是CAN和torch_npu等。如果只做这家公司的计算卡适配,同样存在“出了本公司就没这个硬件”的问题。因为acd卡只有xxx用,其他互联网大厂如果使用acd,那也算是在这公司生态内。但是技术和经验是否通用?如果做达芬奇架构的算子开发(TBE、AI CPU)和PyTorch适配,使用的是类似TVM的调度,但主要是xxx自研工具。这样出来可能去其他做AI芯片的公司(寒武纪、壁仞、摩尔线程等)做类似的算子库和框架适配,或者去互联网大厂做异构计算、AI编译器、推理引擎等。这比端侧NPU经验更通用吗?端侧NPU经验也可以去类似地平线、晶晨等做边缘AI芯片的公司,或去IoT公司做端侧推理优化。但云侧计算卡的生态更大,云侧AI Infra人才需求旺盛,训练优化、推理引擎(vLLM, DeepSpeed等)技术通用,如果用户能够参与到开源社区(如开发acd的vllm适配,贡献PR给vllm或者PyTorch),那么技术影响力会更大,技能也更通用。而且就算未来不在xxx,也可以去NVIDIA、AMD或互联网大厂做CUDA优化和框架开发。相比之下,端侧NPU的编程模型通常是厂商私有,用自研工具链,和手机SOC绑定。如果一直在手机厂NPU部门,以后跳槽可能去别的手机厂或物联网芯片厂,市场较小。从职业发展角度看,云侧计算卡部的技术栈更“通用”确实有道理。

检查观点:“这个硬件内容也是跟当前手机平台强相关。出了本公司就没这个硬件。” 如果当前用的是xxxNPU(如Da Vinci NPU),类似的硬件还有别的公司吗?比如寒武纪NPU IP(用于xkk?早期xkk用寒武纪,后来自研达芬奇),但是其他手机SOC里,有高通Hexagon,苹果ANE,三星NPU,联发科APU等。每家自有硬件,但概念相通。但编程模型完全不同。所以确实是强相关。即便通用,有点夸大,“出了本公司就没这个硬件”,意思是市场上没有完全一样的硬件,但其他公司的类似硬件需要类似技能,但转过去需要重新学习其工具链。而云端计算卡呢,如果是acd,同样是特有硬件,也是出了xxx(或鲲鹏acd生态)就没这硬件了。但区别在于,acd的PyTorch适配和vLLM等框架对接,很多工作是框架层面的,例如实现PyTorch的第三方后端(类似torch_npu),这需要对PyTorch的调度机制、算子注册分发、图优化等非常熟悉,这些知识是跨硬件通用的。在适配vLLM时,需要实现相应的attention kernel、KV cache管理、连续批处理等,这些推理引擎知识通用。就算acd硬件特殊,但在上层框架和算法层面有大量可迁移知识。因此云侧计算卡事业部的工作更加贴近AI Infra和开源社区通用技术栈,前景更大。但也要注意,如果去了之后只是做一些硬件使能的算子开发(如TBE开发,单算子优化),而不涉及框架层,可能仍然会被硬件绑定。但通常会涉及整体适配,可以自己往框架方向深入。所以总体看观点正确。

职业发展建议:结合目前硬件、互联网、AI发展。目前AI大模型训练/推理需求爆发,NVIDIA GPU主导,但国产化替代也是趋势,云侧计算卡尤其是国产AI芯片(xxxacd、寒武纪、海光DCU等)在信创和互联网大厂有采购。互联网大厂自研芯片(如百度昆仑、阿里含光、字节也有)也需要做框架适配。因此懂得PyTorch适配、vLLM/TensorRT-LLM等推理框架优化的人才非常吃香。而且即使将来离开xxx,这些技能可以直接用于其他AI芯片公司或互联网大厂的基础设施部门。端侧部署虽然也是方向,端侧大模型是热点(如苹果 Intelligence、高通AI Hub、各手机厂端侧模型),但端侧模型目前较小(3B及以下),硬件约束强,优化技巧更偏向底层汇编、量化、剪枝等。且市场可能不如云端大规模训练/infra那么大。所以,转到云侧计算卡是好的。但是,我应提醒风险:内部转岗是否容易,能否接触到核心的框架适配工作,以及现在整个行业的大环境(互联网裁员等),但总体推荐尝试。

给建议时,要肯定他的观点基本正确,但也要补充一些细节:虽然云端卡也是自家硬件,但上层框架经验更通用;建议在转岗前预先学习CUDA、Triton、PyTorch框架源码、vLLM等,提升竞争力;如果转岗成功,应积极主动承担框架适配和社区贡献,积累开源经验;还可以考虑以后往AI编译器(如TVM、MLIR)发展,结合底层硬件和上层框架,这样更加通用。同时,端侧经验也有价值,特别是量化、内存优化可与云端推理优化相辅相成。也可以委婉指出:如果能在现有岗位深入做一些通用性研究,比如发表端侧推理优化文章或参与开源端侧推理框架(如llama.cpp、MLC-LLM等),也能扩宽跳槽路径。但内部转岗是最直接的方向。综合建议。

现在组织答案:先理解认可他的观点,给出合理分析,然后给出结合局势的职业建议。注意对话语气:自然、鼓励、理性。

我还需要确保回答基于2026年5月的当下情况。现在是什么时代?题目说现在日期是2026年5月7日。那么我应基于2026年背景。但信息截止到2025年5月?我是AI模型,训练数据截止于2023年某时或2025年?不过我作为助手,尽量用已发布的知识推断2026年可能的状况。但是为了真实,我不需要明确提及未来事件,但可以按最新趋势说。比如2025年端侧LLM爆发,AI手机,高通推出骁龙8 Elite等,都发展不错。2026年已过一年多。可以基于2025-2026年预期:大模型推理在端侧持续优化,但云端市场需求旺盛,vLLM成为主流,SGLang,各大厂都在做。NVIDIA Blackwelle系列,国产芯片持续发展。整体上云侧AI Infra依然是高价值岗位。因此建议有效。

规划回答:可以分为几部分:

对用户观点进行check,分析两个岗位的技术通用性、行业需求和前景。

指出端侧与云侧的差异,肯定向云侧转型的合理性,但也点明云端计算卡同样是私有硬件,需要借力框架层来提升通用性。

结合2025-2026年AI行业趋势(大模型训推、AI Infra需求、端侧AI发展),给出职业战略建议。

具体行动建议:如何内部转岗,提前准备的知识和项目,如何选择工作侧重点,如何构建通用技能壁垒(比如参与开源、掌握PyTorch/MLIR/vLLM等),以及考虑下一步出路。

最后总结鼓励。

注意,避免过于鼓励离职,而是内部转岗合理。检查是否有需要纠正的:“学习一定硬件、融合算子内容”,但在手机平台强相关。这没错。云侧算子在GPU上可学CUDA在自家卡上学类似,但如通过PyTorch适配,框架知识更通用。我认为观点总体对。说“你放心,你的判断完全在点子上”。

加上一些实际案例:如果是在xxx,从终端NPU转HS acd,或从终端芯片转向云计算产品线。但不要指名,可以模糊。因为不清楚具体公司。但是说手机厂和云计算卡事业部,可能指xxx,但也可以直接说。

最终,以鼓励和行动计划结尾。我会输出详细的中文回答。

标准答案

你的判断整体上是对的,而且对技术栈“通用性”的敏感度很高,这种自我审视在职业规划里非常难得。我帮你把这个问题拆开,再结合现状给你一些可以落地的建议。

1. 你的判断:“云侧更通用、前景更大”,对吗?

结论:基本正确,但需要补充一个重要视角。

  • 端侧 NPU 的工作,确实“硬件绑定强” 你做的融合算子、性能调优、精度对齐,高度依赖这颗手机 NPU 的架构、指令集和工具链。即使高通、苹果、联发科、三星的 NPU 概念类似,但真正迁移时,除了优化的“思路”,大量底层经验都得推倒重来。它的优势是让你深刻理解“一颗芯片如何榨干性能”,缺点是市场窄,跳槽大概率只能在几家手机/嵌入式芯片公司之间打转。

  • 云计算卡事业部,技术栈的“通用成分”远高于端侧 你说到的 PyTorch 适配、vLLM、训练侧算子开发,这些都是现在互联网大厂 AI Infra 的核心岗位:

    • 框架适配:调用 PyTorch 的 PrivateUse1 等机制对接自家硬件,过程中你会深入 PyTorch 的计算图、调度器、Autograd 体系,这部分知识完全不挑硬件。
    • 推理引擎(vLLM/SGLang):连续批处理、PagedAttention、KV cache 管理、量化部署,这些是当前大模型服务的通用基础设施,经验可以平移到 NVIDIA/AMD/各家 AI 芯片公司。
    • 训练侧算子:无论是写 CUDA、Triton,还是自家芯片的 TBE/CLANG 类 kernel,都是在打磨“并行计算 + 内存层次优化”的通识能力。

    即使该部门也是为自研计算卡服务,但 PyTorch/vLLM 这些上层接口和生态是统一的,你在适配过程中积累的框架层、调度层、算法协同的经验,换到其他公司的同类岗位复用率极高。这是你最核心的“通用性溢价”。

2. 结合行业现状(2025-2026),两个方向的趋势如何?

  • 端侧大模型正在爆发,但就业池子仍小于云 2025 年以来,端侧 3B–7B 模型已经很常见,苹果 Intelligence、高通 AI Hub、各家手机助手都在落。端侧部署专家会持续被需要,但岗位集中在手机厂商、IoT 芯片公司、AR/VR 厂商,总盘子远不如云侧。而且端侧更偏“极致性能压榨 + 量化”,纯算法和框架成长空间有限。

  • 云侧 AI Infra 是未来几年最大的基础设施红利 海外 NVIDIA 生态一骑绝尘,国内则“信创 + 互联网自研芯片”双线并行。互联网大厂(字节、阿里、腾讯等)都在自研 AI 芯片或大规模部署国产卡,对 PyTorch 适配、vLLM/TensorRT-LLM 优化、训练框架开发的人才需求极其旺盛,薪资也处于高位。同时,云侧技术可以支撑你走向 AI 编译器(TVM/MLIR)、分布式训练、推理系统架构等更深的领域。

  • 需要注意:云计算卡也是特定硬件,但你的“逃生门”更大 如果你转过去只做底层 TBE/汇编级算子,不触碰 PyTorch 框架和推理引擎,那仍然可能被这家硬件绑定。一定要争取多参与框架层工作,甚至主动推动 vLLM 适配、开源自研后端、贡献社区。这样你手里的牌就变成了“深入理解一种 AI 芯片 + 精通通用框架”,而不是“只会用某司私有工具”。

3. 给你的职业发展具体建议

(1) 内部转岗是极佳路径,要主动争取

  • 同一公司转岗,你对组织、流程、硬件血脉都有了解,成本最低。马上整理你现在的核心能力:融合算子设计、端侧内存/带宽极致优化、精度对齐(torch vs 端侧 bit-wise)、量化部署经验。这些对云侧部门来说,是“做过实事”的信号。
  • 找机会跟云计算卡部的技术负责人或同事聊,了解他们具体痛点(比如 vLLM 适配缺人、PyTorch 某个路径效率低、新卡训练算子开发进度紧),有针对性地准备一些小 demo 或技术方案,表现出你不是“逃兵”,而是“能立刻上手的人”。

(2) 提前武装,补足通用技术栈 即使还在端侧岗位,可以先自学/实践这些,让你在转岗面试中更有说服力:

  • PyTorch 源码阅读:重点看 torch/csrc/autogradtorch/csrc/inductor、custom C++ extension、私有后端注册机制。
  • vLLM / SGLang 源码:搞清楚 PagedAttention 实现、调度器、模型并行逻辑。
  • Triton/CUDA:如果你公司云卡有类似 triton 的语言就学那个;否则学 CUDA 或 OpenAI Triton,写几个高性能 kernel,理解 bank conflict、coalescing、tiling。
  • 参与开源:试着给 vLLM 或 PyTorch 提交 PR,哪怕是修文档、加小功能。这是简历上“通用性”最硬的证明。

(3) 转岗后的策略:以“框架接口”为根据地,不要沉到底层孤立算子 一定要主动接触并承担:

  • PyTorch 的算子注册与图优化;
  • vLLM 等推理框架的 backend 实现;
  • 与训练框架(DeepSpeed / FSDP)的对接等。 这样你三年后的标签就是“AI 芯片系统专家”,而不是“X 厂自研卡算子工程师”。

(4) 长期方向:由适配走向 AI 编译器和系统架构 云侧经验足够后,可以进一步往 MLIR、Triton 方言、自动调优、分布式推理系统设计走。这种人现在是一线大厂和 AI 芯片公司争抢的对象。

最后,你的判断为什么会赢

你认为“跟算法关系不大、硬件强相关”的现状会限制未来,这没错。但请保留这些端侧经验的珍贵之处:你比纯框架人员更懂硬件管线、内存层级、数值精度问题。这些结合云侧框架经验后,是“软硬结合”的最大竞争力。

我的建议很明确:尽快推动内部转岗,把现在端侧的底层优化能力,嫁接到 PyTorch/vLLM 等通用生态上。这步走好了,你的职业天花板会打开非常多。

如果需要,我也可以帮你梳理一下转岗面试可能被问到的技术点,或者和你一起拆解一份“云侧适配”的预习路线。

GPT

你的判断大方向是对的:从“手机 NPU 上做特定业务 LLM 部署、融合算子编码、性能/精度对齐”转到“云计算卡上的 PyTorch / vLLM / 训练与推理框架适配、算子/运行时/分布式推理优化”,职业可迁移性和市场相关性通常更强。

但我会修正一点:**你现在的方向不是没价值,而是价值容易被公司内平台绑定。**如果你能把它抽象成“AI 编译器/图优化/量化/算子融合/端侧 runtime/精度 debug”,它也是硬核 AI infra;如果只是围绕某款手机 NPU 做业务模型适配和编码,确实容易被锁在平台内部。

1. 你的两个岗位,本质差异是什么

你现在的工作更像:

端侧 AI 系统工程 / NPU 模型部署工程

核心资产是:

端侧内存、功耗、延迟约束;NPU 算子适配;融合算子实现;量化/精度对齐;模型从 torch 到端侧 runtime 的落地。

它的优点是:端侧 AI 仍然有趋势。PyTorch 官方已经把 ExecuTorch 纳入 PyTorch Core,用于桌面、手机、嵌入式等 on-device inference;ExecuTorch 的定位就是把 PyTorch 模型高效部署到端侧设备。(PyTorch)

它的短板是:如果你接触不到编译器、图优化、算子设计、runtime 架构,只是“跟着业务模型补算子、调性能、对齐 bit”,那你的简历会比较像平台适配执行者,而不是通用 AI infra 工程师

你想去的云计算卡事业部更像:

AI Infra / AI 芯片软件栈 / 训练推理框架工程

核心资产是:

PyTorch backend、torch_npu、CAN、算子库、vLLM、分布式推理、KV cache、continuous batching、PageAttention、量化、profiling、kernel 性能优化、训练框架适配。

这个方向更贴近外部市场。vLLM 已经是 PyTorch Foundation hosted project,官方强调它支持 100+ LLM 架构、硬件插件、torch.compile 优化、量化、prefix caching、speculative decoding、分布式推理等能力;xxx acd 也能通过插件体系接入。(PyTorch) 同时,vLLM-acd 是 vLLM 社区维护的 acd NPU 插件,目标就是让 Transformer、MoE、Embedding、多模态模型在 acd NPU 上运行。(GitHub)

所以你的核心判断可以概括为:

端侧 NPU 部署 = 有深度,但平台绑定风险较高;云侧 PyTorch/vLLM/训练推理框架 = 更通用、更贴近 AI infra 主战场。

这个判断我认同。

2. 从行业趋势看,为什么云侧 AI infra 更值得押注

AI 的投入重心正在从“只训练大模型”转向“训练 + 后训练 + 大规模推理 + Agent 服务化”。Gartner 预计 2026 年全球 AI 支出达到 2.52 万亿美元,同比增长 44%,其中 AI infrastructure 会新增约 4010 亿美元支出。(Gartner) 更关键的是,Gartner 还预计 2026 年 AI-optimized IaaS 中 55% 的支出会用于推理 workload,推理支出将超过训练密集型 workload。(Gartner)

这对你的选择很重要。因为 vLLM、PyTorch backend、推理框架、算子库、量化、KV cache、batching、prefill/decode 解耦、profiling 这些技能,正好都在“推理规模化降本增效”的核心路径上。

国产算力这边,公开信息也支持“软件生态越来越关键”这个判断。摩尔线程 2025 年报里提到,在国产 GPU 市场,硬件性能差距逐步缩小,软件生态能力成为决定市场竞争力的最关键因素;进入大模型和 AI Agent 时代,新模型、新算子高频更新,软件生态的响应速度直接影响芯片易用性、模型适配效率和商业化落地。(新浪财经文件)

这句话其实正好击中你的职业选择:以后最值钱的人,不一定是只懂某个硬件细节的人,而是能把模型、框架、编译器、算子、runtime、集群性能串起来的人。

3. xxx/acd 这个方向是不是也有平台绑定风险?

有,但比手机 NPU 小一些。

acd 仍然是特定硬件和软件栈,CAN、torch_npu、MindIE、acd-vLLM 等都有平台属性。acd PyTorch adapter 的官方定位就是通过 torch_npu 把 acd NPU 接到 PyTorch,让 PyTorch 用户获得 acd AI 处理器算力。(GitHub) acd-vLLM 也是在 vLLM 基础上面向 NPU 做优化,继承 continuous batching、PageAttention、prefix caching 等推理能力。(support.hxwcloud.com)

但它的可迁移性更强,原因是你会接触到外部通用概念:

PyTorch dispatch / backend / FX / torch.compile;vLLM scheduler;KV cache;attention kernel;MoE;量化;profiling;分布式推理;通信;memory bandwidth;算子库;模型适配。

这些东西在 NVIDIA CUDA、AMD ROCm、Intel XPU、AWS Neuron、TPU、国产 GPU/NPU 上都有类似映射。即使 API 不同,问题结构是相通的。

相比之下,手机 NPU 如果你长期只做某手机 SoC 的私有算子实现,外部面试官可能会问:“你这个经验离我的 GPU/H100/A800/acd 训练推理平台有多近?”你的解释成本会更高。

4. 从职场行情看,你该往“算法”还是“AI infra”走?

我建议你不要把目标简单理解成“我要回算法”。现在纯算法岗并不一定比 AI infra 更稳,尤其是如果你不是顶级模型训练/后训练/多模态/RL/Agent research 背景。

猎聘《2025 AI 技术人才供需洞察报告》显示,AI 技术岗确实高薪、高学历化:AI 技术职位中明确要求硕博学历的占比 46.98%,50 万以上招聘年薪的职位占比 30.97%,远高于整体职位。报告还显示,算法工程师在 AI 技术人才需求中占比 67.17%,深度学习、机器学习排名上升。 但这也说明一个问题:算法岗门槛和竞争都高,不是“从工程转算法”就一定能更好。

你的背景更适合走:

AI Infra / 大模型系统 / 芯片软件栈 / 高性能推理优化

而不是硬转:

模型算法研究 / 大模型训练算法 / 多模态算法

更现实、更高胜率的定位是: 懂 LLM、懂 PyTorch/vLLM、懂硬件性能、懂算子、懂精度和 profiling 的 AI 系统工程师。

这个定位在互联网大厂、云厂商、芯片公司、自动驾驶/机器人/端侧 AI 公司都能讲得通。

5. 我的建议:倾向于转,但要转到“有架构含量”的岗位

我建议你争取 move 到云计算卡事业部,但前提是你要确认新岗位不是另一个“适配执行岗”。

你需要问清楚这些问题:

第一,是否能接触 PyTorch / vLLM 主干逻辑,而不只是改配置、跑模型、修业务 bug。 第二,是否有机会做 kernel、算子库、runtime、scheduler、memory、通信、量化、profiling 中至少一个深水区。 第三,是否有性能指标 ownership,比如 TTFT、TPOT、吞吐、显存占用、MFU、端到端 QPS、训练 step time。 第四,是否参与设计评审,而不是只接单编码。 第五,是否能接触外部开源生态或至少对齐开源接口,比如 vLLM-acd、torch_npu、PyTorch upstream 兼容。

如果答案大多是“是”,值得转。 如果答案是“只是把一批模型从 PyTorch 适配到 acd,跑通 demo,调环境,修零碎兼容问题”,那它仍然比手机 NPU 通用一些,但上限没有你想象中那么大。

6. 你接下来 6–12 个月应该怎么布局

你最好把自己塑造成“端云兼备的大模型系统工程师”,而不是“某硬件平台工程师”。

简历和能力栈建议这样升级:

第一层:保留你现在的优势 把端侧经验表达成通用能力:LLM 端侧部署、算子融合、端到端性能优化、精度对齐、torch 对齐、量化误差定位、runtime bottleneck 分析。不要写成“做了某 NPU 的若干算子编码”,要写成“完成某类 attention/MLP/norm/rope/kv-cache 相关算子融合与端到端延迟优化”。

第二层:补齐云侧主流栈 系统学 PyTorch 2.x、torch.compile、Inductor/Triton 基本原理、vLLM 架构、PagedAttention、continuous batching、prefill/decode disaggregation、speculative decoding、AWQ/GPTQ/FP8/INT8 量化、MoE 推理。

第三层:形成一个可迁移作品 哪怕公司代码不能公开,你也可以用公开模型做一个个人项目: “基于 vLLM 的某模型推理性能分析:batch size、sequence length、KV cache、量化方式对 TTFT/TPOT/QPS/显存的影响”。 这个项目不需要很花哨,但要体现你能做 profiling、定位瓶颈、解释性能。

第四层:避免职业标签被锁死 不要把自己定位成“acd 工程师”或“手机 NPU 工程师”,而是定位成:

LLM inference / AI compiler-runtime / kernel optimization engineer

这个标签外部更容易理解,也更容易迁移。

7. 最终建议

我的排序是:

首选:转到云计算卡事业部,做 PyTorch/vLLM/推理框架/算子库/性能优化相关工作。 这是最符合未来 2–3 年 AI infra 需求的路径,也更容易从xxx跳到互联网大厂、云厂商、芯片公司或 AI infra 创业公司。

次选:如果暂时转不了,就在手机 NPU 方向主动争取“设计型任务”。 比如融合策略设计、图优化 pass、量化方案、runtime profiling、算子性能模型、端云协同部署,而不是只做业务模型适配。

不建议:为了“更算法”而盲目转普通算法岗。 除非你能进入真正的大模型训练、后训练、多模态、RL、Agent research 团队,否则很多算法岗的职业杠杆未必比 AI infra 高。

一句话结论:

你现在的直觉是对的:云侧 PyTorch/vLLM/训练推理框架适配,比手机 NPU 业务部署更通用、更接近 AI infra 主战场。建议转,但要确保新岗位有框架、算子、runtime、性能设计 ownership,而不是只做适配杂活。

谋定而后动