个人简历
个人信息
姓名:王嘉威
电话:18026258005
目前已离职
教育经历
广东技术师范大学 2020.09 - 2022.06
通信工程专业 本科 (统招全日制)
广东理工职业学院 2017.09 - 2020.06
计算机应用专业 专科 (统招全日制)
专业技能
持有CKA、CKS 认证,熟悉 Kubernetes 集群部署、维护、升级、排障及安全加固。
持有 RHCE、RHCSA 认证,具备 Linux 系统安装部署、基础服务配置、权限管理、日志排查与日常运维能力。
熟练使用 Docker 完成应用容器化与镜像构建,熟悉 Git 版本管理,了解 CI/CD 流水线与自动化部署流程。
熟练编写 Shell 脚本,支持服务巡检、批量操作、日志处理与日常运维自动化。
持有大学英语四级证书,熟练查阅英文技术文档,擅长撰写项目文档。
掌握HTML5、CSS3、JavaScript、React和Next.js等前端技术,具有一定的前端开发能力,可以参与Web界面的构建和维护
善于将抽象技术概念拆解转化为客户易懂的语言描述。在过往经历中,多次为生产、质量等非技术部门提供技术支持,通过清晰解释推动问题解决。
项目经历
离线环境下基于 Argo CD 的 GitOps 监控栈交付方案
技术栈: 腾讯云 Ubuntu Server / K3s / Argo CD / Helm / Prometheus Operator / Grafana / Prometheus Operator / PostgreSQL Exporter / Blackbox Exporter / Kustomize / 阿里云 ACR / Traefik
项目背景与交付总览
在腾讯云 K3s 单节点集群中,搭建了一套适用于内网受限环境的监控系统 GitOps 交付流程。基于 Argo CD 的 App of Apps 模式,将 Prometheus、Grafana、Alertmanager、PostgreSQL Exporter、Blackbox Exporter 等组件统一纳入 Git 仓库管理;通过六层目录(bootstrap / apps / charts / values / manifests / argocd)清晰划分引导、编排、模板、配置各层职责;仅需一次手工执行 root-app 引导,所有组件的部署、配置变更与回滚均由 Argo CD 自动同步完成,解决了传统手动部署带来的配置偏移问题,实现"Git 即唯一事实来源",最终交付了一套稳定、可审计、可复制的监控方案。
离线镜像与 Helm Chart 本地化
针对生产环境无法访问公网的限制,将 kube-prometheus-stack、PostgreSQL Exporter、Blackbox Exporter 的 Helm Chart 下载并解压存入 Git 仓库,使 Argo CD 在部署时完全不依赖外部 Helm 仓库;同时将所有组件镜像同步至阿里云 ACR 私有仓库,并在各组件的 values.yaml 中逐一将镜像地址重定向至 阿里云ACR,通过本地 helm template 渲染验证和镜像地址核查脚本确保无遗漏;敏感资源(镜像拉取凭证 acr-secret、TLS 证书、Grafana 管理员密码、PostgreSQL 连接字符串)统一在引导阶段手工创建为 Kubernetes Secret,不进入 Git 仓库,避免凭证泄露。
保障组件有序部署与解决同步冲突
为五个子应用配置了 Argo CD 的 Sync-Wave 注解,让它们在三个波次中依次部署:Wave 0 先建监控底座并注册 CRD,Wave 1 再上采集器和面板,最后Wave 2 下发探测目标(Probe CR)。为了规避两个应用同时管理同一个 Probe 资源引起的 Argo CD 永久 OutOfSync 问题,将主动探测的目标 Probe 从 Blackbox Exporter 应用中独立出来,单独用一个子应用管理。此外,还通过开启 ServerSideApply 解决了 Prometheus CRD 文件过大导致同步报错的问题。
Grafana 面板的声明式与离线交付
为摆脱手动导入的繁琐,借助 Kustomize 的 configMapGenerator,将 PostgreSQL 和 Blackbox 面板的 JSON 配置,生成为带特定标签的 ConfigMap,再配合 Grafana Sidecar 实现了面板的自动发现与热加载。通过设置 disableNameSuffixHash 固定 ConfigMap 名称,避免了因内容变化导致名称改变、进而被 Argo CD 误判为新建资源的问题;同时开启 Server-Side Apply,解决了大型面板 JSON 引起的 last-applied-configuration annotation 超限报错,确保面板管理完全 GitOps 化并支持离线交付。
监控栈噪音治理与跨命名空间采集
针对 K3s 环境定制了 kube-prometheus-stack 的采集项,关闭了 etcd、controller-manager 等不可用组件的指标抓取,消除了大量无效告警;开放了跨命名空间 ServiceMonitor 选择器,使 exporters 命名空间下的数据库和拨测指标能被统一采集;同时配置 Alertmanager 路由规则,只推送 critical 级别的告警,其余静默,显著降低了告警干扰。
Prometheus:
Grafana:
账号:interviewer
密码:interviewer
Argo CD:
账号:interviewer
密码:interviewer
注意:账号/密码前后不能有空格
工作经历
康方药业有限公司(2022.07 - 2023.04)
计算机验证工程师
系统巡检与故障处置:负责340余台计算机化系统(含Windows工作站、Linux系统)的日常运行状态巡检、故障诊断与应急处理;建立故障处理标准化流程,显著缩短设备故障恢复时间,保障生产系统稳定运行。
系统升级与风险管控:主导150余台设备操作系统版本升级与硬件迭代项目,独立编写了详细的升级方案,包含数据备份策略、操作步骤和回滚预案。升级全程严格按方案执行,所有设备平稳过渡。
数据一致性与文档规范化:独立编写16份计算机化系统验证方案,基于GAMP5方法论完成功能测试、数据一致性校验及风险评估,全部通过QA审核归档,形成可复用验证模板。
资产管理与权限管控:建立并维护计算机化系统全生命周期台账,依据最小权限原则定期审计用户账号与访问权限,严格管控GxP关键系统访问,确保符合法规要求与内部安全基线。
跨部门技术支持: 为生产、质量、研发等部门提供日常IT技术支持,处理仪器联机、系统接口、数据采集类故障,协助各部门完成计算机化系统交付验收与日常使用培训,让非技术人员也能快速上手。
重庆怡卓人力资源有限公司 (2023.08 - 2026.04)
数据标注运营(外派唯品会)
可用率提升从30%提升至90%:刚接手项目时,AI视频业务可用率不到30%。我主动对错误数据进行归类统计,定位出占比最高的几类问题,形成简明的问题分析报告。之后建立每周与产品、算法团队的同步反馈机制,持续推动问题修复和规则优化。4个月后,该业务可用率稳定达到90%以上。
多项目并行资源协调与交付管理:在多项目同时推进、人手紧张的情况下,我通过评估团队人均产能、梳理任务优先级,跟进执行。定期向上级同步进度和潜在风险,提出调整建议,确保所有项目无一延期,按时按质完成交付。
质量监控与团队反馈: 负责电商智能客服对话数据的日常抽检,独立输出质检周报,准确率长期稳定在95%以上。定期对抽检中发现的高频错误和团队共性问题进行整理,提出改进建议一并反馈给上级,帮助上级清晰掌握一线交付质量。