Nethermind

网站可靠性工程师

at Nethermind
技术与编程 全职 Anywhere
532天前

详细信息

职位

我们希望招聘一名负责任的SRE(Site Reliability Engineer,即网站可靠性工程师)加入我们的DevOps和SRE团队。您将负责监控、维护和故障排除以太坊和其他区块链网络上的验证器,以及其他生产系统。您将远程工作以覆盖不同的时区,并与团队紧密合作,确保平稳运营,自动化任务,记录流程,并持续改进系统。

职责:

  • 负责监控和维护生产系统,包括以太坊验证器和节点、API和其它应用程序。这包括设置监控工具、解决故障问题,以及执行定期维护任务以确保最佳性能。

  • 在发生事件或中断时,SRE将负责迅速确定问题的根本原因并实施修复以恢复服务。这可能需要在正常工作时间之外工作,以便及时响应事件。

  • 负责记录流程、程序、事后报告和与生产中运行我们的服务相关的最佳实践。这些文档将有助于确保团队的一致性和质量,并且也将作为未来团队成员的参考。

  • 与其他团队成员紧密合作,确保所有生产服务运行顺畅,任何问题都能迅速解决,尤其是以太坊验证器。这可能包括参与值班轮换、参加团队会议,以及与其他团队合作开展跨职能项目。

  • 负责尽可能多地自动化任务,以减少管理基础设施所需的手动工作量。这包括脚本编写、开发工具和使用Terraform和CI/CD设置自动化以简化流程。

  • 负责持续改进用于管理区块链节点和验证器的流程、程序和工具。这包括识别改进领域、实施变更,并测量这些变更的影响以确保它们是有效的。

  • 负责评估业务需求并产出各种设计以实现分配的项目。

  • 提供系统专业知识并推动运营最佳实践。负责设置和维护性能系统监控。

在这个角色中,我们需要您具备以下经验(您应该拥有):

  • 在任何云平台上运行IAC(基础设施即代码)的经验,最好是AWS。

  • 熟练掌握Linux操作系统和命令行工具。

  • 掌握Python、Golang或Bash等编程语言的技能。

  • 具有CI/CD流水线和自动化框架的经验,最好是ArgoCD。

  • 熟悉容器化技术,如Docker、Docker Compose和Kubernetes。

  • 设计和实现时考虑到高可用性、可靠性、安全性和成本优化。

  • 主动分析基础设施的容量和性能,系统备份和恢复。

  • 确保安全系统/设备功能正常并不断改进,以实现积极的网络防御。

  • 作为技术能力、乐于助人、促进学习、团队合作的榜样。

  • 具有监控和警报工具(如Prometheus和Grafana)的经验。

  • 强大的故障排除和问题解决技能以及出色的沟通和协作技能。

  • 能够独立工作和远程工作,同时也是一个团队合作者。

加分技能

  • 精通区块链节点和验证器维护,特别是以太坊的,将是一个加分项。

  • 具有使用Argo CD进行Kubernetes集群部署策略的经验。

  • 在Bash、PowerShell、Python、Golang或其他语言中具有脚本编写熟练度。


免责声明

该远程工作信息来源于站外平台,本站仅提供部分信息展示与订阅服务,更多请查看免责声明

关注公众号,不定期副业成功案例分享
关注公众号

不定期副业成功案例分享

领先一步获取最新的外包任务吗?

立即订阅