Nethermind

网站可靠性工程师

at Nethermind

技术与编程全职 Anywhere

532天前

详细信息

职位

我们希望招聘一名负责任的SRE（Site Reliability Engineer，即网站可靠性工程师）加入我们的DevOps和SRE团队。您将负责监控、维护和故障排除以太坊和其他区块链网络上的验证器，以及其他生产系统。您将远程工作以覆盖不同的时区，并与团队紧密合作，确保平稳运营，自动化任务，记录流程，并持续改进系统。

职责：

负责监控和维护生产系统，包括以太坊验证器和节点、API和其它应用程序。这包括设置监控工具、解决故障问题，以及执行定期维护任务以确保最佳性能。
在发生事件或中断时，SRE将负责迅速确定问题的根本原因并实施修复以恢复服务。这可能需要在正常工作时间之外工作，以便及时响应事件。
负责记录流程、程序、事后报告和与生产中运行我们的服务相关的最佳实践。这些文档将有助于确保团队的一致性和质量，并且也将作为未来团队成员的参考。
与其他团队成员紧密合作，确保所有生产服务运行顺畅，任何问题都能迅速解决，尤其是以太坊验证器。这可能包括参与值班轮换、参加团队会议，以及与其他团队合作开展跨职能项目。
负责尽可能多地自动化任务，以减少管理基础设施所需的手动工作量。这包括脚本编写、开发工具和使用Terraform和CI/CD设置自动化以简化流程。
负责持续改进用于管理区块链节点和验证器的流程、程序和工具。这包括识别改进领域、实施变更，并测量这些变更的影响以确保它们是有效的。
负责评估业务需求并产出各种设计以实现分配的项目。
提供系统专业知识并推动运营最佳实践。负责设置和维护性能系统监控。

在这个角色中，我们需要您具备以下经验（您应该拥有）：

在任何云平台上运行IAC（基础设施即代码）的经验，最好是AWS。
熟练掌握Linux操作系统和命令行工具。
掌握Python、Golang或Bash等编程语言的技能。
具有CI/CD流水线和自动化框架的经验，最好是ArgoCD。
熟悉容器化技术，如Docker、Docker Compose和Kubernetes。
设计和实现时考虑到高可用性、可靠性、安全性和成本优化。
主动分析基础设施的容量和性能，系统备份和恢复。
确保安全系统/设备功能正常并不断改进，以实现积极的网络防御。
作为技术能力、乐于助人、促进学习、团队合作的榜样。
具有监控和警报工具（如Prometheus和Grafana）的经验。
强大的故障排除和问题解决技能以及出色的沟通和协作技能。
能够独立工作和远程工作，同时也是一个团队合作者。

加分技能

精通区块链节点和验证器维护，特别是以太坊的，将是一个加分项。
具有使用Argo CD进行Kubernetes集群部署策略的经验。
在Bash、PowerShell、Python、Golang或其他语言中具有脚本编写熟练度。

免责声明

该远程工作信息来源于站外平台，本站仅提供部分信息展示与订阅服务，更多请查看免责声明。

申请工作

关注公众号

不定期副业成功案例分享

想领先一步获取最新的外包任务吗？

立即订阅

网站可靠性工程师

详细信息

免责声明

关注公众号

想领先一步获取最新的外包任务吗？

平台

支持

联系我们