Software Engineer (Site reliability) - Mercari

Salary not provided

ShellKubernetesGoPython
English: FluentJapanese: Fluent
Mercari

Software Engineer (Site Reliability)

  • Employment Status: Full-time
  • Work Hours: Full Flextime (no core time)
  • Office: Roppongi

About the Role

  • Mission: Circulate all forms of value to unleash the potential in all people.
  • Vision: Utilizing technology to connect people worldwide and provide opportunities for everyone to realize their dreams.

See more about our values and mission in our Culture Doc.


Team Mission

Engineering Principles:

  • Passion For The Product
  • Grow Together
  • Solve Through Mechanisms
  • Collaborate Openly

Learn more about our engineering culture.

The SRE Team is responsible for the reliability, scalability, and operational excellence of large-scale production services. The team works across Google Cloud and Kubernetes, focuses on observability via CUJ SLOs, incident response enhancement, reducing toil, building resilient systems, and advancing AI-driven operations.


Work Responsibilities

  • Operate hundreds of production microservices on Google Cloud (Kubernetes, managed services) under SLO targets, including on-support rotation for urgent issues.
  • Lead end-to-end reliability epics independently — from design through rollout, monitoring, and post-launch iteration.
  • Define and operate SLOs and SLIs for critical user journeys, using error budgets for prioritization with product teams.
  • Lead incident response, improve the team's postmortem culture, and drive follow-ups to prevent recurrence.
  • Build autonomous AI agents for detection, triage, and recovery with clear safety protocols.
  • Write Infrastructure as Code with Terraform and develop automation to reduce toil and support large-scale operations.
  • Build and maintain monitoring, alerting, and tracing on Datadog, optimizing for user impact and rapid detection-to-mitigation.
  • Perform reliability and performance tuning on production workloads (capacity planning, autoscaling, load shedding, dependency hardening).
  • Collaborate with product and platform teams on production readiness, capacity planning, and new infrastructure adoption.
  • Strengthen reliability governance through engineering (risk assessment, audit response, compliance-as-code).

Unique Challenges

  • Improving reliability across a broad business portfolio (Marketplace and Fintech) at scale, leading with CUJ SLOs.
  • Shaping SRE culture in an AI-driven environment—collaborating with both engineers and autonomous agents.
  • Partnering with engineering teams who act on data for compounding reliability improvements.
  • Balancing approximately 50% reactive (alerts, support, incident response) and 50% project delivery work.
  • Working in a bilingual (Japanese/English) environment.

Qualifications

Required

  • Production SRE experience with service ownership, availability targets, toil reduction, operational readiness, using SLOs and SLIs with development teams.
  • Experience operating production services at scale (over 10K QPS or several microservices) under SLOs.
  • Production experience with Google Cloud (compute, networking, managed services) and Kubernetes workloads.
  • Infrastructure-as-Code knowledge (Terraform), and scripting ability (Go, Python, or shell).
  • Hands-on experience with monitoring and observability (Datadog or similar), including alert design and reducing alert fatigue.
  • Ownership of incident response, postmortems, on-call or support rotations.
  • Ability to lead epics end-to-end independently.
  • Willingness to learn/apply AI to operational workflows beyond core SRE.

Preferred

  • Designing or running platform-wide SLO programs across multiple services/business units.
  • Applying AI to operational workflows (e.g., log analysis, alert summarization, RCA, remediation) with quality/safety evaluation.
  • Experience in high-scale Kubernetes platforms or distributed systems internals (scheduling, consistency, failure recovery).
  • Leading reliability or platform initiatives spanning multiple teams.
  • Strengthening reliability governance (compliance-as-code, automated audit evidence, risk assessment).

Language

  • Japanese: Independent (CEFR – C1)
    • OR
  • English: Independent (CEFR – C1)

(See more about CEFR levels here.)


Learn More


Recruiting Process

  1. Application screening
  2. Skill assessment (for engineering positions/on HackerRank or GitHub)
  3. Interviews (number varies by position)
  4. Reference check (online, near final interview)
  5. Offer (after final interview and reference check)

Read more about our recruiting process.


Equal Opportunity Hiring

We aim for a world in which no one's potential is limited by their background. Our inclusion & diversity mindset drives us to eliminate discrimination based on age, gender, sexual orientation, race, religion, physical disability or any other factor.

Read our Inclusion & Diversity statement.
See our Privacy Policy.


ソフトウェアエンジニア(Site Reliability)

  • 雇用形態:正社員
  • 働き方:フレックスタイム制(コアタイムなし)
  • 勤務地:六本木

会社について

ミッション:あらゆる価値を循環させ、あらゆる人の可能性を広げる

より豊かな社会を実現するため、テクノロジーの力で人と人をつなぎ、一人ひとりの可能性が発揮できる世界を目指しています。

詳しくはMercari Culture Doc をご覧ください。


チームミッション

エンジニアリング・プリンシプルズ

  • Passion For The Product
  • Grow Together
  • Solve Through Mechanisms
  • Collaborate Openly

エンジニア視点から長期的に実現したい理想像を共有しています。

エンジニアリングカルチャー

SREチームは、グループの本番サービス信頼性やスケーラビリティ、運用品質をリードし、AI・クラウドを駆使したトイル削減やインシデント対応強化に取り組みます。


業務内容

  • SLOに基づきGoogle Cloud上で稼働する数百規模の本番マイクロサービス運用(オンコールや緊急時対応含む)
  • 信頼性向上の取り組みを設計~監視~リリース・改善まで一貫してリード
  • 重要なユーザージャーニーに対するSLI/SLO定義・運用、エラーバジェット主導でプロダクトチームと優先順位づけ
  • インシデント対応リードや、ポストモーテム推進・再発防止フォローアップ
  • AI Agentによる検知・調査・復旧の自動化
  • TerraformによるInfrastructure as Code、運用自動化・スケールを推進
  • Datadog等を活用した監視・アラート設計、素早い検知から緩和
  • 本番ワークロードのリソース設計、オートスケーリング、レジリエンス強化
  • プロダクト・プラットフォームチームと本番投入準備や新基盤導入推進
  • リスク評価、監査対応、コード化された運用ルール整備

ユニークなチャレンジ

  • Marketplace/Fintech含む広範事業でCUJ SLOを活用し、プロダクト判断や運用方針にユーザー影響を組込む
  • AI加速時代の新しいSRE文化を創造(エンジニアとAI Agent協働)
  • 信頼性/レジリエンスの重要性・改善を全社的に推進
  • 運用対応と中長期プロジェクト推進の両立(約半分ずつ)
  • 日英両言語が日常的に活用される環境

応募要件

必須経験・スキル

  • サービス信頼性・可用性責任を持ち、SLO/SLI活用、トイル削減・運用改善を主導した経験
  • SLOに基づく大規模サービス運用(10K QPS以上/複数サービス)経験
  • Google CloudやKubernetesベースの本番運用経験
  • Terraform等によるIaC実践、Go/Python/ShellいずれかのSREツール開発経験
  • Datadog等を用いた監視設計、アラート疲労軽減などオブザーバビリティ改善経験
  • インシデント対応・ポストモーテム・オンコール/運用サポート当番制経験
  • エピック単位での自律的リード
  • SRE枠を越えAIの運用活用も学び取る意欲

歓迎経験・スキル

  • 複数事業横断型SLOプログラム設計・運用経験
  • AIを活用した運用自動化・分析(ログ・アラート要約等)導入経験および検証
  • 大規模Kubernetes基盤運用や分散システム深部知識
  • 複数チーム横断のプラットフォーム・信頼性向上主導
  • コード化されたリスク評価、監査証跡自動化等ガバナンス強化経験

語学力

  • 日本語:Independent (CEFR – C1)
    • または
  • 英語:Independent (CEFR – C1)

CEFR指標詳細


情報リンク


選考について

  1. 書類選考
  2. 技術課題(エンジニア職はHackerRankまたはGithub課題)
  3. 面接(複数回あり)
  4. リファレンスチェック(最終選考前後/オンライン)
  5. オファー(最終面談+リファレンスに基づき決定)

詳しい採用フロー


機会の平等

年齢・性別・性的指向・人種等あらゆる背景に関わらずミッション・バリューに共感いただける方を歓迎します。差別のない多様性推進を約束します。

I&Dポリシー全文
プライバシーポリシー