İş Tanımı ve Gereklilikler
As a Lead MLOps Engineer, you will spearhead the industrialization of our machine learning practices. You will lead a team of junior MLOps engineers to build, deploy, and maintain robust, scalable, and reliable ML systems. This role is critical in bridging the gap between ML model development and production operations, ensuring our AI/ML solutions deliver real-world value. You will be a hands-on leader, shaping our MLOps strategy and infrastructure, with a focus on Azure ML and upcoming platforms like Domino Data Lab. While your primary focus is on engineering and operations, your background in data science will be invaluable in collaborating with the team on model development and refinement.
- Lead, mentor, and grow a team of junior MLOps engineers, fostering a culture of engineering excellence and collaboration.
- Design, build, and maintain a scalable MLOps infrastructure on Azure, enabling the entire lifecycle of machine learning models—from data preparation and training to deployment and monitoring.
- Take full ownership of the operational stability and reliability of production ML systems. This includes leading incident response for pipeline failures, troubleshooting issues immediately, and implementing robust, recoverable, and self-healing solutions to ensure seamless integration with core business operations.
- Architect and implement CI/CD/CT (Continuous Integration/Continuous Delivery/Continuous Training) pipelines for real-time, near-real-time, and batch ML systems using services like Azure Kubernetes Service (AKS) and serverless compute.
- Establish and own the model monitoring strategy, implementing robust systems to track model performance, detect data drift, and trigger retraining pipelines to maintain accuracy and reliability.
- Partner with data scientists to migrate ML models from development environments to production-grade code, focusing on performance, scalability, and maintainability.
- Develop and manage enterprise-grade Generative AI applications using Large Language Models (LLMs), Retrieval Augmented Generation (RAG), and multi-agent frameworks.
- Collaborate with the data platform and IT teams to resolve dependencies and ensure a seamless integration of ML systems with the broader tech stack, including platforms like Azure Synapse Analytics.
- Ensure the responsible use of AI practices, adhering to ethical guidelines, fairness, and compliance standards in all deployed models.
- Gain hands-on experience with the Domino MLOps platform, contributing to its integration and utilization.
- Engage in data science development tasks, leveraging your expertise to contribute to the full project lifecycle.
- Communicate technical strategy, project status, and outcomes effectively to both technical teams and business stakeholders.
- 5+ years of experience in software engineering, DevOps, or data science, with at least 3 years focused on MLOps and building production ML systems.
- Proven experience leading technical teams and mentoring junior engineers.
- Hands-on experience building and managing ML infrastructure and CI/CD pipelines on cloud platforms, especially Azure.
- Demonstrated experience deploying and managing a variety of ML models (e.g., classification, regression, LLMs) in a production environment.
- Experience with the Domino MLOps platform is a significant plus.
- Background in financial or insurance domains is highly desirable.
- MLOps & DevOps: Expertise in MLOps principles and CI/CD practices. Hands-on experience with tools like Azure DevOps, GitHub Actions, Docker, and container orchestration with Azure Kubernetes Service (AKS).
- Cloud Platform: Deep expertise in Azure Machine Learning (AzureML) and its ecosystem, including Azure Synapse Analytics, Azure Data Factory, and serverless computing (e.g., Azure Functions).
- Programming: Advanced proficiency in Python and SQL. Experience with shell scripting.
- ML & Data Science: Strong understanding of machine learning concepts and libraries (e.g., Scikit-learn, TensorFlow/PyTorch). Hands-on experience with large-scale data processing tools like PySpark.
- Generative AI: Practical experience implementing and optimizing applications using LLMs, RAG architectures, vector databases, and orchestration frameworks (e.g., LangChain).
- Monitoring: Experience with monitoring and observability tools for ML models
- AI-Assisted Development: Proficiency with tools like GitHub Copilot to boost productivity.
Leadership Competencies:
- A strategic mindset with the ability to translate business requirements into technical solutions.
- Strong interpersonal and communication skills, with the ability to lead a team and influence stakeholders across the organization.
- A passion for continuous learning and staying current with the latest advancements in MLOps and AI.
Education:
- Bachelor's degree in Computer Science, Engineering, Statistics, or a related quantitative field. An advanced degree is a plus.
- Azure certifications are highly valued, particularly Azure Data Scientist Associate, Azure DevOps Engineer Expert, Azure Data Engineer, or Azure AI Engineer Associate.
- Certifications or specialized training in MLOps, GenAI, or LLMs are desirable.
Language Requirements:
- English: Advanced
- Japanese: Intermediate (N2 level listening & speaking)
ポジションについて: リードMLOpsエンジニアとして、当社の機械学習プラクティスの本格的な導入を主導していただきます。若手MLOpsエンジニアのチームを率いて、堅牢でスケーラブル、かつ信頼性の高いMLシステムの構築、デプロイ、保守を行います。MLモデル開発と本番運用の間のギャップを埋め、当社のAI/MLソリューションが価値を提供するために不可欠です。Azure MLやDomino Data Labのような先進的なプラットフォームに焦点を当て、当社のMLOps戦略とインフラを形成する実践的なリーダーとなります。主な焦点はエンジニアリングと運用ですが、データサイエンスのバックグラウンドは、チームとのモデル開発や改良における共同作業で非常に価値があります。
仕事内容:
- 若手MLOpsエンジニアのチームを指導、育成し、成長させ、卓越したエンジニアリングとコラボレーションの文化を育む。
- Azure上でスケーラブルなMLOpsインフラを設計、構築、保守し、データ準備、トレーニングからデプロイ、モニタリングまで、機械学習モデルのライフサイクル全体を可能にする。
- 本番MLシステムの運用の安定性と信頼性について全責任を負う。これには、パイプライン障害へのインシデント対応の主導、迅速な問題解決、そして中核的なビジネスオペレーションとのシームレスな統合を保証するための堅牢で回復可能、かつ自己修復可能なソリューションの実装が含まれる。
- Azure Kubernetes Service (AKS)やサーバーレスコンピューティングなどのサービスを使用し、リアルタイム、ニアリアルタイム、バッチ処理のMLシステム向けにCI/CD/CT(継続的インテグレーション/継続的デリバリー/継続的トレーニング)パイプラインを設計し、実装する。
- モデル監視戦略を確立し、その責任を負う。モデルのパフォーマンスを追跡し、データドリフトを検出し、精度と信頼性を維持するために再トレーニングパイプラインをトリガーする堅牢なシステムを実装する。
- データサイエンティストと協力し、MLモデルを開発環境から本番環境用のコードに移行させ、パフォーマンス、スケーラビリティ、保守性に重点を置く。
- 大規模言語モデル(LLM)、検索拡張生成(RAG)、マルチエージェントフレームワークを使用して、エンタープライズレベルの生成AIアプリケーションを開発・管理する。
- データプラットフォームおよびITチームと協力し、依存関係を解決し、Azure Synapse Analyticsなどのプラットフォームを含む、より広範な技術スタックとのMLシステムのシームレスな統合を確保する。
- 倫理的ガイドライン、公平性、コンプライアンス基準を遵守し、デプロイされるすべてのモデルにおいて責任あるAIプラクティスを徹底する。
- Domino MLOpsプラットフォームに関する実践的な経験を積み、その統合と活用に貢献する。
- 自身の専門知識を活用し、プロジェクトのライフサイクル全体に貢献するため、データサイエンス開発タスクにも関与する。
- 技術戦略、プロジェクトの状況、成果を技術チームとビジネス関係者の両方に効果的に伝える。
応募資格:
経験:
- ソフトウェアエンジニアリング、DevOps、またはデータサイエンスで5年以上の経験、そのうち少なくとも3年間はMLOpsと本番MLシステムの構築に特化した経験。
- 技術チームを率い、若手エンジニアを指導した実績。
- クラウドプラットフォーム、特にAzure上でのMLインフラおよびCI/CDパイプラインの構築・管理に関する実践的な経験。
- 本番環境でのさまざまなMLモデル(例:分類、回帰、LLM)のデプロイおよび管理に関する実証済みの経験。
- Domino MLOpsプラットフォームの経験があれば大きなプラス。
- 金融または保険分野でのバックグラウンドが強く望まれる。
技術スキル:
- MLOps & DevOps: MLOpsの原則とCI/CDプラクティスに関する専門知識。Azure DevOps, GitHub Actions, Docker, Azure Kubernetes Service (AKS)によるコンテナオーケストレーションなどのツールに関する実践的な経験。
- クラウドプラットフォーム: Azure Machine Learning (AzureML)とそのエコシステム(Azure Synapse Analytics, Azure Data Factory, サーバーレスコンピューティング(例:Azure Functions)など)に関する深い専門知識。
- プログラミング: PythonとSQLにおける高度な習熟度。シェルスクリプトの経験。
- ML & データサイエンス: 機械学習の概念とライブラリ(例:Scikit-learn, TensorFlow/PyTorch)に関する深い理解。PySparkなどの大規模データ処理ツールに関する実践的な経験。
- 生成AI: LLM, RAGアーキテクチャ, ベクトルデータベース, オーケストレーションフレームワーク(例:LangChain)を使用したアプリケーションの実装と最適化に関する実践的な経験。
- モニタリング: MLモデルのモニタリングおよび可観測性ツールに関する経験。
- AI支援開発: 生産性を向上させるためのGitHub Copilotなどのツールに対する習熟度。
リーダーシップ能力:
- ビジネス要件を技術的ソリューションに転換する能力を持つ戦略的思考。
- チームを率い、組織全体の関係者に影響を与えることができる、強力な対人およびコミュニケーションスキル。
- MLOpsとAIの最新の進歩について常に学び続ける情熱。
学歴:
- コンピュータサイエンス、エンジニアリング、統計学、または関連する定量的分野の学士号。修士以上の学位があれば尚可。
- Azure認定資格、特にAzure Data Scientist Associate, Azure DevOps Engineer Expert, Azure Data Engineer, またはAzure AI Engineer Associateは高く評価される。
- MLOps, GenAI, またはLLMに関する認定資格や専門トレーニングがあれば望ましい。
語学要件:
- 英語: 上級
- 日本語: 中級(N2レベルのリスニング&スピーキング)
MetLife Japan offers a comprehensive benefits package that promotes work-life balance and employee wellbeing. Employees can take advantage of flex time policy and a generous time-off policy, national holidays, annual paid leave, special consecutive leave, and refreshment leave. We also provide full social insurance coverage, a commuting expense reimbursement, group insurance, and discounts on travel and English language lessons. To support work flexibility, employees also have hybrid work options, shortened working hours for parents with children in third grade or below, and a casual dress code.
MetLife Inc., through its subsidiaries and affiliates (MetLife), is one of the world’s leading financial services companies, providing insurance, annuities, employee benefits and asset management to help individual and institutional customers build a more confident future. Founded in 1868, MetLife has operations in more than 40 markets globally and holds leading positions in the United States, Asia, Latin America, Europe and the Middle East.
MetLife Japan began operations in February 1973 as Japan’s first foreign-owned life insurance company. Our purpose, “Always with you, building a more confident future,” encapsulates our strong commitment to leveraging our global network and best practices worldwide to stand with our customers and build trust with our communities.
