職務内容
データサイエンティストは、データ処理、キュレーション、キャプションを含むデータ関連の業務に従事することが期待されています。
応募資格(必須)
- データ基盤/パイプライン:大規模マルチモーダルパイプラインの設計・運用経験
- (ingest→dedupe→filter→shard→snapshot/version)設計
- 標準化データAPIと高スループットローダー(ストリーミング、キャッシュ、サンプリング等)の提供
- キャプション/人手ラベリング:キャプション業務、注釈フロー構築(属性/関係スキーマ、多言語対応)
- ベンダー/内部アノテータ運用、ゴールドセット、IA一致率、QCダッシュボード
- 自動キャプショナー(CLIP/VLM補助)の検証
- キュレーション/品質管理:重複検出、クラスタリング、品質/美的評価、ポリシーフィルタ(NSFW/暴力/PII等)
- 領域・スタイル・地域間のバランス調整、密キャプションや合成データ効果測定
- 研究志向データサイエンス:データアブレーション(構成、キャプション密度、合成比)、軽量スコアラー試作(品質/安全)、社内レポート作成
- 連携/展開:研究・プロダクトと協働しデータ構成をロードマップに沿って最適化
- スキーマ/マニフェスト/SLAを整備し、複数チームで再利用可能にする
応募資格(歓迎)
- 学習時品質トラッキング/評価:固定プロンプト・シードによる評価フック
- CLIP整合性、美的代理指標、安全率、編集指標を追跡
- テストセット運用とチェックポイント管理
- 安全/ガバナンス:データソース・ライセンス管理、削除フロー、顧客データ隔離
- ポリシーフィルタとNSFWトレースの運用
ミッション
研究者やエンジニアと協力し、大規模な基盤モデルの学習を支える効率的なデータ基盤およびコードベースを開発していただきます。
求める人物像
- 事業内容やミッションに共感し、新たな事業への挑戦姿勢・意欲を持った方
仕事の魅力
- 大規模マルチモーダル生成モデルの学習と開発プロジェクトに関われる
- 研究成果を実世界のアプリケーションに適用し、ビジネスに測定可能なインパクトを与えられる
- 多様かつ国際色豊かなチームで研究開発ができる
- 日本国内最大級の計算リソースを用いた研究開発が可能
雇用形態
- 正社員
勤務時間
- フレックス勤務:可
- 所定労働時間:午前9時〜午後5時45分
- 休憩:1時間
- 時間外労働:有
賃金・賞与
- 月給:541,667円~1,500,000円
- 想定理論年収:6,500,000円~18,000,000円
- 上限金額はその限りではありません
- 月給・想定理論年収は基本給+固定時間外手当(35時間相当)
- 時間外手当は一般職のみ。固定時間外手当(35時間)を超えた場合は実績に応じ別途支給
- 別途インセンティブ支給有
諸手当
- 通勤手当(上限:150,000円/月)
- 一般職:時間外勤務手当、深夜勤務手当、休日勤務手当、通勤手当等
- 管理職:マネジメント手当、深夜勤務手当、通勤手当等
休日・休暇
- 土日完全週休二日
- 祝日
- 年末年始(12月29日〜1月3日)
- その他会社指定日
- 年次有給休暇(6日〜21日、入社月によって異なる)
福利厚生
- 健康保険、雇用保険、労災保険、厚生年金
- ベネフィット・ワン、プレミアム優待
- 財形貯蓄制度、総合福祉団体定期保険
- 保険制度(団体生命保険、団体扱い生命保険、団体損害保険、団体扱い損害保険など)
- 確定拠出年金(401K)
出社頻度
- リモートワークと出社のベストミックス(出社頻度規定なし)
- 平均:週1~2日出社
- 業務内容に応じて出社指示の可能性あり
- 国内遠方居住の場合はフルリモート可(事前申請必須・出社時の交通費会社負担〈上限あり〉)
備考
- 面接・面談は原則オンラインで実施
- 詳細は該当者へ個別案内