GPU Inference Jobs

Machine Learning Infrastructure

AI Infrastructure

gpu-inference

Model Serving

TL, Research Inference

OpenAI·San Francisco, California, United States (On-site)

OpenAI

San Francisco, California, United States (On-site)

$380K – $555K Yearly1d ago

research-engineering

high-performance-inference

model-execution

AI Inference Engineer (London)

Perplexity·London, England, United Kingdom (On-site)

Perplexity

London, England, United Kingdom (On-site)

16h ago

ai-inference-engineer

Rust

AI Inference Engineer (San Francisco)

Perplexity·San Francisco, California, United States (On-site)

Perplexity

San Francisco, California, United States (On-site)

$220K – $485K Yearly16h ago

AI Engineering

Rust

Software Engineer, Model Inference

OpenAI·San Francisco, California, United States (On-site)

OpenAI

San Francisco, California, United States (On-site)

$295K – $555K Yearly16h ago

Audio Inference Engineer, Model Efficiency

Cohere·Canada + 4 more (Remote)

Cohere

Canada + 4 more (Remote)

16h ago

AI Infrastructure

Performance Engineer, Inference Systems

Anthropic·San Francisco, California, United States (Hybrid)

Anthropic

San Francisco, California, United States (Hybrid)

$350K – $850K Yearly16h ago

Performance Engineering

inference-systems

SQL

Inference Engineer

Cartesia·San Francisco, California, United States (On-site)

Cartesia

San Francisco, California, United States (On-site)

$180K – $250K Yearly16h ago

Machine Learning Engineering

Model Inference

Distributed Systems

System Engineer (Token Factory)

Nebius·Netherlands + 5 more (Remote)

Nebius

Netherlands + 5 more (Remote)

16h ago

system-engineering

gpu-computing

GPU Programming

Director, Engineering - Inference Serving Engine

DigitalOcean·Bengaluru, Karnataka, India (Hybrid)

DigitalOcean

Bengaluru, Karnataka, India (Hybrid)

1d ago

Inference Technical Lead, On-Device Transformers

OpenAI·San Francisco, California, United States (Hybrid)

OpenAI

San Francisco, California, United States (Hybrid)

$445K – $445K Yearly1d ago

Machine Learning

systems-research-engineer

CUDA

ml-runtimes

Systems Research Engineer Intern - GPU Programming (Fall 2026)

Together AI·San Francisco, California, United States (On-site)

Together AI

San Francisco, California, United States (On-site)

$58 – $63 Hourly1d ago

Systems Engineering

GPU Programming

CUDA

Systems Research Engineer, GPU Programming

Together AI·San Francisco, California, United States (On-site)

Together AI

San Francisco, California, United States (On-site)

$160K – $230K Yearly1d ago

AI Research

Machine Learning Engineering

GPU Programming

CUDA

LLM Inference Frameworks and Optimization Engineer

Together AI·San Francisco, California, United States (On-site)

Together AI

San Francisco, California, United States (On-site)

$160K – $230K Yearly1d ago

ML Infrastructure Engineering

AI Research Engineer

TensorRT-LLM

vLLM

Staff Technical Lead for Inference & ML Performance

fal.ai·San Francisco, California, United States (On-site)

fal.ai

San Francisco, California, United States (On-site)

1d ago