Papers

401 papers found

Inductive Invariants That Spark Joy: Using Invariant Taxonomies to Streamline Distributed Protocol Proofs

Tony Nuda Zhang, Travis Hance, Manos Kapritsos et al.

2024 OSDI

InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management

Wonbeom Lee, Jungi Lee, Junghwan Seo et al.

2024 OSDI

IntOS: Persistent Embedded Operating System and Language Support for Multi-threaded Intermittent Computing

Yilun Wu, Byounguk Min, Mohannad Ismail et al.

2024 OSDI

IronSpec: Increasing the Reliability of Formal Specifications

Eli Goldweber, Weixin Yu, Seyed Armin Vakil Ghahani et al.

2024 OSDI

Ladder: Enabling Efficient Low-Precision Deep Learning Computing through Hardware-aware Tensor Transformation

Lei Wang, Lingxiao Ma, Shijie Cao et al.

2024 OSDI

Llumnix: Dynamic Scheduling for Large Language Model Serving

Biao Sun, Ziming Huang, Hanyu Zhao et al.

2024 OSDI

Managing Memory Tiers with CXL in Virtualized Environments

Yuhong Zhong, Daniel S. Berger, Carl Waldspurger et al.

2024 OSDI

Massively Parallel Multi-Versioned Transaction Processing

Shujian Qian, Ashvin Goel

2024 OSDI

MAST: Global Scheduling of ML Training across Geo-Distributed Datacenters at Hyperscale

Arnab Choudhury, Yang Wang, Tuomas Pelkonen et al.

2024 OSDI

Microkernel Goes General: Performance and Compatibility in the HongMeng Production Microkernel

Haibo Chen, Xie Miao, Ning Jia et al.

2024 OSDI

MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric Architectures

Donglin Zhuang, Zhen Zheng, Haojun Xia et al.

2024 OSDI

Motor: Enabling Multi-Versioning for Distributed Transactions on Disaggregated Memory

Ming Zhang, Yu Hua, Zhijun Yang

2024 OSDI

nnScaler: Constraint-Guided Parallelization Plan Generation for Deep Learning Training

Zhiqi Lin, Youshan Miao, Quanlu Zhang et al.

2024 OSDI

Nomad: Non-Exclusive Memory Tiering via Transactional Page Migration

Lingfeng Xiang, Zhen Lin, Weishu Deng et al.

2024 OSDI

Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and Experiences

Neeraj Kumar, Pol Mauri Ruiz, Vijay Menon et al.

2024 OSDI

Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

Chaofan Lin, Zhenhua Han, Chengruidong Zhang et al.

2024 OSDI

Performance Interfaces for Hardware Accelerators

Jiacheng Ma, Rishabh Iyer, Sahand Kashani et al.

2024 OSDI

Ransom Access Memories: Achieving Practical Ransomware Protection in Cloud with DeftPunk

Zhongyu Wang, Yaheng Song, Erci Xu et al.

2024 OSDI

Sabre: Hardware-Accelerated Snapshot Compression for Serverless MicroVMs

Nikita Lazarev, Varun Gohil, James Tsai et al.

2024 OSDI

Secret Key Recovery in a Global-Scale End-to-End Encryption System

Graeme Connell, Vivian Fang, Rolfe Schmidt et al.

2024 OSDI

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

Yao Fu, Leyang Xue, Yeqi Huang et al.

2024 OSDI

ServiceLab: Preventing Tiny Performance Regressions at Hyperscale through Pre-Production Testing

Mike Chow, Yang Wang, William Wang et al.

2024 OSDI

SquirrelFS: using the Rust compiler to check file-system crash consistency

Hayley LeBlanc, Nathan Taylor, James Bornholt et al.

2024 OSDI

Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve

Amey Agrawal, Nitin Kedia, Ashish Panwar et al.

2024 OSDI

USHER: Holistic Interference Avoidance for Resource Optimized ML Inference

Sudipta Saha Shubha, Haiying Shen, Anand Iyer

2024 OSDI