publications

publications by categories in reversed chronological order. generated by jekyll-scholar.

2025

ICML

EPIC: Efficient Position-Independent Caching for Serving Large Language Models

Junhao Hu, Wenrui Huang, Weidong Wang, and 7 more authors

In Forty-second International Conference on Machine Learning, ICML 2025, Vancouver, BC, Canada, 2025

PDF Code Slides Website
ACL Findings

RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning

Junhao Hu, Wenrui Huang, Weidong Wang, and 6 more authors

In Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, 2025

PDF Code Slides Website