Papers Presentation Archive

Technical Papers

2.5 Million-Atom Ab Initio Electronic-Structure Simulation of Complex Metallic Heterostructures with DGDFT Wei Hu (University of Science and Technology of China); Hong An (University of Science and Technology of China; Pilot National Laboratory for Marine Science and Technology, Qingdao, China); Zhuoqiang Guo (Institute of Computing Technology, Chinese Academy of Sciences); Qingcai Jiang and Xinming Qin (University of Science and Technology of China); Junshi Chen (University of Science and Technology of China; Pilot National Laboratory for Marine Science and Technology, Qingdao, China); Weile Jia (Institute of Computing Technology, Chinese Academy of Sciences); Chao Yang (Peking University); Zhaolong Luo, Jielan Li, and Wentiao Wu (University of Science and Technology of China); Guangming Tan (Institute of Computing Technology, Chinese Academy of Sciences); Dongning Jia (Pilot National Laboratory for Marine Science and Technology, Qingdao, China); Qinglin Lu and Fangfang Liu (Institute of Software, Chinese Academy of Sciences); Min Tian (Qilu University of Technology, Shandong, China); Fang Li (National Research Center of Parallel Computer Engineering and Technology, China); and Yeqi Huang, Liyi Wang, Sha Liu, and Jinlong Yang (University of Science and Technology of China)

Accelerating Elliptic Curve Digital Signature Algorithms on GPUs Zonghao Feng and Qipeng Xie (Hong Kong University of Science and Technology); Qiong Luo (Hong Kong University of Science and Technology; Hong Kong University of Science and Technology, Guangzhou); and Yujie Chen, Haoxuan Li, Huizhong Li, and Qiang Yan (WeBank, China)

Accelerating Parallel Write via Deeply Integrating Predictive Lossy Compression with HDF5 Sian Jin and Dingwen Tao (Indiana University); Houjun Tang (Lawrence Berkeley National Laboratory (LBNL)); Sheng Di (Argonne National Laboratory (ANL)); Suren Byna and Zarija Lukić (Lawrence Berkeley National Laboratory (LBNL)); and Franck Cappello (Argonne National Laboratory (ANL), University of Illinois)

AD for an Array Language with Nested Parallelism Robert Schenck, Ola Rønning, Troels Henriksen, and Cosmin E. Oancea (University of Copenhagen)

Addressing Irregular Patterns of Matrix Computations on GPUs and Their Impact on Applications Powered by Sparse Direct Solvers Ahmad Abdelfattah (University of Tennessee, Innovative Computing Laboratory (ICL)); Pieter Ghysels and Wajih Boukaram (Lawrence Berkeley National Laboratory (LBNL)); Stanimire Tomov (University of Tennessee, Innovative Computing Laboratory (ICL)); Xiaoye Li (Lawrence Berkeley National Laboratory (LBNL)); and Jack Dongarra (University of Tennessee, Innovative Computing Laboratory (ICL))

AI for Quantum Mechanics: High Performance Quantum Many-Body Simulations via Deep Learning Xuncheng Zhao, Mingfan Li, and Qian Xiao (University of Science and Technology of China (USTC)); Junshi Chen (University of Science and Technology of China (USTC); Pilot National Laboratory for Marine Science and Technology, Qingdao, China); Fei Wang (Tsinghua University, China); Li Shen (University of Science and Technology of China (USTC)); Meijia Zhao and Wenhao Wu (National Supercomputing Center in Wuxi); Hong An (University of Science and Technology of China (USTC); Pilot National Laboratory for Marine Science and Technology, Qingdao, China); and Lixin He and Xiao Liang (University of Science and Technology of China (USTC))

AlphaSparse: Generating High Performance SpMV Codes Directly from Sparse Matrices Zhen Du (Institute of Computing Technology, Chinese Academy of Sciences; Chinese Academy of Sciences); Jiajia Li (North Carolina State University); and Yinshan Wang, Xueqi Li, Guangming Tan, and Ninghui Sun (Institute of Computing Technology, Chinese Academy of Sciences)

Approximate Computing Through the Lens of Uncertainty Quantification Konstantinos Parasyris, James Diffenderfer, Harshitha Menon, and Ignacio Laguna (Lawrence Livermore National Laboratory); Jackson Vanover (University of California, Davis); and Ryan Vogt and Daniel Osei-Kuffuor (Lawrence Livermore National Laboratory)

Blaze: Fast Graph Processing on Fast SSDs Juno Kim and Steven Swanson (University of California, San Diego (UCSD))

Boosting Performance Optimization with Interactive Data Movement Visualization Philipp Schaad, Tal Ben-Nun, and Torsten Hoefler (ETH Zürich)

Building Blocks for Network-Accelerated Distributed File Systems Salvatore Di Girolamo, Daniele De Sensi, Konstantin Taranov, Milos Malesevic, Maciej Besta, Timo Schneider, Severin Kistler, and Torsten Hoefler (ETH Zürich)

CA3DMM: A New Algorithm Based on a Unified View of Parallel Matrix Multiplication Hua Huang and Edmond Chow (Georgia Institute of Technology)

Canary: Fault-Tolerant FaaS for Stateful Time-Sensitive Applications Moiz Arif, Kevin Assogba, and M. Mustafa Rafique (Rochester Institute of Technology)

CHARTER: Identifying the Most-Critical Gate Operations in Quantum Circuits via Amplified Gate Reversibility Tirthak Patel, Daniel Silver, and Devesh Tiwari (Northeastern University)

Climbing the Summit and Pushing the Frontier of Mixed Precision Benchmarks at Extreme Scale Hao Lu, Michael Matheson, Vladyslav Oles, Austin Ellis, Wayne Joubert, and Feiyi Wang (Oak Ridge National Laboratory (ORNL))

CoGNN: Efficient Scheduling for Concurrent GNN Training on GPUs Qingxiao Sun, Yi Liu, Hailong Yang, Ruizhe Zhang, Ming Dun, Mingzhen Li, and Xiaoyan Liu (Beihang University); Wencong Xiao and Yong Li (Unaffiliated); and Zhongzhi Luan and Depei Qian (Beihang University)

Combining Hard and Soft Constraints in Quantum Constraint-Satisfaction Systems Ellis Wilson and Frank Mueller (North Carolina State University) and Scott Pakin (Los Alamos National Laboratory (LANL))

DayDream: Executing Dynamic Scientific Workflows on Serverless Platforms with Hot Starts Rohan Basu Roy, Tirthak Patel, and Devesh Tiwari (Northeastern University)

DeepSpeed-Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale Reza Yazdani Aminabadi, Samyam Rajbhandari, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Olatunji Ruwase, Shaden Smith, Minjia Zhang, Jeff Rasley, and Yuxiong He (Microsoft Corporation)

Deinsum: Practically I/O Optimal Multi-Linear Algebra Alexandros Nikolaos Ziogas (ETH Zürich); Grzegorz Kwasniewski (NextSilicon Inc, ETH Zürich); and Tal Ben-Nun, Timo Schneider, and Torsten Hoefler (ETH Zürich)

Dynamic Quality Metric Oriented Error Bounded Lossy Compression for Scientific Datasets Jinyang Liu (University of California, Riverside; Argonne National Laboratory (ANL)); Sheng Di (Argonne National Laboratory (ANL)); Kai Zhao (University of Alabama, Birmingham); Xin Liang (University of Kentucky); Zizhong Chen (University of California, Riverside); and Franck Cappello (Argonne National Laboratory (ANL))

Efficient Quantized Sparse Matrix Operations on Tensor Cores Shigang Li (Beijing University of Posts and Telecommunications, ETH Zürich) and Kazuki Osawa and Torsten Hoefler (ETH Zürich)

EL-Rec: Efficient Large-Scale Recommendation Model Training via Tensor-Train Embedding Table Zheng Wang, Yuke Wang, and Boyuan Feng (University of California, Santa Barbara); Dheevatsa Mudigere and Bharath Muthiah (Meta); and Yufei Ding (University of California, Santa Barbara)

Exaflops Biomedical Knowledge Graph Analytics Ramakrishnan Kannan, Piyush Sao, and Hao Lu (Oak Ridge National Laboratory (ORNL)); Jakub Kurzak (Advanced Micro Devices (AMD) Inc); Gundolf Schenk and Yongmei Shi (University of California, San Francisco); Seung-Hwan Lim (Oak Ridge National Laboratory (ORNL)); Sharat Israni (University of California, San Francisco); Vijay Thakkar (Georgia Institute of Technology); Guojing Cong and Robert Patton (Oak Ridge National Laboratory (ORNL)); Sergio Baranzini (University of California, San Francisco); Richard Vuduc (Georgia Institute of Technology); and Thomas Potok (Oak Ridge National Laboratory (ORNL))

Extreme Scale Earthquake Simulation with Uncertainty Quantification Tsuyoshi Ichimura and Kohei Fujita (University of Tokyo, RIKEN); Ryota Kusakabe (University of Tokyo); Kentaro Koyama (Fujitsu Ltd); Sota Murakami and Yuma Kikuchi (University of Tokyo); Takane Hori and Muneo Hori (Japan Agency for Marine-Earth Science and Technology); Hikaru Inoue, Takafumi Nose, and Takahiro Kawashima (Fujitsu Ltd); and Lalith Maddegedara (University of Tokyo)

Extreme-Scale Many-against-Many Protein Similarity Search Oguz Selvitopi (Lawrence Berkeley National Laboratory (LBNL)); Saliya Ekanayake (Microsoft Corporation); Giulia Guidi (University of California, Berkeley); Muaaz Awan (National Energy Research Scientific Computing Center (NERSC)); Georgios Pavlopoulos (Biomedical Sciences Research Center (BSRC), Greece); Ariful Azad (Indiana University); Nikos Kyrpides (US Department of Energy Joint Genome Institute); Leonid Oliker (Lawrence Berkeley National Laboratory (LBNL)); Katherine Yelick (University of California, Berkeley; Lawrence Berkeley National Laboratory (LBNL)); and Aydin Buluç (Lawrence Berkeley National Laboratory (LBNL); University of California, Berkeley)

Finding Inputs that Trigger Floating-Point Exceptions in GPUs via Bayesian Optimization Ignacio Laguna (Lawrence Livermore National Laboratory) and Ganesh Gopalakrishnan (University of Utah)

From Correctable Memory Errors to Uncorrectable Memory Errors: What Error Bits Tell Cong Li (Intel Corporation), Yu Zhang (ByteDance Ltd), Jialei Wang and Hang Chen (Intel Corporation), Xian Liu (ByteDance Ltd), Tai Huang (Intel Corporation), Liang Peng (ByteDance Ltd), Shen Zhou (Intel Corporation), and Lixin Wang and Shijian Ge (ByteDance Ltd)

GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics Maxim Zvyagin (Argonne National Laboratory (ANL)); Alexander Brace (Argonne National Laboratory (ANL), University of Chicago); Kyle Hippe (Argonne National Laboratory (ANL)); Yuntian Deng (NVIDIA Corporation, Harvard University); Bin Zhang and Cindy Bohorquez (Cerebras Systems); Austin Clyde (Argonne National Laboratory (ANL), University of Chicago); Bharat Kale (Northern Illinois University); Danilo Perez-Rivera (Argonne National Laboratory (ANL), New York University (NYU)); Heng Ma (Argonne National Laboratory (ANL)); Carla M. Mann (Argonne National Laboratory (ANL), University of Chicago); Michael Irvin (Argonne National Laboratory (ANL)); J. Gregory Pauloski (University of Chicago); Logan Ward (Argonne National Laboratory (ANL)); Valerie Hayot-Sasson (Argonne National Laboratory (ANL), University of Chicago); Murali Emani, Sam Foreman, and Zhen Xie (Argonne National Laboratory (ANL)); Diangen Lin and Maulik Shukla (Argonne National Laboratory (ANL), University of Chicago); Weili Nie and Josh Romero (NVIDIA Corporation); Christian Dallago (NVIDIA Corporation, Technical University Munich); Arash Vahdat (NVIDIA Corporation); Chaowei Xiao (Arizona State University, NVIDIA Corporation); Thomas Gibbs (NVIDIA Corporation); Ian Foster and James J. Davis (Argonne National Laboratory (ANL), University of Chicago); Michael Papka (Argonne National Laboratory (ANL); University of Illinois, Chicago); Thomas Brettin (Argonne National Laboratory (ANL)); Rick Stevens (Argonne National Laboratory (ANL), University of Chicago); Anima Anandkumar (NVIDIA Corporation, California Institute of Technology); and Venkatram Vishwanath and Arvind Ramanathan (Argonne National Laboratory (ANL))

A GPU-Accelerated AMR Solver for Gravitational Wave Propagation Milinda Fernando (University of Texas, Oden Institute); David Neilsen and Eric Hirschmann (Brigham Young University); Yosef Zlochower (Rochester Institute of Technology); Hari Sundar (University of Utah); and Omar Ghattas and George Biros (University of Texas, Oden Institute)

Graph Neural Networks Based Memory Inefficiency Detection Using Selective Sampling Pengcheng Li (TikTok Inc); Yixin Guo, Yingwei Luo, and Xiaolin Wang (Peking University); Zhenlin Wang (Michigan Technological University); and Xu Liu (North Carolina State University)

GraphFly: Efficient Asynchronous Streaming Graphs Processing via Dependency-Flow Dan Chen, Chuangyi Gui, Yi Zhang, Hai Jin, Long Zheng, Yu Huang, and Xiaofei Liao (Huazhong University of Science and Technology (HUST))

GUFI: Fast, Secure File System Metadata Search for Both Privileged and Unprivileged Users Dominic Manno and Jason Lee (Los Alamos National Laboratory (LANL)); Prajwal Challa (University of Texas, Arlington); Qing Zheng, David Bonnie, and Gary Grider (Los Alamos National Laboratory (LANL)); and Bradley Settlemyer (NVIDIA Corporation)

HammingMesh: A Network Topology for Large-Scale Deep Learning Torsten Hoefler (ETH Zürich, Microsoft Corporation); Tommaso Bonato, Daniele De Sensi, Salvatore Di Girolamo, and Shigang Li (ETH Zürich); and Marco Heddes, Jon Belk, Deepak Goel, Miguel Castro, and Steve Scott (Microsoft Corporation)

HGL: Accelerating Heterogeneous GNN Training with Holistic Representation and Optimization Yuntao Gui, Yidi Wu, Han Yang, Tatiana Jin, Boyang Li, Qihui Zhou, and James Cheng (Chinese University of Hong Kong (CUHK)) and Fan Yu (Huawei Technologies Ltd)

HyLo: A Hybrid Low-Rank Natural Gradient Descent Method Baorun Mu and Saeed Soori (University of Toronto), Bugra Can and Mert Gürbüzbalaban (Rutgers University), and Maryam Mehri Dehnavi (University of Toronto)

Image Gradient Decomposition for Parallel and Memory-Efficient Ptychographic Reconstruction Xiao Wang, Aristeidis Tsaris, and Debangshu Mukherjee (Oak Ridge National Laboratory (ORNL)); Mohamed Wahib (RIKEN Center for Computational Science (R-CCS)); Peng Chen (National Institute of Advanced Industrial Science and Technology (AIST), Japan); and Mark Oxley, Olga Ovchinnikova, and Jacob Hinkle (Oak Ridge National Laboratory (ORNL))

LabStor: A Modular and Extensible Platform for Developing High-Performance, Customized I/O Stacks in Userspace Luke Logan and Jaime Garcia (Illinois Institute of Technology), Jay Lofstead (Sandia National Laboratories), and Xian-He Sun and Anthony Kougkas (Illinois Institute of Technology)

Large-Scale Simulation of Quantum Computational Chemistry on a New Sunway Supercomputer Honghui Shang (Institute of Computing Technology, Chinese Academy of Sciences); Li Shen (University of Science and Technology of China, National Supercomputing Center in Wuxi); Yi Fan (University of Science and Technology of China); Zhiqian Xu (Institute of Computing Technology, Chinese Academy of Sciences); Chu Guo (Shanghai Research Center for Quantum Sciences); Jie Liu (University of Science and Technology of China); Wenhao Zhou (National Supercomputing Center in Wuxi); Huan Ma (University of Science and Technology of China); Rongfen Lin (Tsinghua University, China); Yuling Yang and Fang Li (National Supercomputing Center in Wuxi); Zhuoya Wang (Pilot National Laboratory for Marine Science and Technology, Qingdao, China); Yunquan Zhang (Institute of Computing Technology, Chinese Academy of Sciences); and Zhenyu Li (University of Science and Technology of China)

Lessons Learned on MPI+Threads Communication Rohit Zambre and Aparna Chandramowlishwaran (University of California, Irvine)

LightSeq2: Accelerated Training for Transformer-Based Models on GPUs Xiaohui Wang, Yang Wei, and Ying Xiong (ByteDance Ltd, AI Lab); Guyue Huang (University of California, Santa Barbara); Xian Qian (ByteDance Ltd, AI Lab); Yufei Ding (University of California, Santa Barbara); Mingxuan Wang (ByteDance Ltd, AI Lab); and Lei Li (University of California, Santa Barbara)

Mapping Out the HPC Dependency Chaos Farid Zakaria (University of California, Santa Cruz); Thomas Scogland and Todd Gamblin (Lawrence Livermore National Laboratory); and Carlos Maltzahn (University of California, Santa Cruz)

Memory Optimizations in an Array Language Philip Munksgaard and Troels Henriksen (University of Copenhagen), Ponnuswamy Sadayappan (University of Utah), and Cosmin Oancea (University of Copenhagen)

MetaWBC: POSIX-Compliant Metadata Write-Back Caching for Distributed File Systems Yingjin Qian (DataDirect Networks (DDN)); Wen Cheng (Huazhong University of Science and Technology (HUST)); Lingfang Zeng (Zhejiang Lab); Marc-André Vef (Johannes Gutenberg University Mainz); Oleg Drokin and Andreas Dilger (Whamcloud Inc); Shuichi Ihara (DataDirect Networks (DDN)); Wusheng Zhang (Tsinghua University, China); Yang Wang (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences); and André Brinkmann (Johannes Gutenberg University Mainz)

Mitigating Silent Data Corruptions in HPC Applications across Multiple Program Inputs Yafan Huang (University of Iowa), Shengjian Guo (Baidu Security), Sheng Di (Argonne National Laboratory (ANL)), Guanpeng Li (University of Iowa), and Franck Cappello (Argonne National Laboratory (ANL))

Not All GPUs Are Created Equal: Characterizing Variability in Large-Scale, Accelerator-Rich Systems Prasoon Sinha, Akhil Guliani, Rutwik Jain, and Brandon Tran (University of Wisconsin, Madison); Matthew Sinclair (University of Wisconsin, Madison; AMD Research); and Shivaram Venkataraman (University of Wisconsin, Madison)

Optimization of Full-Core Reactor Simulations on Summit Misun Min (Argonne National Laboratory (ANL)); Yu-Hsiang Lan (University of Illinois); Paul Fischer (University of Illinois, Argonne National Laboratory (ANL)); Elia Merzari (Pennsylvania State University, Argonne National Laboratory (ANL)); Stefan Kerkemeier (Argonne National Laboratory (ANL)); Malachi Phillips and Thilina Rathnayake (University of Illinois); April Novak (Argonne National Laboratory (ANL)); Derek Gaston (Idaho National Laboratory); Noel Chalmers (AMD Research); and Tim Warburton (Virginia Tech)

Optimizing Random Access to Hierarchically-Compressed Data on GPU Feng Zhang, Yihua Hu, Haipeng Ding, Zhiming Yao, Zhewei Wei, Xiao Zhang, and Xiaoyong Du (Renmin University of China)

Out of Hypervisor (OoH): Efficient Dirty Page Tracking in Userspace Using Hardware Virtualization Features Stella Bitchebe and Alain Tchana (ENS Lyon)

P-MASSIVE: A Real-Time Search Engine for a Multi-Terabyte Mass Spectrometry Database Narangerelt Batsoyol, Benjamin Pullman, Mingxun Wang, Nuno Bandeira, and Steven Swanson (University of California, San Diego (UCSD))

Parla: A Python Orchestration System for Heterogeneous Architectures Hochan Lee and William Ruys (University of Texas); Ian Henriksen (University of Texas, Jabberwock Technologies Inc); Arthur Peters (University of Texas, Katana Graph Inc); Yineng Yan, Sean Stephens, Bozhi You, and Henrique Fingler (University of Texas); Martin Burtscher (Texas State University); Milos Gligoric (University of Texas); Karl Schulz and Keshav Pingali (University of Texas, Oden Institute); Christopher J. Rossbach and Mattan Erez (University of Texas); and George Biros (University of Texas, Oden Institute)

PolarFly: A Cost-Effective and Flexible Low-Diameter Topology Kartik Lakhotia (Intel Corporation, Intel Labs); Maciej Besta (ETH Zürich); Laura Monroe (Los Alamos National Laboratory (LANL)); Kelly Isham (Colgate University); Patrick Iff and Torsten Hoefler (ETH Zürich); and Fabrizio Petrini (Intel Corporation)

Positive-Phase Temperature Scaling for Quantum-Assisted Boltzmann Machine Training Jose Pablo Pinilla Gomez and Steven JE Wilton (University of British Columbia)

Predicting Reuse Interval for Optimized Web Caching: An LSTM-Based Machine Learning Approach Pengcheng Li (TikTok Inc), Yixin Guo (Peking University), and Yongbin Gu (Meta Platforms Inc)

ProbGraph: High-Performance and High-Accuracy Graph Mining with Probabilistic Set Representations Maciej Besta (ETH Zürich); Cesare Miglioli (University of Geneva, Switzerland); Paolo Sylos Labini (Free University of Bozen-Bolzano, Italy); Jakub Tětek (University of Copenhagen); Patrick Iff (ETH Zürich); Raghavendra Kanakagiri (University of Illinois); Saleh Ashkboos (ETH Zürich); Kacper Janda (AGH University of Science and Technology, Krakow, Poland); Michal Podstawski (Warsaw University of Technology); Grzegorz Kwasniewski and Niels Gleinig (ETH Zürich); Flavio Vella (University of Trento, Italy); and Onur Mutlu and Torsten Hoefler (ETH Zürich)

Productive Performance Engineering for Weather and Climate Modeling with Python Tal Ben-Nun (ETH Zürich); Linus Groner (Swiss National Supercomputing Centre (CSCS)); Florian Deconinck, Tobias Wicky, Eddie Davis, Johann Dahm, Oliver D. Elbert, Rhea George, and Jeremy McGibbon (Allen Institute for Artificial Intelligence); Lukas Trümper (ETH Zürich); Elynn Wu and Oliver Fuhrer (Allen Institute for Artificial Intelligence); Thomas Schulthess (Swiss National Supercomputing Centre (CSCS)); and Torsten Hoefler (ETH Zürich)

Pushing the Frontier in the Design of Laser-Based Electron Accelerators with Groundbreaking Mesh-Refined Particle-In-Cell Simulations on Exascale-Class Supercomputers Luca Fedeli (University of Paris-Saclay); Axel Huebl (Lawrence Berkeley National Laboratory (LBNL)); France Boillod-Cerneux and Thomas Clark (University of Paris-Saclay); Kevin Gott (Lawrence Berkeley National Laboratory (LBNL)); Conrad Hillairet (ARM Ltd); Stephan Jaure (Bull Atos Technologies); Adrien Leblanc (National Institute of Advanced Technology (ENSTA Paris)); Rémi Lehe and Andrew Myers (Lawrence Berkeley National Laboratory (LBNL)); Christelle Piechurski (GENCI, France); Mitsuhisa Sato (RIKEN); Neil Zaïm (University of Paris-Saclay); Weiqun Zhang and Jean-Luc Vay (Lawrence Berkeley National Laboratory (LBNL)); and Henri Vincenti (University of Paris-Saclay)

QoS-Aware Irregular Collaborative Inference for Improving Throughput of DNN Services Kaihua Fu, Jiuchen Shi, and Quan Chen (Shanghai Jiao Tong University); Ningxin Zheng (Microsoft Research Asia); Wei Zhang (Shanghai Jiao Tong University); Deze Zeng (China University of Geosciences); and Minyi Guo (Shanghai Jiao Tong University)

ReSemble: Reinforced Ensemble Framework for Data Prefetching Pengmiao Zhang (University of Southern California (USC)); Rajgopal Kannan (United States Army Research Laboratory, University of Southern California (USC)); Ajitesh Srivastava (University of Southern California (USC)); Anant V. Nori (Intel Corporation); and Viktor K. Prasanna (University of Southern California (USC))

Reshaping Geostatistical Modeling and Prediction for Extreme-Scale Environmental Applications Qinglei Cao (University of Tennessee, Innovative Computing Laboratory); Sameh Abdulah and Rabab Alomairy (King Abdullah University of Science and Technology (KAUST)); Yu Pei (University of Tennessee, Innovative Computing Laboratory); Pratik Nag (King Abdullah University of Science and Technology (KAUST)); George Bosilca (University of Tennessee, Innovative Computing Laboratory); Jack Dongarra (University of Tennessee, Innovative Computing Laboratory; Oak Ridge National Laboratory (ORNL)); and Marc Genton, David Keyes, Hatem Ltaief, and Ying Sun (King Abdullah University of Science and Technology (KAUST))

Running Ahead of Evolution - AI Based Simulation for Predicting Future High-Risk SARS-CoV-2 Variants Jie Chen (Peng Cheng Laboratory; School of Electronic and Computer Engineering, Peking University); Zhiwei Nie (School of Electronic and Computer Engineering, Peking University; Peng Cheng Laboratory); Yu Wang, Kai Wang, Fan Xu, Zhennan Wang, Guoli Song, Xiansong Huang, and Zhixiang Ren (Peng Cheng Laboratory); Bin Zhou (School of Information Science and Engineering, Shandong University); Chao Yang (School of Mathematical Sciences, Peking University); and Yonghong Tian (Peng Cheng Laboratory; School of Electronic and Computer Engineering, Peking University)

Scalable Automatic Differentiation of Multiple Parallel Paradigms through Compiler Augmentation William Moses (Massachusetts Institute of Technology (MIT)); Sri Hari Krishna Narayanan (Argonne National Laboratory (ANL)); Ludger Paehler (Technical University Munich); Valentin Churavy (Massachusetts Institute of Technology (MIT)); and Michel Schanen, Jan Hueckelheim, Johannes Doerfert, and Paul Hovland (Argonne National Laboratory (ANL))

Scalable Deep Learning-Based Microarchitecture Simulation on GPUs Santosh Pandey (Stevens Institute of Technology); Lingda Li, Thomas Flynn, and Adolfy Hoisie (Brookhaven National Laboratory); and Hang Liu (Stevens Institute of Technology)

Scalable Distributed High-Order Stencil Computations Mathias Jacquelin (Cerebras Systems) and Mauricio Araya-Polo and Jie Meng (TotalEnergies EP Research and Technology USA, LLC)

Scalable Irregular Parallelism with GPUs: Getting CPUs Out of the Way Yuxin Chen (University of California, Davis); Benjamin Brock (University of California, Berkeley); Serban Porumbescu (University of California, Davis); Aydin Buluc (Lawrence Berkeley National Laboratory (LBNL)); Katherine Yelick (University of California, Berkeley); and John Owens (University of California, Davis)

Scalable Linear Time Dense Direct Solver for 3-D Problems without Trailing Sub-Matrix Dependencies Qianxiang Ma, Sameer Deshmukh, and Rio Yokota (Tokyo Institute of Technology)

Scaling Correlated Fragment Molecular Orbital Calculations on Summit Giuseppe Barca and Calum Snowdon (Australian National University); Jorge Galvez-Vallejo (Iowa State University); Fazeleh Kazemian (Australian National University); Alistair Rendell (Flinders University, Australia); and Mark S. Gordon (Iowa State University)

Scaling Graph 500 SSSP to 140 Trillion Edges with over 40 Million Cores Yuanwei Wang, Huanqi Cao, and Zixuan Ma (Tsinghua University, China); Wanwang Yin (National Supercomputing Center in Wuxi); and Wenguang Chen (Tsinghua University, China)

SeqDLM: A Sequencer-Based Distributed Lock Manager for Efficient Shared File Access in a Parallel File System Qi Chen, Shaonan Ma, and Kang Chen (Tsinghua University, China); Teng Ma (Alibaba Inc); Xin Liu and Dexun Chen (National Supercomputing Center in Wuxi); Yongwei Wu (Tsinghua University, China); and Zuoning Chen (Chinese Academy of Engineering; Tsinghua University, China)

SERVIZ: A Shared In Situ Visualization Service Srinivasan Ramesh, Hank Childs, and Allen Malony (University of Oregon)

SFS: Smart OS Scheduling for Serverless Functions Yuqi Fu (University of Virginia), Liu Li (George Mason University (GMU)), Haoliang Wang (Adobe Research), Yue Cheng (University of Virginia), and Songqing Chen (George Mason University (GMU))

Solving Linear Systems on a GPU with Hierarchically Off-Diagonal Low-Rank Approximations Chao Chen and Gunnar Martinsson (University of Texas, Oden Institute)

SPATL: Salient Parameter Aggregation and Transfer Learning for Heterogeneous Federated Learning Sixing Yu, Phuong Nguyen, Waqwoya Abebe, and Wei Qian (Iowa State University); Ali Anwar (IBM Research, Almaden); and Ali Jannesari (Iowa State University)

SpDISTAL: Compiling Distributed Sparse Tensor Computations Rohan Yadav, Alex Aiken, and Fredrik Kjolstad (Stanford University)

STMatch: Accelerating Graph Pattern Matching on GPU with Stack-Based Loop Optimizations Yihua Wei and Peng Jiang (University of Iowa)

STRONGHOLD: Fast and Affordable Billion-Scale Deep Learning Model Training Xiaoyang Sun (University of Leeds, Alibaba Group); Wei Wang (Alibaba Group); Shenghao Qiu and Renyu Yang (University of Leeds); Songfang Huang (Alibaba Group); and Jie Xu and Zheng Wang (University of Leeds)

Study of Workload Interference with Intelligent Routing on Dragonfly Yao Kang, Xin Wang, and Zhiling Lan (Illinois Institute of Technology)

Symmetric Block-Cyclic Distribution: Fewer Communications Leads to Faster Dense Cholesky Factorization Olivier Beaumont (French Institute for Research in Computer Science and Automation (INRIA)); Philippe Duchon (LaBRI, France); Lionel Eyraud-Dubois (French Institute for Research in Computer Science and Automation (INRIA)); Julien Langou (University of Colorado, Denver); and Mathieu Verite (French Institute for Research in Computer Science and Automation (INRIA))

A Taxonomy of Error Sources in HPC I/O Machine Learning Models Mihailo Isakov, Mikaela Currier, and Eliakin del Rosario (Arizona State University); Sandeep Madireddy, Prasanna Balaprakash, Philip H. Carns, and Robert B. Ross (Argonne National Laboratory (ANL)); Glenn K. Lockwood (Lawrence Berkeley National Laboratory (LBNL)); and Michel A. Kinsy (Arizona State University)

TD-NUCA: Runtime Driven Management of NUCA Caches in Task Dataflow Programming Models Paul Caheny (Intel Corporation) and Lluc Alvarez, Marc Casas, and Miquel Moreto (Barcelona Supercomputing Center (BSC); Polytechnic University of Catalonia, Spain)

Toward Scalable Resource Management for Supercomputers Yiqin Dai, Yong Dong, Kai Lu, Ruibo Wang, Wei Zhang, Juan Chen, and Mingtian Shao (National University of Defense Technology (NUDT), China) and Zheng Wang (University of Leeds)

TwoFold: highly accurate structure and affinity prediction for protein-ligand complexes from sequences Darren J. Hsu, Hao Lu, Aditya Kashi, Michael Matheson, John Gounley, Feiyi Wang, Wayne Joubert, and Jens Glaser (Oak Ridge National Laboratory (ORNL))

UniQ: A Unified Programming Model for Efficient Quantum Circuit Simulation Chen Zhang, Haojie Wang, Zixuan Ma, Lei Xie, Zeyu Song, and Jidong Zhai (Tsinghua University, China)

Using Answer Set Programming for HPC Dependency Solving Todd Gamblin (Lawrence Livermore National Laboratory), Massimiliano Culpo (Np-Complete S.r.l.), and Gregory Becker and Sergei Shudler (Lawrence Livermore National Laboratory)

Using Unused: Non-Invasive Dynamic FaaS Infrastructure with HPC-Whisk Bartłomiej Przybylski (Institute of Informatics, University of Warsaw, Poland); Maciej Pawlik (AGH University of Science and Technology, Krakow, Poland; Academic Computer Centre Cyfronet AGH, Krakow, Poland); Paweł Żuk (Institute of Informatics, University of Warsaw, Poland); Bartłomiej Łagosz (AGH University of Science and Technology, Krakow, Poland); Maciej Malawski (Sano Centre for Computational Medicine, Krakow, Poland; AGH University of Science and Technology, Krakow, Poland); and Krzysztof Rzadca (Institute of Informatics, University of Warsaw, Poland)

Vectorizing Sparse Matrix Computations with Partially-Strided Codelets Kazem Cheshmi (University of Toronto; McMaster University, Ontario, Canada) and Zachary Cetinic and Maryam Mehri Dehnavi (University of Toronto)

vGraph: Memory-Efficient Multicore Graph Processing for Traversal-Centric Algorithms Menghan Jia (National University of Defense Technology (NUDT), China); Yiming Zhang (Xiamen University; National University of Defense Technology (NUDT), China); Xinbiao Gan and Dongsheng Li (National University of Defense Technology (NUDT), China); Erci Xu (Xiamen University; National University of Defense Technology (NUDT), China); and Ruibo Wang and Kai Lu (National University of Defense Technology (NUDT), China)

VSGM: View-Based GPU-Accelerated Subgraph Matching on Large Graphs Guanxian Jiang, Qihui Zhou, Tatiana Jin, Boyang Li, Yunjian Zhao, Yichao Li, and James Cheng (Chinese University of Hong Kong (CUHK))

W-Cycle SVD: A Multilevel Algorithm for Batched SVD on GPUs Junmin Xiao, Yunfei Pang, Qing Xue, and Chaoyang Shui (Institute of Computing Technology, Chinese Academy of Sciences); Ke Meng (Alibaba Group); and Hui Ma, Mingyi Li, Xiaoyang Zhang, and Guangming Tan (Institute of Computing Technology, Chinese Academy of Sciences)

WholeGraph: A Fast Graph Neural Network Training Framework with Multi-GPU Distributed Shared Memory Architecture Dongxu Yang, Junhong Liu, Jiaxing Qi, and Junjie Lai (NVIDIA Corporation)

SC Technical Program Archives

Technical Papers