NFDI4DS | UHH-SEMS - Publication Details

Ruiqi Guo

ORCID: 0000-0003-4729-7385

Publications

Citations

Views

---

Saved

---

About

Contact & Profiles

A5085105148

Research Areas

Parallel Computing and Optimization Techniques
Advanced Memory and Neural Computing
Advanced Data Storage Technologies
Ferroelectric and Negative Capacitance Devices
Brain Tumor Detection and Classification
Advanced Neural Network Applications
Network Packet Processing and Optimization
Tensor decomposition and applications
Neural Networks and Applications
Advanced Vision and Imaging
Semiconductor materials and devices
Distributed and Parallel Computing Systems
Advanced Image and Video Retrieval Techniques
Image and Signal Denoising Methods
Algorithms and Data Compression
Generative Adversarial Networks and Image Synthesis
Manufacturing Process and Optimization
Advanced Data Compression Techniques
Semiconductor materials and interfaces
Industrial Vision Systems and Defect Detection
Analog and Mixed-Signal Circuit Design
Smart Grid Security and Resilience
Integrated Circuits and Semiconductor Failure Analysis
Embedded Systems Design Techniques
Elevator Systems and Control

Tsinghua University
2019-2025

Global Energy Interconnection Research Institute North America
2020

A 5.1pJ/Neuron 127.3us/Inference RNN-based Speech Recognition Processor using 16 Computing-in-Memory SRAM Macros in 65nm CMOS

OPENALEX - Publications

Ruiqi Guo Yonggang Liu Shixuan Zheng Ssu-Yen Wu Peng Ouyang and 8 more

This work presents a 65nm CMOS speech recognition processor, named Thinker-IM, which employs 16 computing-in-memory (SRAM-CIM) macros for binarized recurrent neural network (RNN) computation. Its major contributions are: 1) A novel digital-CIM mixed architecture that runs an output-weight dual stationary (OWDS) dataflow, reducing 85.7% memory accessing; 2) Multi-bit XNOR SRAM-CIM and corresponding CIM-aware weight adaptation reduces 9.9% energy consumption in average; 3) Predictive early...

10.23919/vlsic.2019.8778028 article EN Symposium on VLSI Circuits 2019-06-01

15.4 A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity-Based Optimization and Variable-Precision Quantization

OPENALEX - Publications

Ruiqi Guo Zhiheng Yue Xin Si Te Hu Hao Li and 7 more

Computing-in-memory (CIM) improves energy efficiency by enabling parallel multiply-and-accumulate (MAC) operations and reducing memory accesses [1-4]. However, today's typical neural networks (NNs) usually exceed on-chip capacity. Thus, a CIM-based processor may encounter bottleneck [5]. Tensor-train (TT) is tensor decomposition method, which decomposes d-dimensional to d 4D tensor-cores (TCs: G <sub xmlns:mml="http://www.w3.org/1998/Math/MathML"...

10.1109/isscc42613.2021.9365989 article EN 2022 IEEE International Solid- State Circuits Conference (ISSCC) 2021-02-13

20.2 A 28nm 74.34TFLOPS/W BF16 Heterogenous CIM-Based Accelerator Exploiting Denoising-Similarity for Diffusion Models

OPENALEX - Publications

Ruiqi Guo Lei Wang Xiaofeng Chen Hao Sun Zhiheng Yue and 7 more

Diffusion models (DMs) have emerged as a powerful category of generative with record-breaking performance in image synthesis [1]. A noisy created from pure Gaussian random variables needs to be denoised by iterative DMs ensure quality. For DMs, quantizing activations integers (INT) degrades quality due changes activation distributions and the accumulation quantization errors across iterations. GPU (Nvidia A100) requires 2560 ms 250 W generate $256 \times 256$ through 50 iterations...

10.1109/isscc49657.2024.10454308 article EN 2022 IEEE International Solid- State Circuits Conference (ISSCC) 2024-02-18

An Energy-Efficient POSIT Compute-in-Memory Macro for High-Accuracy AI Applications

OPENALEX - Publications

Yang Wang Xiaolong Yang Yubin Qin Zhiren Zhao Ruiqi Guo and 5 more

10.1109/jssc.2025.3532654 article EN IEEE Journal of Solid-State Circuits 2025-01-01

TT@CIM: A Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity Optimization and Variable Precision Quantization

OPENALEX - Publications

Ruiqi Guo Zhiheng Yue Xin Si Hao Li Te Hu and 8 more

Computing-in-memory (CIM) is an attractive approach for energy-efficient deep neural network (DNN) processing, especially low-power edge devices. However, today's typical DNNs usually exceed CIM-static random access memory (SRAM) capacity. The introduced off-chip communication covers up the benefits of CIM technique, meaning that processors still encounter bottleneck. To eliminate this bottleneck, we propose a processor, called TT@CIM, which applies tensor-train decomposition (TTD) method to...

10.1109/jssc.2022.3198413 article EN IEEE Journal of Solid-State Circuits 2022-08-25

14.4 A 51.6TFLOPs/W Full-Datapath CIM Macro Approaching Sparsity Bound and <2-30 Loss for Compound AI

OPENALEX - Publications

Zhiheng Yue Xujiang Xiang Yang Wang Ruiqi Guo Huiming Han and 3 more

10.1109/isscc49661.2025.10904702 article EN 2022 IEEE International Solid- State Circuits Conference (ISSCC) 2025-02-16

34.1 A 28nm 83.23TFLOPS/W POSIT-Based Compute-in-Memory Macro for High-Accuracy AI Applications

OPENALEX - Publications

Yang Wang Xiaolong Yang Yubin Qin Zhiren Zhao Ruiqi Guo and 5 more

Rapidly expanding artificial intelligence (Al) models, for complex AI tasks, drive high-energy efficiency and high-precision requirements Al processors [1–6]. Floating-point CIM (FP-CIM) is a promising technique to improve energy maintain accuracy. However, FP-CIM with FP32/FP16/BF16 suffers from performance bottleneck due its large storage considerable MAC power. The emerging POSIT data format, exploiting dynamic bit width that adapts varied distributions, can use low achieve nearly the...

10.1109/isscc49657.2024.10454567 article EN 2022 IEEE International Solid- State Circuits Conference (ISSCC) 2024-02-18

CIMFormer: A Systolic CIM-Array-Based Transformer Accelerator With Token-Pruning-Aware Attention Reformulating and Principal Possibility Gathering

OPENALEX - Publications

Ruiqi Guo X.L. Chen Lei Wang Yang Wang Hao Sun and 6 more

Transformer models have achieved impressive performance in various artificial intelligence (AI) applications. However, the high cost of computation and memory footprint make its inference inefficient. Although digital compute-in-memory (CIM) is a promising hardware architecture with accuracy, Transformer's attention mechanism raises three challenges access CIM: 1) involving <italic xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">Query</i>...

10.1109/jssc.2024.3402174 article EN IEEE Journal of Solid-State Circuits 2024-05-29

7.7 CV-CIM: A 28nm XOR-Derived Similarity-Aware Computation-in-Memory for Cost-Volume Construction

OPENALEX - Publications

Zhiheng Yue Yang Wang Huizheng Wang Yabing Wang Ruiqi Guo and 5 more

Cost-volume construction, which accurately computes the similarities between pixels in paired images, is a fundamental kernel of stereo vision processing and has been directly used robotic, autopilot, AR/VR applications. However, large parameter size consecutive data accesses real-time cost-volume construction (>30fps) exerts high demand on memory bandwidth (0.254Tb/s) operation (391GOPs). A promising candidate to resolve bottleneck computation-in-memory (CIM), provides computing parallelism...

10.1109/isscc42615.2023.10067720 article EN 2022 IEEE International Solid- State Circuits Conference (ISSCC) 2023-02-19

A 22nm 54.94TFLOPS/W Transformer Fine-Tuning Processor with Exponent-Stationary Re-Computing, Aggressive Linear Fitting, and Logarithmic Domain Multiplicating

OPENALEX - Publications

Yang Wang Xiaolong Yang Yubin Qin Zhiren Zhao Ruiqi Guo and 5 more

10.1109/vlsitechnologyandcir46783.2024.10631541 article EN 2022 IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits) 2024-06-16

A 6.54-to-26.03 TOPS/W Computing-In-Memory RNN Processor using Input Similarity Optimization and Attention-based Context-breaking with Output Speculation

OPENALEX - Publications

Ruiqi Guo Hao Li Ruhui Liu Zhixiao Zhang Limei Tang and 5 more

This work presents a 65nm RNN processor with computing-inmemory (CIM) macros. The main contributions include: 1) A similarity analyzer (SimAyz) to fully leverage the temporal stability of input sequences 1.52× performance speedup; 2) An attention-based context-breaking (AttenBrk) method output speculation reduce off-chip data accesses up 30.3%; 3) double-buffering scheme for CIM macros hide writing latency and pipeline processing element (PE) array increase system throughput. Measured...

10.23919/vlsicircuits52068.2021.9492492 article EN Symposium on VLSI Circuits 2021-06-13

A 28nm 77.35TOPS/W Similar Vectors Traceable Transformer Processor with Principal-Component-Prior Speculating and Dynamic Bit-wise Stationary Computing

OPENALEX - Publications

Yang Wang Yubin Qin Dazheng Deng Xiaolong Yang Zhiren Zhao and 6 more

This paper proposes an energy-efficient Transformer processor exploiting dynamic similarity in global attention computing. It has three features: 1) A principal-component-prior speculation unit (PCSU) removes 28.4% of redundant computations. 2) similar-vector tracked computing engine (STCE) saves 42.2% multiplications. 3) bit-wise stationary processing element (BSPE) reduces multiplication energy by $1.47\times$. The proposed achieves a peak efficiency 77.35TOPS/W. $2.81\times$ and offers...

10.23919/vlsitechnologyandcir57934.2023.10185403 article EN 2022 IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits) 2023-06-11

Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture

OPENALEX - Publications

Zhiheng Yue Huizheng Wang Jiahao Fang Jinyi Deng Guangyang Lu and 10 more

10.1109/isca59077.2024.00037 article EN 2024-06-29

A 28-nm 28.8-TOPS/W Attention-Based NN Processor With Correlative CIM Ring Architecture and Dataflow-Reshaped Digital-Assisted CIM Array

OPENALEX - Publications

Ruiqi Guo Zhiheng Yue Yang Wang Hao Li Te Hu and 9 more

10.1109/jssc.2024.3419808 article EN IEEE Journal of Solid-State Circuits 2024-01-01

A 28nm 118.26TOPS/W Multi-Dimensional Fault-Tolerant Al Processor Enabling Voltage-Frequency Scaling Below Point-of-First-Failure

OPENALEX - Publications

Yang Wang Xiaolong Yang Yubin Qin Zhiren Zhao Ruiqi Guo and 4 more

10.1109/a-sscc60305.2024.10848818 article EN 2022 IEEE Asian Solid-State Circuits Conference (A-SSCC) 2024-11-18

CV-CIM: A Hybrid Domain Xor-Derived Similarity-Aware Computation-in-Memory Supporting Cost–Volume Construction

OPENALEX - Publications

Zhiheng Yue Yang Wang Huizheng Wang Ruiqi Guo Fengbin Tu and 4 more

10.1109/jssc.2024.3421589 article EN IEEE Journal of Solid-State Circuits 2024-01-01

A 28nm 4170-TFLOPS/W/b and 195-TFLOPS/mm2/b Multiply-Free Fully-Digital Floating-Point Compute-In-Memory Macro with Mitchell's Approximation

OPENALEX - Publications

Ruiqi Guo X.L. Chen Lei Wang Fengbin Tu Shaojun Wei and 2 more

10.1109/vlsitechnologyandcir46783.2024.10631459 article EN 2022 IEEE Symposium on VLSI Technology and Circuits (VLSI Technology and Circuits) 2024-06-16

A 28nm 57.6TOPS/W Attention-based NN Processor with Correlative Computing-in-Memory Ring and Dataflow-reshaped Digital-assisted Computing-in-Memory Array

OPENALEX - Publications

Ruiqi Guo Zhiheng Yue Hao Li Te Hu Yabing Wang and 8 more

Computing-in-memory (CIM) is an attractive approach for energy-efficient neural network (NN) processors. Attention mechanisms shows great performance in NLP and CV by capturing contextual knowledge from the entire tokens (X). The attention mechanism essentially a content-based similarity search computing probabilities (P) final results (Att). For P, first, query (Q) key (K) are computed X weight matrices $(\text{W}_{Q}, \text{W}_{K})$ respectively. Then, Q multiplied $\text{K}^{T}($ QxK...

10.1109/a-sscc56115.2022.9980780 article EN 2022 IEEE Asian Solid-State Circuits Conference (A-SSCC) 2022-11-06

A Systolic Computing-in-Memory Array based Accelerator with Predictive Early Activation for Spatiotemporal Convolutions

OPENALEX - Publications

X.L. Chen Ruiqi Guo Zhiheng Yue Yang Hu Leibo Liu and 2 more

Residual (2+1)-dimensional convolution neural network (R(2+1)D CNN) has achieved great success in video recognition due to the spatiotemporal structure. However, R(2+1)D CNN incurs large energy and latency overhead because of intensive computation frequent memory access. To solve issues, we propose a digital SRAM-CIM based accelerator with two key features: (1) Systolic CIM array efficiently match massive computations regular architecture; (2) Digtal circuit design output sparsity...

10.1109/aicas57966.2023.10168581 article EN 2022 IEEE 4th International Conference on Artificial Intelligence Circuits and Systems (AICAS) 2023-06-11

CIMFormer: A 38.9TOPS/W-8b Systolic CIM-Array Based Transformer Processor with Token-Slimmed Attention Reformulating and Principal Possibility Gathering

OPENALEX - Publications

Ruiqi Guo Yang Wang Xiaofeng Chen Lei Wang Hao Sun and 5 more

Transformer models shows state-of-the-art results in natural language processing and computer vision, leveraging a multi-headed self-attention mechanism. In each head, the operation is defined as <tex xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">$\text{Attn}=\text{Softmax}(\mathrm{Q}\cdot \mathrm{K}^{\top})\cdot \mathrm{V}$</tex> , where xmlns:xlink="http://www.w3.org/1999/xlink">$\mathrm{Q}=\mathrm{X}\cdot \mathrm{W}_{\mathrm{Q}},\...

10.1109/a-sscc58667.2023.10347930 article EN 2022 IEEE Asian Solid-State Circuits Conference (A-SSCC) 2023-11-05

Coming Soon ...