일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Pyverilog 설치
- systolic array
- Pyvrilog tutorial
- CDC
- DNN Accelerator
- Data HAzard
- AMBA
- 컨벌루션 연산
- 데이터 해저드
- linux makefile 작성
- CLOCK GATING
- makefile
- gpgpu-sim
- Pyverilog 튜토리얼
- 클럭 게이팅
- pygraphviz 설치 오류
- Design DNN Accelerator
- DNN 가속기
- 대구 반도체 설계기업 특화
- linux c 컴파일
- 딥러닝 가속기
- 남산업힐
- linux c++ 컴파일
- pytest-pythonpath 설치 오류
- Pyverilog 실행
- 이진수 곱셈 알고리즘
- pyverilog 설치 오류
- CUDA
- gcc 컴파일
- Makefile compile
- Today
- Total
오늘은 맑음
Systolic array를 이용한 NPU에 대한 이해(1) 본문
기존에 올렸던 글에서는 모두 adder tree를 가지는 구조였습니다.
간략하게 그리면 위의 구조였습니다.
A(activation)과 W(weight)가 하나씩 입력 되면, 연산기에서 서로 곱해줍니다.
만약 5x5 컨벌루션이라고 하면 뉴런(파란 동그라미)가 25개 있겠죠?
그러면 아래처럼 2인 1조로 더해주는 동작을 반복해 최종 출력이 1개가 되게끔 만들어 줍니다.
아래의 덧셈 과정을 adder tree 구조라고 합니다.
여기에 곱셈과 덧셈 과정이 있는데, quantization의 경우 곱셈기와 덧셈기의 크기를 줄여서
필요한 하드웨어 자원의 크기를 줄이려는 알고리즘이죠.
일로 인해 잠시 멈췄던 NPU 공부를 다시 해볼까 합니다.
기존의 구조가 아닌 Eyeriss나 TPU와 같이 많은 논문에서 사용하는 systolic array 구조로 한 번 다시 만들어 볼까 합니다.
일반적으로 systolic array에서의 processing element 또는 연산기는 위와 같이 생겼습니다.
activation과 weight가 입력 되고 multiplier에 의해 곱해집니다.
이 값은 이 전 element의 partial sum과 함께 더해져 다음 processing element에게 전달됩니다.
이러한 processing element가 여러개 존재해 array 구조를 갖는 것을 systolic array라고 합니다.
자연스럽게 partial sum들이 다음 processing element로 전달되어 adder tree와 같이 누적 연산을 수행하고, activation은 다음 processing element로 전달되어 입력 데이터를 재사용 할 수 있게 해줍니다.
다음에는 위의 Processing element를 이용한 systolic array에 대해 알아보도록 하겠습니다.
'NPU' 카테고리의 다른 글
나의 학부 졸업작품 감상 평(MNIST dataset을 이용한 dnn accelerator 시뮬레이션) (4) | 2021.04.20 |
---|---|
Systolic array를 이용한 NPU에 대한 이해(2) (0) | 2021.04.18 |
NPU 환경 구축기(4) 데이터 재사용 (0) | 2020.09.04 |
NPU 환경 구축기(3) Convolution 테스트 (0) | 2020.07.27 |
NPU 환경 구축기(2) SRAM read/write 테스트 (0) | 2020.07.22 |