일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- systolic array
- 컨벌루션 연산
- AMBA
- gcc 컴파일
- linux makefile 작성
- pyverilog 설치 오류
- Pyverilog 설치
- Pyverilog 실행
- DNN Accelerator
- 데이터 해저드
- DNN 가속기
- Pyvrilog tutorial
- makefile
- CLOCK GATING
- 대구 반도체 설계기업 특화
- CDC
- 남산업힐
- CUDA
- Data HAzard
- gpgpu-sim
- 이진수 곱셈 알고리즘
- Makefile compile
- pytest-pythonpath 설치 오류
- 딥러닝 가속기
- linux c 컴파일
- pygraphviz 설치 오류
- Design DNN Accelerator
- 클럭 게이팅
- Pyverilog 튜토리얼
- linux c++ 컴파일
- Today
- Total
목록NPU (19)
오늘은 맑음

저번에는 SRAM을 ROM(Read Only Memory)처럼 사용했습니다. 이번에는 빈 SRAM에 데이터를 write하고 write한 데이터를 read해보는 실험을 해보겠습니다. 저번 실험과 마찬가지로 data width는 16bit으로 하고 SRAM의 depth는 6으로 잡았습니다. 먼저 빈 SRAM을 생성하고 testbench로 SRAM에 다음과 같이 데이터를 넣어줍니다. ADDR = 4'b0001; DIN = 16'h1989; ADDR = 4'b0101; DIN = 16'hdead; ADDR = 4'b0011; DIN = 16'h3fe1; ADDR = 4'b0010; DIN = 16'h2abd; ADDR = 4'b0000; DIN = 16'h0532; ADDR = 4'b0100; DIN = 16'..
MIT에서 발표한 eyeriss 튜토리얼 발표 자료 링크 http://eyeriss.mit.edu/tutorial.html

NPU라고 하면 Neural Processing Unit이라고 합니다. 실제로 NPU 내부 코어의 연산 동작은 단순합니다. 곱셈기와 덧셈기가 들어있고 DNN 연산에 따른 곱의 합 연산을 계속 반복합니다. 오늘은 이 NPU에서 연산할 데이터를 담을 SRAM을 만들고 테스트를 해보겠습니다. 저는 xilinx환경에서 테스트를 하는 중이므로 ipcore를 이용해서 block memory를 사용하셔도 되지만 저는 SRAM을 만들어 사용하겠습니다. 오늘 사용한 SRAM의 소스는 https://sourceforge.net/projects/test-drive/에서 참조했습니다. SRAM SINGLE의 구조는 위의 그림과 같습니다. SRAM의 입력으로 SRAM을 동작시킬 CLK, 데이터를 출력시키는 신호인 nCE(neg..
Lee, Jinmook, et al. "UNPU: A 50.6 TOPS/W unified deep neural network accelerator with 1b-to-16b fully-variable weight bit-precision." 2018 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2018. Sharma, Hardik, et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." 2018 ACM/IEEE 45th Annual International Symposium on Computer Arc..
[2] architecture Chen, Yu-Hsin, Joel Emer, and Vivienne Sze. "Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks." ACM SIGARCH Computer Architecture News 44.3 (2016): 367-379. Moons, Bert, and Marian Verhelst. "A 0.3–2.6 TOPS/W precision-scalable processor for real-time large-scale ConvNets." 2016 IEEE Symposium on VLSI Circuits (VLSI-Circuits). IEEE,..
[1] algorithm Anwar, Sajid, Kyuyeon Hwang, and Wonyong Sung. "Fixed point optimization of deep convolutional neural networks for object recognition." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015. Gupta, Suyog, et al. "Deep learning with limited numerical precision." International Conference on Machine Learning. 2015. Lin, Darryl, Sachin Talat..