일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- gpgpu-sim
- 데이터 해저드
- CUDA
- Pyverilog 실행
- Pyvrilog tutorial
- makefile
- 클럭 게이팅
- 남산업힐
- systolic array
- pyverilog 설치 오류
- Makefile compile
- 딥러닝 가속기
- linux c++ 컴파일
- Pyverilog 튜토리얼
- 이진수 곱셈 알고리즘
- pygraphviz 설치 오류
- Pyverilog 설치
- pytest-pythonpath 설치 오류
- linux c 컴파일
- gcc 컴파일
- Design DNN Accelerator
- CDC
- Data HAzard
- linux makefile 작성
- 컨벌루션 연산
- DNN Accelerator
- CLOCK GATING
- 대구 반도체 설계기업 특화
- DNN 가속기
- AMBA
- Today
- Total
목록NPU (19)
오늘은 맑음
저번에는 SRAM을 ROM(Read Only Memory)처럼 사용했습니다. 이번에는 빈 SRAM에 데이터를 write하고 write한 데이터를 read해보는 실험을 해보겠습니다. 저번 실험과 마찬가지로 data width는 16bit으로 하고 SRAM의 depth는 6으로 잡았습니다. 먼저 빈 SRAM을 생성하고 testbench로 SRAM에 다음과 같이 데이터를 넣어줍니다. ADDR = 4'b0001; DIN = 16'h1989; ADDR = 4'b0101; DIN = 16'hdead; ADDR = 4'b0011; DIN = 16'h3fe1; ADDR = 4'b0010; DIN = 16'h2abd; ADDR = 4'b0000; DIN = 16'h0532; ADDR = 4'b0100; DIN = 16'..
MIT에서 발표한 eyeriss 튜토리얼 발표 자료 링크 http://eyeriss.mit.edu/tutorial.html
NPU라고 하면 Neural Processing Unit이라고 합니다. 실제로 NPU 내부 코어의 연산 동작은 단순합니다. 곱셈기와 덧셈기가 들어있고 DNN 연산에 따른 곱의 합 연산을 계속 반복합니다. 오늘은 이 NPU에서 연산할 데이터를 담을 SRAM을 만들고 테스트를 해보겠습니다. 저는 xilinx환경에서 테스트를 하는 중이므로 ipcore를 이용해서 block memory를 사용하셔도 되지만 저는 SRAM을 만들어 사용하겠습니다. 오늘 사용한 SRAM의 소스는 https://sourceforge.net/projects/test-drive/에서 참조했습니다. SRAM SINGLE의 구조는 위의 그림과 같습니다. SRAM의 입력으로 SRAM을 동작시킬 CLK, 데이터를 출력시키는 신호인 nCE(neg..
Lee, Jinmook, et al. "UNPU: A 50.6 TOPS/W unified deep neural network accelerator with 1b-to-16b fully-variable weight bit-precision." 2018 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2018. Sharma, Hardik, et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." 2018 ACM/IEEE 45th Annual International Symposium on Computer Arc..
[2] architecture Chen, Yu-Hsin, Joel Emer, and Vivienne Sze. "Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks." ACM SIGARCH Computer Architecture News 44.3 (2016): 367-379. Moons, Bert, and Marian Verhelst. "A 0.3–2.6 TOPS/W precision-scalable processor for real-time large-scale ConvNets." 2016 IEEE Symposium on VLSI Circuits (VLSI-Circuits). IEEE,..
[1] algorithm Anwar, Sajid, Kyuyeon Hwang, and Wonyong Sung. "Fixed point optimization of deep convolutional neural networks for object recognition." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015. Gupta, Suyog, et al. "Deep learning with limited numerical precision." International Conference on Machine Learning. 2015. Lin, Darryl, Sachin Talat..