park jong hyun - sudormrf (Page 2)

구글의 인공지능을 위한 하드웨어 TPU

구글이 Tensor Processing Unit (TPU) 를 공개했다. (솔직히 충격적이다....) 이는 custom ASIC (특수 목적을 위한 하드웨어 칩)으로, TensorFlow랑 물려 사용하는 인공지능을 위한 칩이다. 이번에 공개된 내용에 대해 설명을 하고자 한다. 본 포스트는 구글의 공식 블로그 글을 바탕으로 작성하였으니, 궁금하신 분은 옆 링크를 참조 하시길. TPU는 어디에 쓰나요? TPU는 이름에서도

GPGPU

Deep Learning 위해서는 어떤 GPU를 사야 할까요?

많은 사람들이 deep learning에 관심을 가지고, 이를 위해 GPU를 사서 쓴다. GPU computing 및 architecture를 전공하는 사람으로, 뿌듯(?)하기도 하다. 그래서, deep learning을 위해 GPU를 사고자 하는 사람들을 위한 글을 쓴다. 조금이라도 도움이 되시길... (Blog에 있는 글과 내 개인적인 지식을 바탕으로 작성함.) AMD? NVIDIA? NVIDIA 것을 사라. 이견의 여지 조차없다.

GPGPU

Pascal - NVIDIA의 새로운 GPU architecture 발표

드디어 NVIDIA 에서 새로운 Pascal GPU를 발표했다. 이미 몇 달전에 일부(?) 공개가 되었고, 루머들도 많아서 관심있는 사람들은 미리 좀 알았겠지만 까보니 흥미로운 것들이 좀 있다. 개인적으로 가장 놀라운 것은 half-precision! (Deep learning 시장을 어지간히도 먹고 싶긴 하나보다.) 자 그럼, 주목할만한 것들을 살펴보자. Pascal 이 뭔가요? NVIDIA는 2000년대 중반부터 자사의 GPU

GPU

전문가용 그래픽카드는 뭐가 다른가요?

이번 포스트는 전문가용 그래픽카드에 대한 설명을 하고자 한다. 아래 그림은 다나와에서 "전문가용 VGA" 탭을 클릭했을 때 나오는 상품인데, 무려 790만원.... 이 놈들은 뭐하는 놈들이길래 이렇게 비싼지 쉽게 설명하고자 한다. 우선 GPU 계의 양대 산맥 라인업에서 전문가용 그래픽카드를 칭하는 브랜드명부터 얘기하고자 한다. NVIDIA 에서는 일반 소비자용 그래픽카드는 Geforce 시리즈(

Deep Learning

알파고(AlphaGo)가 바둑 두는 방법

구글의 딥마인드(DeepMind)에서 만든 deep learning 기반 바둑 프로그램(?) 알파고(AlphaGo)가 오는 3월 9일 부터 15일까지 이세돌 9단과 경기를 가진다. 장안의 화제라 나도 궁금해서 한번 찾아보았고, 이를 공유하고자 이 글을 쓴다. 이 글의 내용은 Nature에 실린 알파고 논문을 기반으로 작성하였고, 내 수준이 딸려서 잘못 이해하고 쓴 내용도 있을

GPGPU

STT-RAM for GPU register file

이번에는 강제로 공부하게된 논문 내용을 소개한다. 전형적인 well-organized(?) 된 논문 인거 같아서 적어두려고 한다. ASP-DAC 에 나온 논문인데, 자세한 정보는 직접 찾아보면 된다. 논문 링크 Main contribution MLC STT-RAM 으로 GPU register file을 구성 (기존에는 SRAM) MLC 특성상 발생하는 soft-bit 과 hard-bit에 속도 차이를 이용하여, 자주 쓰이는 데이터는 soft-bit에 mapping

GPGPU

GPU Virtualization

CPU처럼 GPU도 virtualization (가상화) 가 가능하다!! 간단하게 virtualization 이 뭔지 설명하자면 사용자에게 하드웨어가 있다고 뻥치는 것이라고 할 수 있겠다. 예를 들면, 컴퓨터가 지금 CPU가 1개 있는데 사용자 A에게도 CPU 1개 있다고 하고, 사용자 B에게도 CPU 1개 있다고 해서, 총 2가지의 일을 받은 후 시간을 쪼개서 실행해 주는 것이다. 1개의 CPU를

GPGPU

CUDA Memory Model

CUDA 프로그램은 같은 일을 하더라도 구현 방식(알고리즘)에 따라 천차만별의 성능을 보인다. 그 중 Memory Model를 모르면 정말 프로그램이 한참 느려진다. CUDA Memory Model 이를 위해 가장 먼저 알아야 하는 것이 memory model 이다. CUDA 에는 여러가지 사용할 수 있는 여러가지 메모리가 있다. 가장 중요한 것은 global memory 와

GPGPU

GPGPU Simulation - 2부

지난번에 소개한 GPGPU Simulation 의 실제 예를 보여주겠다. GPGPU-sim gpgpu-sim 홈페이지에 가보면, 메뉴얼을 보고 코드를 다운 받을 수 있다. 리눅스에서 설치 및 실행이 가능하고, CUDA는 최신 버전을 지원하지 않는다.... 간단하게 돌린 예를 한번 보여드림. 커널이 끝난 후의 결과이다. 커널이 총 몇개의 instruction 인지 몇 cycle이나 걸렸는지를 비롯하여, 어느 부분에서 stall

GPGPU

GPGPU Simulation - 1부

Simulation Simulation을 이용하면 GPU없이 CPU만으로도 CUDA (OpenCL) 코드를 돌려볼 수 있다. (물론 emulation 만으로도 가능하다.) CPU 에서 GPU의 동작을 소프트웨어로 구현 simulator 들이 있다. 대표적으로 gpgpu-sim 과 multi2sim 이 있다. Verilog로 구현되어 CPU가 아닌 FPGA에서 GPU를 직접 구워볼수 있는 miaowgpu 도 있다. Simulation의 용도 이러한 simulation은 사실 GPU가 없는 사람을

GPGPU

GPGPU - 2부

GPGPU란?? - 2부 GPGPU를 위한 GPU 구조 지난 1부에서 언급한 것 과 같이 GPU는 그래픽 처리를 위한 하드웨어이고 그래픽 처리는 대량의 data-level-parallelism 을 가진다. 따라서, 기본적으로 SIMD 형태의 구조를 가진다. (SIMD = Single Instruction Multiple Data) 위 그림 처럼 하나의 instruction을 여러개의 ALU가 동시에 여러 데이터를 처리 하는 것을 SIMD 라고

GPGPU

GPGPU - 1부

GPGPU (General Purpose computation on GPU) 란?? GPU 부터 알아보자 (간단하게) GPU (Graphics Processing Unit) 은 다들 알겠지만 Graphics 연산을 위한 전용 하드웨어이다. 보통 외장 그래픽카드에 달린 가운데 큰 칩이다. (그래픽카드는 GPU가 아니라 GPU와 메모리가 같이 달린 보드임.) 요즈음에는 CPU에도 내장 GPU가 같이 달려나온다. Intel Core CPU 계열에는 HD graphics

Processors except the CPU

GPU SPMD model implemented by a SIMD processor SIMD vs SIMT SIMD: a single sequential instruction stream of SIMD instruction SIMT: Multiple instruction streams of scalar instructions Grouping thread into warp --> advantage of SIMD Independent execution of threads --> advantage of SPMD VLIW simple hardware (no dynamic

Instruction-Level Parallelism (ILP)

Instruction-Level Parallelism (ILP) and Its Exploitation ILP: concepts and Challenges ILP -> hardware, software 두가지 방법으로 끌어낸다. CPI < 1 branch 와 다음 branch 사이의 instruction 들을 basic block 이라고 함. 한 basic block 안에서 ILP를 끌어내는 것은 한계가 있기 때문에 여러개의 basic block 에서 ILP를 이끌어내야함. 가장 간단한