미국의 대중 ‘반도체 전쟁’이 점입가경이다. 2019년 도널드 트럼프 대통령이 시동을 건 반도체 무역 제재의 바통을 조 바이든 대통령이 이어받아 추가 공세에 나서고 있다. 반도체 생산 공정 전반에 필요한 다양한 장비의 수출 통제가 ‘2차 공세’라면, 고성능 인공지능 가속기 전용 GPU의 수출 통제는 ‘3차 공세’라 부를 만하다. 특히 GPU 수출 통제는 중국의 반도체 굴기를 넘어, AI 굴기를 견제하려는 의도가 엿보인다. 중국의 첨단 군사력 강화를 저지하려는 목적도 자리잡고 있다. 권석준 성균관대 교수가 3차 공세의 배경과 중국의 대응 전략 등을 두루 살폈다. 두 나라의 신경전은 그야말로 ‘총성없는 전쟁’이다. [편집자 주]

✔ 미국의 세 번째 대중 제재 카드는 GPU 수출 통제✔ 이에 중국은 자국산 GPU+NPU+TPU 집적된 칩 생산 경로 확보✔ 미국의 제재로 중국이 가장 타격 받는 부분은 군사용 반도체기술✔ 미국의 수출 통제에 대한 중국의 또 다른 대안, FPGA✔ 대중 제재는 반도체에서 배터리, 바이오까지 확장될 전망

이미지:셔터스톡

미국이 중국의 반도체 기술을 견제하기 위해 꺼내 든 첫 번째 카드는 2019년의 EUV 리소그래피 장비 수출 통제였다. 그리고 2022년 하반기 들어서는 중국의 파운드리 및 메모리반도체 산업에 직접적인 영향을 줄 수 있는 반도체 공정 장비의 수출 통제를 무기로 삼았다. 핀포인트 방식인 첫 번째 카드에 비해 영향 범위가 확대되는 두 번째 카드의 실효성이 과연 얼마나 있을지 관심이 쏠린다.

그런데 미국이 두 번째 카드와 거의 같은 시점에서 대중 반도체 제재를 위해 꺼낸 세 번째 카드가 있다. 바로 미국기업 NVIDIA와 AMD가 생산하는 GPU(그래픽카드)의 대중 수출을 통제하겠다는 것이다. 미국이 NVIDIA의 GPU 중에서도 콕 집어 언급한 것은 A100 암페어 혹은 그 이상급의 대용량 AI 가속기다. 2020년에 발표된 이 GPU는 일반 유저 용도보다는 대용량 서버용 가속기로 볼 수 있다. 특히 높은 트랜지스터 집적도(542억 개/826 mm2)와 전력 소모량, 그리고 냉각을 위한 시설 비용을 생각할 때, 고성능 서버 컴퓨터(HPC) 전용의 AI 연산기로 보는 것이 타당하다.

이런 GPU가 필요한 곳은 주로 자율주행차용 AI 엔진이나 거대 NLP 처리 및 합성, 그리고 군사 기술 분야다. 자율주행차나 언어 생성 AI에 비해 군사용 AI 적용은 상대적으로 덜 알려져 있는데, 사실 AI가 나오기 이전부터 군사적으로 수집된 대용량 데이터를 본격적으로 처리해 활용하고자 하는 부분부터 적용되고 있다. 최근에는 군용 고도 암호화 대용량 통신 데이터의 분류, 수집, 재암호화, 해킹 등으로도 활용되고 있으며, 데이터 처리 용량이 커질수록 특히 사이버 보안 분야와 신무기 시뮬레이션 등으로 점차 용도가 고도화하는 추세다.

GPU는 인공지능 가속기가 될 수 있는가?

잘 알려져 있다시피 GPU 칩에 있는 코어(연산이 이루어지는 독립 단위)는 CPU 코어와 1 : 1로 비교했을 때, 기본적 연산(예컨대 대수-논리 연산) 성능 자체는 한참 떨어진다. 단순히 클럭 주파수만 비교해도 2~3배 격차가 있다. 그렇지만 GPU가 CPU에 비해 인공지능용 가속기로서 더 적합한 까닭은 수천 개의 코어에 데이터를 분산하여 병렬 계산을 효율적으로 처리할 수 있기 때문이다. 단순한 연산이라면 병렬 계산이 큰 장점이 없겠으나, 대용량 데이터라면 병렬 계산이 매우 큰 효과를 낼 수 있다. GPU에는 단위 개수로만 따지면 CPU보다 훨씬 많은 코어가 집적된다. 그리고 병렬로 처리하고자 하는 사칙연산이나 논리 연산을 각각의 코어에 분산하여 한꺼번에 처리한다. 이에 반해 CPU는 그 설계 구조상 순서대로 데이터를 받아서 차례대로 연산 결과를 만들어내는데, 그 계산 속도는 GPU의 병렬 계산에 비하면 매우 느린 편이다.

그렇다면 CPU를 거칠 필요없이 GPU만으로 연산을 처리하면 되는 것 아닌가, 라는 의문이 생길 수 있다. 이를 장인이 조각을 하는 것에 비유해 살펴보자. 장인 한 사람이 한 달 걸려 혼자서 나무를 깎고, 칠하고, 다듬고 하는 것이 CPU의 연산이라면, 한 사람의 장인이 제자 10명에게 각각 일을 배분해 한 번에 10개의 조각품을 만드는 것은 GPU의 연산에 해당한다. 비록 제자들이 장인만큼의 실력은 없지만, 제자 10명이 하는 작업은 장인 한 사람이 하는 작업보다 훨씬 빠를 것이다. 일종의 가내수공업과 분업의 차이라고도 볼 수 있다. 이렇듯 GPU는 병렬 계산에 특화되어 있는데, 특히 행렬 혹은 텐서(tensor)형 데이터의 계산에 더 강력하다. 예를 들어 GPU로 행렬 곱셈 같은 연산을 하려면 각 행렬의 성분을 가리키는 인덱스(일종의 주소)를 GPU 개별 코어에 각각 분배하고, 각 코어에서 나누어 계산한 결과를 메모리에 모아서 최종적으로 더하기 연산만 하면 된다. 그렇지만 CPU로 행렬 곱셈을 하려면 행렬 각 성분끼리의 곱셈을 하나씩 차례대로 해야 한다. 따라서 사전에 어떻게 연산 작업을 분배할 것인지만 잘 정해 두면 행렬이나 텐서형 데이터의 연산 속도는 GPU가 CPU에 비해 훨씬 빨라진다.

HPC용 AI 가속기가 아니더라도, 일반 개발자용 GPU(예를 들어 NVIDIA의 3090급 GPU)와 CPU(예를 들어 인텔의 코어 i9급 CPU)를 1 : 1로 비교할 경우, 행렬의 합성곱(convolution) 연산에 기반한 기계학습 속도를 비교해 보면 GPU는 CPU에 비해 대략 15~20배 정도 빠르다. 소모되는 전력을 고려해 전성비까지 따진다면 그 격차는 20~30배까지 벌어진다. 사용자 입장에서는 연산이 '가속'된 것처럼 느껴지는데, 이로 인해 GPU에는 나중에 가속기라는 이름이 붙기도 했다. 15~30배 정도의 연산 속도 차이는 예를 들면 이런 것이다. 어떤 머신러닝 알고리즘을 테스트하고자 할 때, 보통은 처음부터 알고리즘 전체를 테스트하지 않고 조금씩 최적화하곤 한다. 그 최적화 실험을 한 번 수행하는데 GPU가 10시간 걸린다면, CPU는 150~300시간 정도 걸리게 된다. GPU로 하루에 2번 테스트할 수 있는 실험을 CPU로는 1~2주에 한 번 정도 밖에는 못하는 셈이다. 당연히 최적화의 속도는 그만큼 벌어지며 성능 개선 속도도 벌어질 수밖에 없다. 인공지능 알고리즘의 테스트는 개발 과정에서 반드시 필요한데, 시간의 격차는 고스란히 성능의 격차로 이어진다.

사진:셔터스톡

딥러닝을 위한 필수재 : NVIDIAGPUCUDA

행렬이나 텐서의 병렬 계산에 최적화된 GPU는 2010년대 중반 이후, 딥러닝(deep learning)으로 대표되는 인공지능 시대가 도래하면서 더 큰 주목을 받게 되었다. 그렇게 된 배경은 딥러닝이 어떤 방식으로 작용하는지 알면 이해하기 쉽다. 딥러닝에서 기본적으로 다루는 연산 중 하나는 합성곱이다. 합성곱은 주어진 행렬에 커널(kernel)이라 불리는 또 다른 행렬을 행과 열을 이동시키면서  연산하는 방법이다. 합성곱 연산 과정 역시 결국은 단순한 곱셈/덧셈의 반복인데, 앞서 언급했듯 이러한 연산은 GPU 기반의 병렬 계산으로 가속될 수 있다. 행렬의 크기가 거대해질수록 이 장점은 더 부각된다. 결국 합성곱 같은 행렬 연산은 GPU가 담당하고, CPU는 GPU를 통한 계산 결과물에 대한 후속 연산을 담당하는 방식이 자연스럽게 굳어진다.

딥러닝에서 학습과 추론이 어떻게 이루어지는지를 생각해 보면, 왜 애초에 CPU를 기반으로 하는 딥러닝은 거의 불가능에 가까운지도 이해할 수 있다. 앞서도 이야기했지만, GPU는 CPU만큼의 정밀도를 요구하지도 않고 그렇게 하도록 설계되지도 않았다. 딥러닝으로 트레이닝 데이터를 학습하는 과정은 눈을 가린 사람이 손발만 사용해서 길을 찾아가는 것과 비슷하다. 운이 좋으면 손을 뻗은 곳에 지표로 삼을 만한 물체가 있지만, 운이 좋지 않으면 함정이 도사리고 있을 수도 있다. 즉, 매번 시도할 때마다 반드시 에러가 나오게 되어 있는데, 애초에 그 에러의 정밀도는 아주 중요한 요소는 아니다. 1초당 100번의 시행착오를 하는 사람이 길을 더 빨리 찾을 것인지, 착오를 아예 방지하기 위해 1초당 1번의 시도만 하는 사람이 더 길을 빨리 찾을 것인지를 비교해 보면 답이 나온다. 이러한 딥러닝의 학습 방식은 GPU가 설계된 구조와 정확히 맞아떨어졌고, 이 때문에 이제는 GPU는 고성능 게임뿐만이 아닌 딥러닝용 가속기로 인식되기 시작했다.

행렬 기반으로 표현될 수 있는 데이터라면 그것이 고해상도 3차원 이미지든, 의료용 3D 복셀(voxel)형 이미지든, 딥러닝 학습용 텐서형 데이터든, 이제는 GPU 기반으로 처리하고 인공지능 학습을 하는 것이 당연한 시대가 되었다. NVIDIA가 2010년대 들어 GPU, 특히 GPGPU(general purpose GPU) 시장의 절대 강자가 된 까닭은 GPU가 인공지능 시대에 걸맞은 시스템반도체라는 흐름을 탄 것도 있지만, NVIDIA가 자체 개발한 CUDA라는 전용 프로그래밍 인터페이스(API)가 있었기 때문이다. CUDA는 NVIDIA의 GPU를 이용하여 기계학습 시스템을 개발하는 연구자들에게는 필수재나 마찬가지다. 기능의 최적화를 다양한 단계에서 처리할 수 있기 때문이다. CUDA가 출시된 초창기에는 머신러닝보다는 게임이나 고해상도 영상 처리용 대용량 그래픽 실시간 처리를 가속하는 용도로 활용되었다. 그러나 2010년대 중반 이후부터는 딥러닝 학습 및 고용량 데이터 처리 방향으로 수요의 우선순위가 바뀌었다. 그런데 이 CUDA는 NVIDIA가 제조한 GPU에서만 작동한다. CUDA를 활용하여 인공지능 시스템을 개발하려는 사람들은 NVIDIA의  GPU를 구매할 수밖에 없는 상황이다. 이는 2012년 이후 지금까지 NVIDIA가 인텔이나 AMD를 제치고 AI 가속기 시장에서 독주하는 원동력이 되기도 했다.

그렇지만 CUDA의 대항마가 없는 것은 아니다. 예를 들어 오픈소스인 OpenCL이 있다. 이것은 본래 애플이 자사가 설계한 칩의 그래픽 가속을 위해 2008년에 처음 개발한 툴인데, 2014년부터는 오픈소스가 되었고, 이후 크로노스 그룹이 이어받아 범용으로(즉, 제조사나 운영체제에 상관없이 대부분 작동 가능한) 만드는 작업을 해오고 있다. CUDA 진영에 비해서는 여전히 개발자 커뮤니티가 작기 때문에 딥러닝 개발에 필요한 리소스(resource)가 적은 것이 사실이나, 일단 AI 가속 혹은 학습 성능만 놓고 보면 이제는 큰 차이가 나지 않고 있다(CUDA 기반 작업이 대략 10~30% 정도 더 높은 성능이 나온다). 물론 여전히 NVIDIA의 GPU+CUDA 조합은 AI 가속기 분야의 최전선에 있는 게 사실이다.

그러나 AI 가속 용도나 대용량 텐서형 데이터 연산 용도라면 이제는 NVIDIA의 GPU를 쓰지 않아도 되는 우회로가 열리긴 한 것이다. 즉, EUV 리소그래피 제어 카드와는 달리, 제재 대상이 제재 수단을 우회할 수 있는 통로가 존재한다는 것이 주목할만한 부분이다. 특히 그렇지 않아도 AI에 대한 투자를 미국보다 훨씬 확대, 강화하고 있는 중국 입장에서는 당연히 고성능 AI가속기 수입이 불가능해질 경우 선택할 수밖에 없는 옵션이 된다.

사진:셔터스톡

제재 우회를 위한 중국산 GPU : 자급화와 OpenCL

미국의 대중 반도체 제재 첫 카드였던 EUV 공정 기술 견제와 비교해 보면, 우회로가 있는 상황에서의 GPU에 대한 직접적인 수출 통제가 얼마나 실효성이 있을지는 불확실하다. 미국은 CUDA를 우회할 수 있는 통로를 인지하고 있기 때문에 NVIDIA사 제품 외에도 또 다른 미국 반도체 기업이자 CPU 생산업체로 유명한 AMD의 GPU 제품으로 수출 규제 범위를 확장하고 있다.

그렇지만 하드웨어로서의 GPU 수출이 불허된다고 해서 중국이 스스로 GPU를 확보할 수 있는 기반이 없는 것은 아니라는 부분을 주목해야 한다. 2020년대 들어 중국의 칩 메이커들은 CPU의 자급화에서 쌓은 노하우를 바탕으로 GPU 생산으로도 그 영역을 넓히고 있다. 특히 최근에는 GPU를 넘어 흔히 이야기하는 자연어처리(NLP)에 특화된 신경망 기반 프로세서(NPU)나 텐서 데이터 전용 프로세서(TPU)까지도 설계하고 만들고 있다. 예를 들어 최근 발표된 중국의 칩 메이커 립파이브의 RISC-V 기반 GPU인 BN2의 경우, 850MH의 클럭 주파수로 작동하는 GPU 코어, 1.4 GHz로 작동하는 4TOPS짜리 NPU 코어를 장착하고 있다. 여기에 범용으로 같이 활용할 수 있는 디지털 신호처리 유닛(DSP)까지 같은 칩에 집적함으로써 범용성을 더했다. BN2 GPU는 동시대의 NVIDIA GPU에 비견할 바는 못 된다. 그렇지만 일단 칩의 설계와 자체 제조가 가능하다는 점에서는 중국이 자국산 GPU+NPU+TPU가 집적된 칩을 만드는 경로를 확보했다고 볼 수 있다.

또 다른 중국의 칩 메이커인 바이런이 최근 발표한 BR100급 GPU의 경우, TSMC의 7나노 공정과 2.5D CoWoS 패키징 공정을 이용하여 제조되었는데, 트랜지스터 집적도는 770억 개/1074mm2로서 칩의 하드웨어 수준만 놓고 본다면 앞서 언급한 NVIDIA의 A100 암페어급 이상이다. 바이런의 자체 테스트 결과만 놓고 본다면, A100 암페어보다 평균 2.6배 이상의 성능을 내는 것으로 보이는데, 이 칩은 OpenCL로 구동된다. 물론 실제 시장에서 개발자들이 테스트해 봐야 그 성능의 진위 여부를 판별할 수 있겠지만, 일단 겉보기 스펙만 놓고 보면 중국산 GPU가 NVIDIA의 칩과 CUDA 없이도 중국이 버틸 수 있는 받침대가 되어가고 있는 것으로 보인다. 이외에도 중국에는 룽손이나 이노실리콘, 자오신 같은 기존의 CPU 설계 전문 칩 메이커들이 이제 GPU 개발에 열을 올리고 있다. 중국 정부의 반도체 굴기 정책 및 AI산업 육성 정책과 맞물리면서 정부 주도의 대규모 투자가 이어지고 있기 때문에 개발 비용에 상관없이, 그리고 세계 시장 진출 여부에 상관없이 끊임없이 신제품이 출시되는 상황이다.

중국이 자신감을 가질 수 있는 부분은 또 있다. 최근의 인공지능 개발 경향에서 드러나는 것은 점점 더 거대한 데이터를 처리할 수 있는 하드웨어의 필요성이다. 예를 들면 GPU를 수천, 수만 장을 연결하여 또 하나의 거대한 병렬 처리 하드웨어를 만드는 것이 중요해지고 있는 것이다. 그런데 기존의 CUDA 기반 NVIDIA GPU는 단위 GPU가 아닌, 이러한 대규모 GPU 연결 하드웨어 기반의 계산에 특화된 프로그래밍을 지원하기 어렵다. 오히려 기존의 고성능 컴퓨터 전용 CPU를 다뤄 본 중국 업체들이 OpenCL로 작동하는 중국산 GPU를 수만 장 연결하여 최적화할 수 있는 여지가 크다. 실제로 중국의 슈퍼컴퓨터 시장은 전 세계에서 가장 높은 성장세와 점유율을 유지하고 있으며(2022년 6월 기준, 전 세계 500위 이내 슈퍼컴퓨터 중 중국은 173대, 미국은 128대 보유), 그 추세는 더욱 거세질 것으로 전망된다.

GPU가 수천, 수만 장 연결된 슈퍼컴퓨터 기반의 하드웨어를 통해 중국이 목표로 하는 것은 현재 미국의 인공지능 전문 기업들이 주도하고 있는 자연어 처리와 이미지 합성, 나아가 군사용으로 고도로 조직화된 대용량 데이터를 처리하거나 암호화할 수 있는 하드웨어를 확보하는 것이다. 민간 분야에서는 자율주행차나 의료용 인공지능으로의 응용이, 군사·안보 목적에서는 자국의 정보를 암호화하거나 사이버 보안용으로의 응용이 가능할 것으로 예상할 수 있는 대목이다. 다만 중국이 자국의 GPU를 이용하여 슈퍼컴퓨터 형태의 기술 진보와 자급을 이룰 가능성에 비해, 일반 소비자용 인공지능 부분에서의 경쟁력을 갖추기는 여전히 어려울 것으로 보인다. 이는 그동안의 인공지능 응용 환경이 NVIDIA의 CUDA를 기반으로 한 API에 각 회사들이 개발한 소프트웨어가 호환될 수 있도록 기술이 진보해왔기 때문이다. 예를 들어 테슬라의 자율주행차용 인공지능 엔진은 NVIDIA의 A100 GPU를 7300개 연결한 슈퍼컴퓨터에서 훈련된 알고리즘에 기반을 두고 있다. 이에 반해 OpenCL로 설계된 중국의 GPU는 시장에서 중국이 아닌 다른 기업들의 선택을 받기는 어렵다. 기본적으로 OpenCL이 지원하는 리소스가 적기도 하지만, 호환성 검증에 오랜 시간과 큰 비용이 들기 때문이다. 이는 중국이 설사 GPU 분야에서 자립하고, 인공지능 가속기 분야에서 미국의 제재를 회피할 수 있다고 해도 글로벌 시장에서의 경쟁력을 갖추기는 당분간 어려울 것임을 예상케 하는 대목이다.

군사·안보 목적을 위한 GPU의 중요성

이렇게 중국이 자국산 GPU를 활용하여 자국 수요의 일부를 감당할 가능성은 있다. 그렇지만 여전히 미국의 제재로 인해 타격을 받는 영역이 남아 있다면 그것은 군사용 분야일 가능성이 크다. 미국이 대중 반도체 기술 규제의 세 번째 카드로서 NVIDIA의 A100 암페어 혹은 그 이후 세대의 가속기 같은 대용량 GPU를 특정해서 지정한 것은 전반적인 중국의 AI 기술 경쟁력 강화 추세를 견제하려는 목적과 함께, 군사용으로 활용될 가능성을 사전에 차단하려는 의도일 것으로 풀이된다. 실제로 중국은 자국산 GPU가 속속 출시되는 추세 속에서도 여전히 대용량 서버용 GPU나 슈퍼컴퓨터용 GPU에 대해서는 아직까지 미국산 GPU를 훨씬 더 많이 쓰고 있고, 그만큼 의존도가 높다.

중국은 인민해방군 전략지원부대 산하 네트워크시스템부, 장비부, 병참부를 중심으로 2010년대 이후 꾸준히 미국으로부터 GPU를 비롯한 반도체 칩을 수입해 오고 있다. 특히 미국의 외교전문지 <더 디플로매트>가 지난 2021년 ‘How Does China Aim to Use AI in Warfare’라는 제목의 기사에서 보도했듯, 중국의 군사용 GPU 전용은 군의 기계화, 정보화, 지능화의 3가지 과업에 초점을 맞추고 있다. 미국이 주목했던 대목은 중국 인민해방군이 최근까지도 NVIDIA의 제품은 물론이고 AMD, 인텔 등에서 GPU를 대량으로 구매해 왔다는 사실이다. 일반 기업용 대용량 데이터와는 달리 군용 데이터는 암호화·비암호화, 식별 구분, 페이크 데이터 분리 등의 추가 작업에 시간이 많이 소모되고, 진위 여부 판별 정확도가 매우 중요하며, 다양한 종류의 통신 데이터 처리 역시 중요도가 크다. 중국이 군사·안보 차원에서 활용하려는 GPU는 대부분 인공지능 가속기 용도로서, 군사적으로 수집된 대용량 데이터의 보안 요소 강화, 해킹 방지, 역해킹, 사이버 보안, 통신 데이터 암호화, 자연어 처리(NLP), 이미지 해상도 강화 등 다양한 분야를 망라한다. 특히 미래의 주요 전장 중 하나가 될 것임이 확실한 사이버전에서의 활용 및 신무기 시뮬레이션 용도의 연산 목적으로도 인공지능 가속기의 용도가 확장되고 있다. 중국은 이러한 군사적 목적에 대해 여전히 자국산 GPU만으로는 충분히 감당하지 못하는 부분이 있다고 판단하고 있을 것으로 보인다.

군사용 데이터는 좁게는 군사용 첩보위성에서 수집한 초분광 위성이미지(hyperspectral image) 데이터나 드론 등의 무인항공기가 수집한 저고도 고해상도 다분광 이미지(multiband-spectral image) 같은 정형 텐서형 데이터부터 넓게는 군용 암호화 통신 자연어 데이터나 자율무기체제 개발을 위한 비정형 학습 데이터까지도 포함한다. 주목할 부분은 군에 특화된 데이터라고 해도 수학적 관점에서는 충분히 일반화될 수 있으므로 민간에서 이미 활용되고 있는 데이터 처리 및 학습 알고리즘을 활용할 수 있다는 점이다. 인공지능 기술에서 다루는 데이터 처리 방법은 민간 영역에서 먼저 개발된 기술이 군사 분야로 혹은 반대 방향으로 전용될 수 있다. 그런데 인공지능 분야에서는 현재 민간에서의 개발과 기술 혁신이 앞서고 있기 때문에, 민간의 인공지능 하드웨어/소프트웨어 기술이 군의 목적으로 특화되어 응용될 수 있다. 예를 들어 자율주행차 알고리즘은 무인 전차나 무인 드론, 자동 경계 로봇 같은 자율무기체제 제어를 위한 지능형 알고리즘으로 전용될 수 있다. 특히 군사용 자율무기체제는 인공지능과 전투용 로봇이 결합된 구조로 발전할 수 있는데, 이 과정에서 로봇의 시각 정보 처리 및 동작 제어 인공지능, 주변 환경 인식 및 추론 알고리즘, 장애물 극복 및 공격 우선순위 설정 등을 제어할 수 있는 알고리즘 등은 민간 영역의 산업용 로봇 제어를 위한 인공지능 기반 알고리즘과 1 : 1로 대응할 수 있다. 민간에서 활용해 왔던 초분광/다분광 텐서형 위성 이미지 데이터 처리 기술 역시 군사용 첩보 위성 이미지 및 데이터 처리에 응용될 수 있다. 데이터의 암호화/복호화 역시 민간에서 활용되는 사이버보안용 알고리즘을 이용할 수 있다.

사진:셔터스톡

GPU 제재에 대한 중국의 우회로 : FPGA

미국의 GPU 혹은 AI 가속기 칩 수출 통제에 대응하여 중국이 노릴 수 있는 또 하나의 대안은 칩 자체에서 프로그래밍이 가능한 반도체 칩인 FPGA(field-programmable gate array)다. 최근 GPU가 딥러닝 연산, 나아가 AI 가속기 용도로 무조건 최적화된 칩은 아닐 수 있다는 사례가 빈발하고 있다. 딥러닝이 합성곱 계산만 반복하는 연산들의 집합이었다면 여전히 GPU 기반의 연산이 가장 높은 성능을 보일 것이다. 그렇지만 딥러닝을 적용하려는 분야가 넓어지면서, 딥러닝 엔진이 학습해야 하는 데이터의 규모와 특징도 다양하게 바뀌었다. 특히 이런 양상은 인공지능 전용칩 분야에서 더 도드라지고 있다. 단순히 이미지에서 숫자를 인식하거나 개와 고양이를 구분하는 정도로는 응용 범위가 제한되니, 자연어의 처리, 사물인터넷(IoT) 센서들의 네트워크 설계, 고해상도 다파장 위성 이미지의 분석과 추정, 예측, 그리고 4단계 이상의 자율주행용 칩 등으로 용도와 스펙이 다변화된 시장이 열린 것이다. 딥러닝을 산업에 응용하고자 하는 측에서는 이렇게 시장이 다변화되는 것이 환영할만한 일이지만, 범용 GPU로 이것을 커버하려던 측에서는 고민거리가 된다.

딥러닝이 등장한 초반에는, 가용한 하드웨어가 거의 GUGPU 밖에 없으므로, 딥러닝 알고리즘 개발자들은 주어진 GUGPU 스펙을 기반으로 알고리즘을 구축할 수밖에 없었다. 그런데 딥러닝이 다루는 데이터의 종류와 양이 기하급수적으로 늘어나면서, 이제는 오히려 딥러닝 알고리즘이 GPU의 아키텍처 설계에 영향을 미치는 빈도가 늘어가고 있다. 하지만 천편일률적으로 단순히 신경망 기반의 알고리즘에 최적화된 연산 구조를 갖춘 GPU가 다변화된 시장 수요를 만족시키기는 점점 어려워진다. 왜냐하면 GPU를 한 번 생산한 다음에는 그 내부 구조를 원하는 목적에 맞게 바꾸기가 즉, 재프로그래밍(reprogramming)하기가 거의 불가능하기 때문이다.

반면 FPGA는 이러한 재프로그래밍에 특화된 칩이다. 사용자가 재프로그래밍할 수 있다는 것은 칩이 동작할 수 있는 최소한의 기능만 남겨 두고, 나머지 유닛의 배열이나 설계는 사용자가 바꿀 수 있다는 이야기다. FPGA를 이용하면 고객들이 자신의 목적에 맞게 인공지능 전용 칩을 만들 수도 있다. FPGA 역시 병렬 처리를 할 수 있게 설계될 수 있으며, 특히 데이터 규격이 달라져도 CUDA처럼 미리 정의된 명령어 세트에 구애받을 필요가 없으니, 훨씬 연산 자원 배분이 유연해진다. 또한 수천 개의 코어를 동시에 돌릴 필요가 없는 FPGA는 GPU와 비교해 보면 전력 소모량이 상당히 적다. 중국이 자국산 GPU를 만들면서 슈퍼컴퓨터용이든, 일반 사용자용이든, 스마트폰 AP에 결합되는 용도이든, 군사용이든, 결국 오픈소스와 더불어 FPGA라는 경로를 선택할 가능성이 높음을 예상할 수 있는 부분이다. 다만 FPGA는 기존의 GPU에 비해 여전히 대용량 데이터 기반 딥러닝에 약점이 많이 있다. 그것은 GPU에 비해 학습 속도가 느리다는 것이다.

미국의 대중 GPU 제재의 실효성과 그 전망

미국이 꺼낸 고성능 인공지능 가속기 전용 GPU 수출 통제라는 세 번째 카드가 중국에게 얼마나 타격을 줄 수 있을지는 선뜻 판단하기 어렵다. 그 타격의 정도는 중국산 GPU가 그동안 미국산 GPU가 해 왔던 작업을 얼마나 대체할 수 있을지 여부, 차세대 GPU를 제조하기 위한 7나노 이하급 파운드리 공정 활용 여부, OpenCL 기반의 딥러닝 라이브러리 확대와 커뮤니티 확대 여부, FPGA 기반의 칩 설계 능력 고도화 여부, 암호화된 복잡도가 높은 데이터 처리 특화 NPU 집적도 개선 여부 등 여러 요인에 달려 있다. 앞서 언급했듯, 중국은 정부 차원에서 군사·안보적인 목적을 위해서라도 자국의 GPU 생산 및 인공지능 연구개발을 지속할 것으로 보이고, 이는 미국의 제재로 인해 더욱 집중적인 연구개발로 이어질 가능성이 높다. EUV 리소그래피와는 달리, GPU는 중국이 자국 기반 산업을 중심으로 우회할 수 있는 채널이 비교적 다양하며, 실제로 그 채널이 현실화되고 있다는 점이 주목할 차이점이다.

사진:셔터스톡

오히려 2020년대 이후 세계에서 가장 큰 GPU 시장으로 성장하던 중국 시장이 미국의 제재로 인해 닫힌 시장이 된다면 이는 NVIDIA, AMD, Intel 등에게 더 큰 타격을 줄 수 있다. 시장의 상실은 미국 업체들의 수익성 악화로 이어질 수 있으며, 이는 그 다음 세대의 기술 혁신을 늦추는 걸림돌이 될 수도 있다. 미국이 다양한 경로로 중국의 반도체 굴기, 그리고 그와 맞물린 AI 굴기와 군사 전용 채널을 막으려 하지만, 공정 기술 제어와는 달리 GPU 분야는 우회로가 많고, 그만큼 새어 나갈 수 있는 빈 공간이 많다. 이런 까닭에 제재가 얼마나 실효성이 있을지, 오히려 그것이 중국에게 채찍이 아니라 당근이 되는 것은 아닌지 냉철하게 살펴봐야 한다.

미국은 세 번째 카드에 이르기까지 중국 반도체 산업에 대해 다양한 층위와 범위에서 제재를 시도하고 있다. 그것은 핀포인트 장비 제재부터 전반적인 공정 장비, 그리고 특정 반도체 칩과 그 구동 소프트웨어까지 포함한다. 이후로도 미국은 중국의 대응 전략에 따라 계속 반도체 산업에서의 주요 이슈가 될 수 있는 지점에 대해 제재를 시도할 것으로 보인다. 칩의 설계 소프트웨어인 EDA부터 불화수소(HF)나 광감응재(PR) 같은 소재, 나아가 반도체 유관 분야의 중국 학생이나 연구원들에 대한 미국 체류 비자 제한으로까지 제재 조치가 확대될 수 있다.

한국 입장에선 각 제재 수단의 영향으로 인해 중국이 글로벌 시장에서 얼마나 분리될 수 있는지, 중국이 자급화를 시도할 경우 한국 기업의 진출 분야와 어느 정도 겹치는지, 미국의 제재가 미국 기업 외에 미국의 기술 자산이 들어간 동맹 국가 기업으로 얼마나 확대되는지 등을 주목하고 대비해야 한다. 반도체 산업에서의 연결 고리를 실시간으로 파악하고 제재로 인한 병목 지점 혹은 수요 발생 지점을 미리 파악하고 있어야 한다. 미국의 대중 제재는 지금은 반도체 산업에 초점을 맞추고 있지만, 최근 통과된 IRA(인플레이션 감축법안)에서 확인할 수 있듯, 그 범위는 배터리, 자율주행차, 바이오와 의약품 등 다른 산업으로 확대될 수 있다. 미국의 제재 수단이 어떻게 변모하는지를 반도체 산업에서 자세히 관찰하고 그 영향이 다른 산업에서도 어떻게 나타날지 보다 면밀하게 분석하는 지혜와 역량이 요구된다.


글쓴이 권석준은서울대 공대 화학생물공학부에서 학사, 석사 과정을 마치고 MIT 화학공학과에서 박사학위를 받았다. 한국과학기술연구원(KIST) 첨단소재기술연구본부 책임연구원을 지냈고 차세대 반도체 소재 및 광(光) 컴퓨터, 양자 컴퓨터 등의 차세대 IT소자 원천 기술 등을 연구 중이다. 현재 성균관대 화학공학과 교수로 재직중이며, 지금까지 60여 편의 논문을 해외 저명 학술지에 게재했다.