Copyright © 2023 by YongMan Kim < [email protected] > First published Thu Nov 18, 2023
거대 언어 모델과 언어 철학 - 비트겐슈타인의 언어 철학과의 유사성을 바탕으로
본 논문은 비트겐슈타인의 언어 철학을 바탕으로 현대 인공지능 원리와의 유사점을 찾으려는 시도를 한다. 인공지능의 원리에 대해서 살펴본 다음, 그림 이론과 언어 게임을 바탕으로 자연어 처리 모델인 거대 언어 모델(이하 LLM: Large Language Model)이 어떻게 언어를 다루고 학습하는지 대치한다. 끝으로 인공지능의 언어적 한계를 살펴본다.
목차
- 서론
- 인공지능 그리고 거대 언어 모델
- 비트겐슈타인의 전기 언어 철학
- 인공지능 학습 과정과의 유비
- 전회
- 그림 이론에서 언어 게임으로
- 일반성에 대한 집착
- 인공지능의 비트겐슈타인적 전회
- 인공지능 속의 언어 게임
- 결론
- 참고문헌
서론
2022년 새로운 존재의 등장으로 인해 전 세계는 지능화 혁명의 초입을 목격하였다. ChatGPT의 등장으로 거대 언어 모델(이하 LLM: Large Language Model)에 대한 지속적인 관심으로부터, 일반 인공지능(AGI: Artificial General Intelligence)에 이르기까지 인공지능은 현재1 뜨거운 감자이다. 인공지능 혹은 LLM의 등장으로 우리의 일상은 점차 기계와의 상호작용으로 빈번해지고 있다. 서빙 로봇, 안부 AI, 자율주행, 챗봇 등 지능 기계와 조우되는 접점이 많아지는 현재, 사람과 사람 사이의 전통적 관계에 기계가 난입하여 기존의 소통 방식을 해체하고 재정의하는 양상은 철학이라는 학문이 관심을 가질만한 영역일 것이다. 또한 확장된 신체, 혹은 지능으로서 기계의 인간화, 인간의 기계화라는 담론도 철학의 관심을 끌 대목이다.
언어를 통해 세계를 파악하는 존재적 위치를 정위한 지금까지의 인간에겐, 우리가 쓰는 언어를 통해 비록 미약할지라도, 세계를 표현하는 인공지능의 등장에 두려움을 느끼는 것은 당연할 것이다. 단순하지만 반복적인 작업부터, 지능적 작업, 심지어 창의성까지 넘보는 생성형 AI는, 인간의 세계에서의 위치를 흔들고 있다. 즉 인간만이 유일하게 철학적 사유를 할 수 있는 존재가 아닐 수 있게 되었다.
인간은 ‘조용히 서서’ 우선 자기 주변을 둘러보고, 다음으로는 자신이 처리할 수 있는 사태나 상황을 시각적으로 고안해 낸 고도의 상징적 의미가 미치는 범위를 조망한다. 그러나 이 모든 일을 인간은 자신의 자기 활동성을 통해 획득하고, 활동을 통해 축적시켜 온 경험의 힘든 과정을 통해 획득한다. 인간은 특정한 환경 세계에 적응해 있지도 않고, 또한 적응할 필요도 없는 유일한 존재이고, ‘비전문화된’ 존재다. 오직 이러한 비전문화된 존재만이 자신의 활동성에 의존하고, 궁극적으로 인상의 흐름에 맞서 자신을 세계 속에 정위한다. 2
겔렌에 의하면 우리만이 유일하게 비전문화된 존재로써, 그로 인해 다양한 영역에서 전문화될 수 있다고 말한다. 하지만 인공지능은 다양한 영역에서 이미 전문화된 상태로, 나아가 전문화될 수 있는 능력을 가지고 존재한다. 또한 언어를 통해 이질적인 것을 받아들인다면, 인간과 마찬가지로 인공지능도 문화적인 존재가 될 수 있다.3
이러한 연유로 인공지능의 등장으로 인해 패배주의적4, 혹은 낙천주의적5 세계관을 자연스럽게 상상할 수 있을 것이다. 하지만 현실주의적 관점으로 인공지능을 본다면, 단점을 최소화하고 장점을 극대화한 상태로 수용하는 자세를 취하는 것이 합당하다. 인공지능 자체가 우리를 대체하는 것이 아닌, 인공지능을 잘 사용하는 사람이 그러지 못한 사람을 대체할 것이기 때문이다.
철학계는 오래전부터 인공지능에 관한 여러 소견을 제시해왔다. 심리철학부터, 인식론, 윤리, 미학 등 인공지능이 야기할 수 있는 문제와 존재성에 대해 그 입장을 꾸준히 표명해왔다. 본 논고는 그중 ‘언어’와 관련하여 인공지능에 대하여 논할 것이다. 특히 인공지능이 어떻게 언어를 통해 세계를 표방하고 학습할 수 있는지, 비트겐슈타인의 철학을 바탕으로 LLM을 해석하고, 유비적 관계를 살펴보려는 시도를 한다. 이를 통해 인공지능의 언어적 특성을 이해하는 데 일부 도움이 될 것이라 판단한다.
비트겐슈타인은 언어와 현실이 어떻게 연결되는지에 관심을 두었다. 이는 인공지능이 언어를 통해 현실을 이해하고 표현할 때 어떤 규칙과 제약이 따라야 하는지에 대한 철학적 기초를 제공했다고 볼 수 있다. 또한 언어 모델, 특히 LLM은 이러한 비트겐슈타인의 관점을 현대적인 맥락에서 적용하는 여러 시도 중 하나라고 여겨질 수 있다. 즉 LLM은 방대한 양의 언어 데이터를 학습하여 언어의 복잡한 규칙과 의미와 사용을 파악하려는 기술(記述)적인 시도이다6. 비록 LLM이 의식적, 심성적 존재가 아닐지라도 언어를 통해 세계의 표현에 접근할 수 있는 지능적 존재라 여길 수 있다.
인공지능 그리고 거대 언어 모델
비트겐슈타인의 언어철학과의 LLM의 관계를 설명하기 앞서, 현대의 인공지능의 원리에 대해서 간단하게 짚고 넘어가겠다. 이를 통해 LLM이 어떻게 언어를 학습하는지 대략적인 그림이 그려질 것이다. 본 장에서는 인공지능에 관한 자세한 기법적 설명보다는 이해를 돕기 위한 대략적인 설명을 목표로 한다.
- 데이터 준비 : 우선 많은 데이터가 준비되어야 한다. 데이터의 형식이 텍스트라면 언어 처리를 학습할 것이고, 이미지라면 이미지 분류, 수치라면 분석일 것이다. 또한 데이터 전처리 작업을 수행한다. 이상값 제거 및 데이터 일반화 등의 작업을 거쳐 데이터를 깔끔하고 균일한 형식으로 만든다.
- 학습 : 전처리된 데이터를 학습용과 테스트용으로 나눈 다음, 학습용으로 분리된 데이터를 모델에 학습시킨다. 학습은 입력된 데이터(변수)에 각기 대응되는 가중치, 편향치를 세타(θ)로서, 세타값을 조정하여 실제 데이터의 결과값과 모델의 출력이 유사하게 나오도록 조정한다. (세타는 파라미터로 이해하면 된다.)
- 평가 및 개선 : 학습된 모델의 성능 테스트를 위해, 테스트 데이터를 모델의 입력 데이터로 넣는다. 테스트 데이터의 결과값과 모델 예측값의 유사도를 비교해, 모델의 성능을 평가하고 개선한다. (식별 모델 테스트 방법, 생성 모델은 뉴런에 해당하는 임베딩 벡터값과 원본 데이터의 인풋 벡터값의 비교, 혹은 사람을 통한 블라인드 테스트)
대부분의 인공지능은 이러한 방식으로 학습하지만, 최신의 모델은 여러 기법을 추가하고 조정을 거쳐 학습한다.7 예를 들어 LLM의 이론적 모델인 Transformer8의 전신격 모델이라 할 수 있는 seq2seq9의 내재된 원리는 한 텍스트 문장(시퀀스)을 특정 크기의 일차원 벡터로 치환하고10, 수치화된 데이터를 기반으로 세타를 조정한 후(학습), 타깃 시퀀스를 생성하는 과정이다. 나아가 Transformer는 seq2seq의 context 방법을 유기하고 Attention11에 집중하여 병렬 처리한다. 여기서 주지할 점은 인공지능이 ‘언어’를 학습하는 방법이다. 흔히 자연어처리(NLP: Natural Language Processing)라고 불리는 인공지능의 언어학습 과정을 간략하게 표현하면 다음과 같다.
언어 모델에 한해서, 텍스트로 된 데이터를 학습의 원천으로 삼는다. 지도 학습에서는 이런 빅데이터에 라벨링을 하여 사람이 의도한 학습 방향으로 모델을 학습시킨다. 예를 들어 ‘좋음’, ‘굿’, ‘최고’ 이런 단어에는 ‘긍정’이란 라벨을, 그 반대에는 ‘부정’을 중간은 ‘중립’이라는 라벨을 하여 학습한다면, 언어 모델은 입력 텍스트에 대해서 긍정, 중립, 부정을 구별할 수 있는 식별 모델이 된다.
생성 모델은 비지도 학습 기법으로 주로 접근하는데, 학습할 빅데이터에 스스로 빈 공간을 만들어내어(공백) 단어와 단어 사이의 상관관계를 학습한다. 예를 들어 ‘비트겐슈타인의 □□‘가 주어진다면, ‘비’, ‘트’, ‘겐’, ‘슈’, ‘타’, ‘인’, ‘의’에 해당하는 각 글자의 관계를 수치화하여 학습하고, 공백에 들어갈 낱말을 통계적 기법으로 유추하여 학습한다. 유추한 값이 학습하는 빅데이터 내에 존재한다면, 그 유추한 값(■■)과 ‘*비트겐슈타인의 * ’ 단어 사이의 상관관계 수치(θ 혹은 뉴런 또는 파라미터, 이하 파라미터)를 강화하고, 틀렸다면 조정한다.
컴퓨터는 숫자를 통해(정확히 얘기하면 2진법 체계) 계산 작동함으로, 인간이 이해하는 단어를 수치화 시켜야만 한다. 이 과정을 앞으로 ‘인코딩’16 혹은 ‘임베딩’이라 칭할 것이다. 한 단어를 (여러 워드 인코딩 라이브러리를 사용하여) 적정 크기의 벡터로 수치 변환하는데 transformer 논문에서는 크기를 512로 설정하고 있다.17 ‘사과’라는 단어를 512차원의 벡터로 표현하면 다음과 같다. 각 요소는 실수값이다. 스케일링을 한다면 특정 범위 내의 실수값이다.
뉴런에 해당하는 ‘파라미터’는 여러 레이어로 구성되고 같은 층에도 여러 개가 존재한다. 모델에 따라 행렬 또는 다차원 텐서로 이루어져 있다. 파라미터 한 개는, 실수값 하나를 가진다고 생각하면 무방하다. GPT-4의 파라미터가 1조 8천억 개라는 뜻은 편향, 가중치 용도의 파라미터가 1조 8천억개라는 뜻이다.
비트겐슈타인의 전기 언어 철학
칸트가 이성의 한계를 찾는 작업을 하였다면, 비트겐슈타인은 언어의 한계를 찾는 작업을 하였다. 비트겐슈타인에게 전통적 철학관은 언어의 오용으로 인해 세상에 대한 인식을 어렵게 만들었다는 것이다. 언어의 논리를 파악하고 언어로 표현할 수 있는 영역과 그렇지 않은 영역을 구분한다. 말할 수 있는 것은 언어의 논리 안에서 기술할 수 있고 진리 함수를 적용하여 참 거짓을 따질 수 있는 것이고, 말할 수 없는 것은 언어 논리 밖의 영역으로 언어로 표현될 수 없는 영역이고 진리 함수를 따질 수 없다. 언어 논리 밖의 것과, 진리 함수를 따질 수 없는 것은 그렇기에 우리의 언어가 말하면 안 되는 영역으로 구분된다.18 의미의 저편에는 오직 무의미만이 존재하는 것이다.19
그렇다면 말할 수 있는 것은 어떻게 말할 수 있는 것인가? 어떻게 세상에 대해서 우리의 언어로 표현할 수 있는 것인가? 비트겐슈타인의 전기 철학 관점에서 그러할 수 있는 원인은 ‘단일한 논리적 형식’으로 세계와 언어가 대응하고 대신하기 때문이다. 즉 언어가 세계를 그리기 때문에 표현할 수 있다(언어와 세계 사이에 구조적 동일성이 있다는 주장). 비트겐슈타인의 『논리-철학 논고』를 간단히 참고하면 다음과 같다.
『논리-철학 논고』
Paragraph Content §1.1 세계는 사실들의 총체이지, 사물들의 총체가 아니다. §1.2 세계는 사실들로 나뉜다. §2 일어나는 것, 즉 사실은 사태들의 존립이다. §2.01 사태는 대상들(실물들, 사물들)의 결합이다. §2.1 우리는 사실들의 그림들을 그린다. §2.12 그림은 현실의 모형이다. §2.13 그림에서 그림의 요소들은 대상들에 대응(대신)한다. §2.141 그림은 하나의 사실이다. §2.181 모사 형식이 논리적 형식이면 그 그림은 논리적 그림이라고 불린다. §2.19 논리적 그림은 세계를 모사할 수 있다. §2.2 그림은 모사된 것과 모사의 논리적 형식을 공유한다. §2.21 그림은 현실과 일치하거나 일치하지 않는다; 그림은 올바르거나 올바르지 않다, 즉 참이거나 거짓이다. §2.222 그림의 참 또는 거짓은 그림의 뜻과 현실의 일치 또는 불일치에 있다. §3 사실들의 논리적 그림이 사고이다. §3.03 우리는 비논리적인 것은 아무것도 생각할 수 없다. 왜냐하면 그렇지 않다면 우리는 비논리적으로 생각해야 할 터이기 때문이다. §3.12 우리가 사고를 표현하는 데 쓰는 기호를 나는 명제 기호라고 부른다. 그리고 명제란 세계와 투영 관계에 있는 명제 기호이다. §3.142 오직 사실들만이 뜻을 표현할 수 있고, 이름들의 집합은 그렇게 할 수 없다. §3.2 명제에서 사고는 명제 기호의 요소들이 사고의 대상들과 대응하도록 표현될 수 있다. §3.203 이름은 대상을 의미한다. 대상은 이름의 의미이다. §3.22 명제에서 이름은 대상을 대신한다. §3.3 오직 명제만이 뜻을 지닌다; 오직 명제 연관 속에서만 이름은 의미를 지닌다. §3.4 명제는 논리적 공간 속의 어떤 한 장소를 확정한다. 이 논리적 장소의 존재는 단지 구성 요소들의 존재에 의해서, 즉 뜻이 있는 명제의 존재에 의해서 보증된다. §3.5 적용된, 생각된 명제 기호가 사고이다. §4 사고는 뜻이 있는 명제이다. §4.001 명제들의 총체가 언어이다. §4.01 명제는 현실의 그림이다. 명제는 우리가 생각하는 바와 같은 현실의 모형이다. §4.0312 명제의 가능성은 기호들이 대상들을 대신한다는 원리에 의거한다. … §4.22 요소 명제는 이름들로 이루어진다. 요소 명제는 이름들의 어떠한 연관, 연쇄이다. §5 명제는 요소 명제들의 진리 함수이다. §6 진리 함수의 일반적 형식은 이다. 이것이 명제의 일반적 형식이다.
§7 말할 수 없는 것에 관해서는 침묵해야 한다. 더 자세한 내용은 요하임 슐테의 분류를 참고하여 살펴보면 도움이 될 것이다(§1 세계, §2 사실과 사태, §3 논리적 그림과 사고, §4 사고와 의미 있는 명제, §5 요소명제들의 진리함수로서 명제, §6 진리함수와 명제의 일반적 형식, §7 말할 수 없음과 침묵).20
개별 대상(이름)은 명제의 구성요소로 작용한다. 대상 스스로는 아무런 뜻과 의미를 가지지 못한다. 대상의 조합이 원자 명제이다. 원자 명제는 세상을 그려 대응되는 사실을 그리거나 못 그린다. 즉 참이거나 거짓이다. 원자 명제의 조합이 복합 명제이다. 원자 명제의 진리함수 여부에 따라 복합 명제의 참, 거짓이 판명된다. 여러 사실 관계에 의한 명제가 그것이다.21 이런 복합 명제의 총체가 언어이다.
세계는 복합 사실로 이루어져 있고, 더 이상 쪼갤 수 없는 원자 사실로 분석될 수 있고, 각각은 서로 대응된다. 언어는 복합 명제로 이루어져 있고, 더 이상 쪼갤 수 없는 원자 명제로 분석될 수 있고, 각각은 서로 대응된다. 비트겐슈타인에게 언어란 세상에 대응하여 진리 여부를 확인할 수 있는 그림적 명제이다.
인공지능 학습 과정과의 유비
비트겐슈타인의 전기 철학에서 언어가 세상을 표현할 수 있는 이유는 각기 대응되는 사실이 있기에 그러하다. 세상은 “대상 - 원자 사실(사태) - 복합 사실 - 세계”의 구조로, 언어에서는 “이름(대상) - 원자 명제(요소 명제) - 복합 명제 - 언어”의 관계로 세계와 언어가 각기 대응되어 그릴 수 있다.22
세상이 로 만 구성될 때, 는 주체, 는 대상, 는 인식이다. 인공지능은 를 가지고 있는 이다. 를 학습하여 를 구한 뒤, 이를 통해 를 제어하는 또는 를 만드는 일이다.23 나아가 자신에 대한 앎 를 포함한다면 인공지능은 자기 인식 및 의식을 갖출 수 있는 가능성을 지닌 존재이다.
언어 모델에게 있어서 학습되는 데이터(대상)가 ‘이름’이고, 각 데이터의 상관관계(파라미터, 세타, 뉴런)가 하나의 원자 명제로 관계된다. 파라미터 간의 레이어(계층)가 복합 명제로, 모델의 출력 또는 모델 그 자체가 ‘언어’와 관계된다고 볼 수 있다.
인공지능에게 지식이나 앎은 시냅스 가중치이다.24 명제적 요소를 수치화(임베딩 벡터)하여 각 파라미터에 저장한다. 세계가 사실들의 총체이고25 그 사실을 명제로 기술할 수 있다는 비트겐슈타인의 주장이 사실이라면,26 인공지능은 전체 세계를 수학적으로 파악하는 존재이다. 지금의 인공지능은 피타고라스의 주장을 현대에서 실현시킨 존재이다.
전회
그림 이론에서 언어 게임으로
비트겐슈타인이 시골에서 교사직을 수행하는 기간 중, 손님으로 방문한 프랭크 램지와 철학 논의를 하였다. 이 토론을 통해 비트겐슈타인은 『논리-철학 논고』의 체계에서 분석되지 않는 요소 명제의 문제를 발견한다. “A는 빨강색이다. (이하 R)“와 “A는 파란색이다. (이하 B)“가 완전히 분석된 요소 명제가 아니라, 분석되어야할 사실로 나타난다.27 기존의 원자 명제(요소 명제) 체계를 탈피해야 하는 상황에 놓인 것이다.28
색채에 관한 문제 해결에 있어서 물리적 환원 가능성을 인지한 비트겐슈타인은 이전과 다른 방식을 찾는다. 현상학적 언어와 물리학적 언어의 구분29, 그림과 필름 비유이다.30 나아가 「철학적 문법」에서는 이전 저서의 독단적 묘사를 비판하며 명제의 의미를 재구축한다. 명제가 의미를 지니는 것이 아닌, 명제의 사용이 의미를 지니는 것으로 체계를 정립해 간다.3132 또한 ‘문법’의 개념을 통해 이전 체계의 오류를 바로잡는 작업을 한다.
명제가 무엇인지는 문법을 통해 결정된다. 다시 말해 문법 안에서 결정된다. 명제가 그림이라고 말하는 것은 ‘명제’라는 낱말의 문법 속에서 특정한 모습들을 드러낸다. 33
일반성에 대한 집착
비트겐슈타인의 ‘단일한 논리적 형식’처럼, 수많은 철학자들은 어떤 사물이나 개념의 본질을 제시하거나 공통된 특성을 찾고자 한다. 3435 전체 체계의 공통된 속성 표현으로 인해 색채 문제를 마주한 비트겐슈타인은 이러한 원자 주의적 입장에서 총체 주의적 세계관으로 입장을 바꾼다. 언어의 경우에는 이런 본질 탐구 방식이 무의미하다고 생각한 것이다. ‘단일한 논리적 형식’이란 본질이 무너지고, ‘유사성’을 탐구할 뿐이다. 36
색채에 있어서 ‘색채의 물리적 현상에 관한 문법’과 ‘색채의 경험적 현상에 관한 문법’의 차이를 통해 요소 명제 오류를 해결한다. 여러 뜻을 가진 표현은 우리가 사용함에 있어서, 맥락과 상황에 따라 그 의미가 규정된다는 뜻이다. 색채의 물리적 문법은 색의 주기율의 위치(파장)에 대한 표현이고, 경험적 문법은 색의 혼합 결과이다. 이를 통해 요소 명제의 모순 오류를 해결하고, 나아가 요소 명제라는 일반성 체계를 탈피하여 사용, 탐구 체계로 전환한다. 색채의 문제는 『논리-철학 논고』에서 언어와 세상이 대응되는 ‘단일한 논리적 형식’ 원리가, 세계를 지나치게 획일화시켜 생긴 문제인 것이다.
인공지능의 비트겐슈타인적 전회
인공지능의 기술적 역사의 초기, 빠르게 어둠의 시대가 찾아온다. 지능 모방을 위한 여러 알고리즘이 인간의 지능과 견줄만할 정도로의 성능이 나오지 않자, 회의적 입장에 돌아선 것이다. 이 지점에서 비트겐슈타인이 조우한 문제점을 비슷한 양상으로 겪는다. 전통적 인공지능은 ‘단일한 논리적 형식’ 혹은 ‘완전한 언어 체계’처럼 모든 규칙, 지식을 부여하고 알고리즘대로 동작하였다. 그럼에도 치와와와 머핀을 혼동한다. ‘단일한 논리적 형식’에 해당하는 규칙과 지식을 알려주고 수행하는 원자 주의적 입장이 퇴장할 때였다.37
최신의 인공지능은 규칙과 지식을 알려주는 방식이 아닌, 직접 그 환경에서 규칙과 지식을 습득하는 방식으로 방향성을 바꾼다. 인간뇌를 모방한 딥러닝이 그것이다. 이를 통해 인공지능은 주어진 데이터 내에서 규칙과 지식을 발견하고 파라미터의 값을 조정하며 우리의 학습을 모방하며 학습한다. 결국 치와와와 머핀을 구별하고, 바둑까지 인간을 이기기 시작한다. 원자 명제를 주입하여 규칙을 학습하던 기계에서, 언어 게임에 참여하여 게임의 규칙을 학습하는 비트겐슈타인적 전회를 맞이한다.
인공지능 속의 언어 게임
대응적 진리에서 화용론으로 전회된 비트겐슈타인의 후기 철학은 언어 게임으로 대두된다. 명제와 문장은 도구로써 이 게임에 사용되며, 언어의 의미는 실제로 우리가 언어 게임에 참여하여 직접 그 언어 게임을 수행할 때 비로소 생겨난다. 그렇다고 언어 게임이 언어의 일반적 본성을 얘기하는 것이 아니다.38 여러 게임(놀이)이 단일한 본성을 가지지 않고 각기 유사성을 가지는 것처럼, 언어 게임 또한 그러하다.39 유사성이 있을 뿐이다.
인공지능과 언어 게임에는 어떠한 유비가 가능할까? 전기 인공지능은 요소 명제를 학습하여 명제 간의 관계를 통계적으로 학습하였다고 볼 수 있다. 혹은 암기하였다고 볼 수 있다. 후기 인공지능은 이와 달리 단어 그 자체가 가지고 있는 의미가 아니라, 단어(문장)의 쓰임에 따른 의미를 학습한다. 최신의 인공지능은 언어 게임에 참여한다. 자연어를 처리함에 있어서, 주어지는 데이터 속에 녹여진 맥락과 상황을 경험하고, 그 게임 속에 존재하는 규칙을 스스로 찾아내고, 분류하며 학습해 나간다. 예를 들어 *Sentiment Neuron(감정 뉴런)*이 그것이다.
다양한 데이터 세트에서 피처의 상대적 기여도를 조사하여 감정과 직접적으로 일치하는 단일 단위를 mLSTM 내에서 발견했다. 40
과거에는 사람이 직접 라벨링하여 학습시킨 감정이란(어떤 특정) 규칙을, 언어 게임을 통해서는 스스로 규칙을 발견하고 규칙을 파라미터로 내재화한다. 단어와 단어 사이, 문장과 문장 사이의 문법적, 의미적 연관성 뿐만 아니라 맥락과 상황을 파악하는 것이다.
다른 한편 LLM의 신비한 점은 이렇게 학습되거나, 치환된 임베딩 벡터(수치화)를 통해 유사성을 파악할 수 있다. 예를 들어 ‘man’이란 단어의 임베딩 벡터와, ‘woman’이란 단어의 임베딩 벡터를 통해 ‘man - woman’을 계산할 수 있다면 이는 무슨 뜻일까? 단어와 단어 사이의 속성적 차이점을 구할 수 있게 된 것이다. ‘king - queen’의 결과값과 ‘man - woman’의 벡터 유사도는 상당히 비슷하다.41
또한 번역에 있어서도 흥미로운 사실이 있다. 이전 인공지능 모델은 확률적 방법으로 번역 작업을 수행하였다면, LLM은 다르게 수행한다. LLM에게 그 어떠한 ‘번역에 대한 학습’을 하지 않았지만 번역을 할 수 있는 이유는, 상기한 임베딩 벡터를 통해 다른 언어에서의 해당하는 임베딩 벡터를 찾아 디코딩(수치→단어)하면 된다. 영어 학습 모델의 ‘Apple’에 해당하는 임베딩 벡터와, 한국어 학습 모델의 ‘사과’에 해당하는 임베딩 벡터의 유사도를 통해 단어적 치환을 수행할 수 있고, 문맥-문법적 요소는 인간이 해석하지 못하는 가중치나, 임베딩 벡터를 통해 치환한다.
결론
세계와 언어의 대응 관계에서 시작하여 단일한 원칙이 아닌 다양한 사용(게임)으로 언어에 관한 새롭고 다양한 시각을 제시한 비트겐슈타인의 철학과, 인공지능의 자연어 처리 방법과의 대치를 통해, 우리가 언어를 어떻게 학습하고 사용하는지 미약하게나마 드러내고자 하였다. 나아가 인공지능과 언어 게임을 더욱 면밀히 살펴 규칙과 사적 언어의 논증까지 대치했다면, 그 목표에 더욱 부합했을 것이다.
한편 자연어 처리 모델에 있어서 자연스럽게 의문점이 생겨날 수 있는 지점이 있다. 언어의 일반화 문제이다. 일반성에 대한 집착에서 오는 문제라고도 볼 수 있다. 이는 개별자의 보편 내재 원칙으로서의 일반성이 아닌, 일반화를 통한 개별자의 속성 상실의 문제이다. 인공지능에 있어서 입력 단어(문장)를 수치화하는 인코딩 단계에서 (또한 디코딩 단계에서도) 그 단어가 가지는 고유한 질적 속성이 과연 정당하고 정확하고 정밀하게 수치화될 수 있느냐 하는 문제이다. ‘사과’라는 단어를 수치화할 때, 어떻게 수치화될 수 있는가? 단어가 가지고 있는 의미를 수치적으로(다차원 벡터, 혹은 행렬, 텐서로) 어떻게 존재하는 ‘사과’를 정확하게 대응되게끔, 표현할 수 있는가 하는 문제이다. 양적으로 표현할 수 없는 질적 속성을 양화하는 데 있어서의 환원적 문제 혹은 속성 탈락 문제라고 볼 수 있다.
마지막으로, 이렇게 발전하는 최신 LLM은 다양한 문제가 있다. 통계적 앵무새라는 별명, 거짓 정보 출력이 그것이다. 통계적 앵무새는 LLM이 어떠한 이해도 없이 그저 암기와 통계적 계산에 의한 출력을 하지 않느냐는 비판이다. 하지만 임베딩 벡터를 통한 단어 간의 ‘가족 유사도’를 스스로 찾을 수 있는 것과 ‘감정 뉴런’ 발견으로 보아, 이는 암기보단 이해에 가깝다고 말할 수 있다.
거짓 정보 출력이야말로 LLM의 치명적 단점이자 또는 장점인 창의성을 드러내는데, 확률적으로 가능성이 높은 글을 ‘그럴싸하게’ 쓰기 때문에 정보적 정합성을 보장할 수 없다. 비트겐슈타인의 철학으로 보자면 이는 오히려 사용자의 잘못이다. 말할 수 없는 것에 대해서 즉, 언어 논리를 벗어난 영역은 언어로 표현하면 안 된다. 언어의 논리에 벗어났기에 파리통으로 이끈 것이다. 인공지능에게 있어서 확률적으로 희박한 지식 체계에 대해서, 사용자로부터 ‘논리를 벗어난 혹은 규칙을 어긴 입력’을 받아 출력이 요구된다면, 인공지능이 파리통에 빠지게 되어 거짓 정보를 출력하게 된다고 볼 수 있지 않을까?
참고 문헌
- 김대식, 『김대식의 인간 vs 기계』, 동아시아, 2016.
- 비트겐슈타인, 『논리-철학 논고』, 책세상, 2020.
- 비트겐슈타인, 『철학적 탐구』, 책세상, 2019.
- 스티븐 P. 슈워츠, 『분석 철학의 역사』, 서광사, 2017.
- 아르놀트 겔렌, 『인간, 그 본성과 세계에서의 위치』, 지식을만드는지식, 2015.
- 요시다 슈지, 『마음의 탄생』, 시니어커뮤니케이션, 2009.
- 요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007.
- 이기창, 『Do it! BERT와 GPT로 배우는 자연어 처리』, 이지스퍼블리싱, 2021.
- 지승도, 『꿈꾸는 인공지능』, 자유문고, 2021.
- Alec Radford, R. Józefowicz and Ilya Sutskever, 「Learning to Generate Reviews and Discovering Sentiment」, arxiv, 2017.
- Ashish Vaswani et al., 「Attention is All You Need」, Neural Information Processing Systems (NeurIPS), 2017.
- Ilya Sutskever, Oriol Vinyals and Quoc V. Le, 「Sequence to Sequence Learning with Neural Networks」, Neural Information Processing Systems (NeurIPS), 2014.
Footnotes
-
2023년 (2022.11.30 OpenAI, ChatGPT 공개, 출시 5일 만에 유저 100만명 확보) ↩
-
아르놀트 겔렌, 『인간, 그 본성과 세계에서의 위치』, 지만지, 2015, 93-94. ↩
-
인간이 언어를 갖게 된 것은 단순히 인간끼리 말로 커뮤니케이션이 가능해진 것에 그치는 현상이 아니다. 이질적인 것을 받아들이는 자세를 문화적이라고 부른다면, 인간은 타인의 신경회로를 공유하는 문화적인 존재가 된 것이다. (요시다 슈지, 『마음의 탄생』, 시니어커뮤니케이션, 2009, 125.) ↩
-
인공지능의 능력에 못 미친다는 존재적 비판 ↩
-
인공지능이 전체를 효율적으로 관리하는 유토피아적 세계 ↩
-
§109 참고. (비트겐슈타인, 『철학적 탐구』, 책세상, 2019, 101.) ↩
-
Attention, Position-Wise Feed-Forward Network, Positional Encoding, Residual Connection, Optimizer, Label Smoothing 등 ↩
-
Ashish Vaswani et al., 「Attention is All You Need」, Neural Information Processing Systems (NeurIPS), 2017. ↩
-
Ilya Sutskever, Oriol Vinyals and Quoc V. Le, 「Sequence to Sequence Learning with Neural Networks」, Neural Information Processing Systems (NeurIPS), 2014. ↩
-
e.g. 텍스트 문장: “고양이는 창문 밖에서 새를 쫓아요”, 고양이를 나타내는 벡터: [0.2, -0.4, 0.7, …] ↩
-
Ashish Vaswani et al., 「Attention is All You Need」, Neural Information Processing Systems (NeurIPS), 2017, 3. ↩
-
입력 데이터는 x로, 결과 데이터는 y용도(e.g. f(x) = y). 테스트 데이터는 학습된 모델의 성능 측정을 위해 학습시키지 않는 데이터. 결과 데이터는 모델이 학습하면서 찾아가는 목표치 ↩
-
- 감정 분류 입력 - ‘이 영화 재밌었던 것 같아요’ 출력 - ‘긍정’ / 2. 기계 번역 입력 - “Hello, how are you?” 출력 - “안녕, 어떻게 지내니?” / 3. 질의 응답 입력 - “오늘 날씨는 어떨까?” 출력 - “오늘은 맑은 날씨로 예상됩니다.” (예측, 추론)
-
이기창, 『Do it! BERT와 GPT로 배우는 자연어 처리』, 이지스퍼블리싱, 2021. 12-16. ↩
-
인코더는 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할을 담당합니다. 인코더가 소스 시퀀스 정보를 압축하는 과정을 인코딩이라고 합니다. 그리고 디코더는 인코더가 보내준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성합니다. 디코더가 타깃 시퀀스를 생성하는 과정을 디코딩이라고 합니다. 예를들어 기계 번역에서는 인코더가 한국어 문장을 압축해 디코더에 보내고, 디코더는 이를 받아 영어로 번역합니다. (이기창, 『Do it! BERT와 GPT로 배우는 자연어 처리』, 이지스퍼블리싱, 2021, 73) ↩
-
디코딩의 경우 수치화된 벡터를 문자, 문장으로 바꾸는 작업이다. 기계 언어에서 문자로 변환. ↩
-
Ashish Vaswani et al., 「Attention is All You Need」, Neural Information Processing Systems (NeurIPS), 2017, 3. ↩
-
말할 수 없는 것에 대해 부정한 것이 아닌, 말할 수 없는 것은 언어로 설명하기보다 시, 이야기로 드러내거나, 행동으로서 접근해야 한다고 비트겐슈타인은 말한다. ↩
-
요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007, 94-103. ↩
-
요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007, 97. ↩
-
e.g. “소크라테스는 사람이고, 사람은 언젠가 죽는다.” ↩
-
§2 참고. (비트겐슈타인, 『논리-철학 논고』, 책세상, 2020, 20-28.) ↩
-
지승도, 『꿈꾸는 인공지능』, 자유문고, 2021, 113-114. ↩
-
상동, 117. ↩
-
§1.1 참고. (비트겐슈타인, 『논리-철학 논고』, 책세상, 2020, 19.) ↩
-
인공지능에겐 수치화된 명제 ↩
-
“R & B”의 복합 명제는 진리 함수에서 각기 TFFF가 나와야 한다. 하지만 색상에 관해서 “빨간색이고 파란색이다”를 만족하는 사실 T는 모순이다. x & !x 형식의 모순은 자명하지만, x & z 형식의 모순 명제는 오류이다. ↩
-
요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007, 108. ↩
-
상동. 117. ↩
-
상동. 119. ↩
-
상동. 121. ↩
-
§43. (비트겐슈타인, 『철학적 탐구』, 책세상, 2019, 56.) ↩
-
요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007, 122. ↩
-
§65, §66, §97. (비트겐슈타인, 『철학적 탐구』, 책세상, 2019.) ↩
-
요하임 슐테, 『비트겐슈타인』, 인물과 사상사, 2007, 138. ↩
-
§73~74. (비트겐슈타인, 『철학적 탐구』, 책세상, 2019.) ↩
-
전통적인 인공지능은 여전히 강아지와 고양이를 구별을 못 합니다. 강아지와 고양이도 구별을 못하는데 뭘 하겠어요. 인공지능이 아닌거죠. 인공지능을 연구하는 사람들이 생각을 고쳐먹었습니다. ‘우리가 아무리 시도를 해도 설명으로는 기계가 세상을 인식하지 못하는데 사람은 분명히 할 수 있다. 그러면 우리는 어떻게 강아지와 고양이를 구별하는 걸 배웠을까?‘를 먼저 생각하게 되었습니다. 곰곰이 생각해보니 아무리 기억해봐도 부모님이 우리한테 강아지란 무엇인가 설명해준 적이 없습니다. 그 어떤 부모님도 세 살짜리 어린아이를 앉혀놓고 ‘강아지는 무엇이다’라고 설명하지는 않는다는 거죠. 따라서 우리는 현실이라는 우주에서 가장 큰 빅데이터를 통해 경험하고 학습하여 지능을 얻은 것 같습니다. 세상을 알게 된거죠. 결국 우리가 보통 이야기하는 지능, 세상을 알아보는 능력은 설명을 통해서 배우는 게 아니고 경험과 학습을 통해서 배웁니다. 이제 사람들은 뇌가 세상을 인식하는 과정을 열심히 연구했습니다. 그리고 그 방법들이 20세기에 들어와 밝혀지기 시작했습니다. (김대식, 『김대식의 인간 vs 기계』, 동아시아, 2016, 116-117) ↩
-
§66. (비트겐슈타인, 『철학적 탐구』, 책세상, 2019.) ↩
-
§67. (상동) ↩
-
Alec Radford, R. Józefowicz and Ilya Sutskever, 「Learning to Generate Reviews and Discovering Sentiment」, 2017, 4. ↩
-
벡터 유사도 - 방법론 : 유클리드, 코사인, 자카드 등 ↩