본문 바로가기
IT, 프로그램, SW개발/Python,파이썬, AI

예문과 함께 알아보는 인공지능(AI) 관련 핵심 용어 30개

by RedBaDa 2025. 7. 5.
반응형





예문을 먼저 제시하고, 그 안에 포함된 용어를 간결하게 설명합니다. 예문이 자연스럽게 읽히고 이해에 어려움이 없다면, 다음 예문으로 넘어가셔도 괜찮습니다. 각 용어를 더 깊이 이해하고 싶다면, 유튜브나 GPT 등을 통해 추가로 검색해보시길 권장합니다.

인공지능, 생성형 AI, 거대언어모델, RAG, 프롬프트 엔지니어링, 시스템 프롬프트, 머신러닝, 딥러닝, 인공신경망, 트랜스포머, 멀티모달 AI, 토큰, 파인튜닝, 전이학습, CoT, 데이터셋, 데이터 전처리, 성능 평가, 벤치마크, 편향, 환각, 지도학습, 비지도학습, 강화학습, 자연어처리, API, AI 안전성, 설명가능한 AI, 자기지도학습, MCP

 
▶ 인공지능 기술이 주가 급등의 핵심 동력으로 떠오르면서 글로벌 증시가 다시 한번 기술주 랠리를 맞이하고 있다.
 
1. 인공지능 :
   인공지능(Artificial Intelligence, AI)은 컴퓨터가 인간처럼 학습, 추론, 판단을 수행하도록 설계된 기술과 시스템 전반을 뜻합니다. 규칙 기반 전문가 시스템부터 자율주행차의 딥러닝 모델까지 폭넓은 범주를 포함하며, 데이터를 바탕으로 스스로 성능을 개선하는 것이 핵심입니다. 최근에는 스마트폰 음성 비서, 의료 영상 판독, 법률 문서 분석 등 산업 전반의 ‘엔진 기술’로 자리매김하고 있습니다.
 
▶ 생성형 AI를 이용한 자동 영상 편집 서비스가 1인 크리에이터 시장에 혁신 바람을 일으키고 있다.
 
2. 생성형 AI :
   생성형 AI(Generative AI)는 새로운 텍스트·이미지·음성·코드 등 창의적 콘텐츠를 직접 만들어내는 인공지능을 말합니다. 이전 AI가 주로 ‘분류·예측’에 머물렀다면, 생성형 AI는 작가나 작곡가처럼 무(無)에서 유(有)를 창조합니다. 대표 사례로 ChatGPT, Midjourney, DALL·E, ElevenLabs 등이 있으며, 마케팅 카피 제작·가상 모델 영상·게임 레벨 디자인 등 콘텐츠 제작 현장에서 폭넓게 쓰이고 있습니다.
 
▶ 정부가 거대언어모델 기반 국민 비서 서비스 출시를 발표하며 거대언어모델 경쟁이 한층 가열되고 있다.
 
3. 거대언어모델 :
   거대언어모델(Large Language Model, LLM)은 인터넷 등 방대한 텍스트를 학습해 사람과 유사한 문장 생성·이해 능력을 보유한 초대형 언어 모델입니다. 수백억~수조 개 파라미터를 가진 트랜스포머 구조가 주류이며, 맥락 유지·언어 번역·코드 작성 등 폭넓은 작업을 단일 모델로 수행합니다. 챗봇·검색 요약·기업 내부 지식베이스 질의응답 등 대화형 서비스의 핵심 엔진으로 활용됩니다.
 
▶ 법률 검색 결과를 실시간으로 반영하는 RAG 기반 챗봇이 변호사들의 정보 조사 시간을 대폭 단축했다.
 
4. RAG :
   RAG(Retrieval-Augmented Generation)은 검색(Retrieval)으로 가져온 외부 지식을 생성(Generation) 단계에 결합해 정확도와 최신성을 높이는 AI 활용 방식입니다. LLM이 자체 지식만으로 답변할 때 발생하는 오류·노후 정보를 실시간 문서 검색으로 보완한다는 점이 특징입니다. 내부 문서가 많은 대기업·로펌·언론사에서 “사내 전용 ChatGPT”를 만들 때 널리 채택됩니다.
 
▶ 인재 시장에서 프롬프트 엔지니어링 전문가 연봉이 개발자 못지않게 치솟고 있다.
 
5. 프롬프트 엔지니어링 :
   프롬프트 엔지니어링(Prompt Engineering)은 AI에게 원하는 결과를 얻기 위해 입력 문장(프롬프트)을 설계·최적화하는 기술입니다. 예를 들어 “계약서를 3줄로 요약해 달라”와 “법적 효력을 유지하며 핵심 조항을 표 형식으로 정리해 달라”는 요청은 LLM의 출력 형태를 완전히 달라지게 만듭니다. 최근에는 마케팅·코딩·문서 자동화 등 업무 현장에서 ‘AI 활용 스킬’의 핵심 역량으로 각광받습니다.
 
▶ 개발팀이 시스템 프롬프트를 수정하자 챗봇의 말투와 답변 길이가 즉시 바뀌었다.
 
6. 시스템 프롬프트 :
   시스템 프롬프트(System Prompt)는 모델 전체의 성격·규칙·말투를 미리 정의해 두는 상위 지침으로, 사용자 프롬프트보다 우선 순위가 높습니다. 예컨대 “너는 항상 한국어로만 답하고, 출처를 각주로 달아라” 같은 조건을 담아두면 이후 대화가 일관성 있게 유지됩니다. 일반 사용자 입력과 달리 숨겨진 설정으로 작동하므로, 챗봇·가상 비서의 “페르소나와 정책”을 결정하는 핵심 레버로 쓰입니다.
 
▶ 머신러닝 기술이 주가 예측 모델에 도입되면서 금융권의 데이터 사이언티스트 수요가 급증하고 있다.
 
7. 머신러닝 :
   머신러닝(Machine Learning, ML)은 컴퓨터가 명시적 프로그램 없이 데이터에서 패턴을 학습해 스스로 규칙을 개선하는 방법론을 통칭합니다. 지도·비지도·강화학습처럼 학습 방식에 따라 세분화되며, 이메일 스팸 필터부터 추천 알고리즘에 이르기까지 일상 서비스의 핵심 엔진으로 작동합니다. 딥러닝은 ML의 한 갈래로, 인공신경망을 깊게 쌓아 복잡한 패턴을 학습한다는 점이 차이입니다.
 
▶ 의료 영상 판독 정확도를 높이기 위해 딥러닝 기반 진단 보조 시스템이 대형 병원에 도입됐다.
 
8. 딥러닝 :
   딥러닝(Deep Learning, DL)은 다층 인공신경망을 이용해 이미지·음성·언어 등 고차원 데이터를 학습하는 머신러닝의 하위 분야입니다. 층(layer)을 깊게 쌓아 데이터에서 추상적인 특징을 자동으로 추출하며, GPU 병렬 연산 덕분에 2010년대 중반 이후 급격히 발전했습니다. 최근 자율주행차·음성 비서·얼굴 인식처럼 “고난도 인지 작업”에 폭넓게 활용됩니다.
 
▶ 스타트업이 저전력 인공신경망 칩을 공개하면서 IoT 센서도 실시간 학습이 가능해졌다.
 
9. 인공신경망 :
   인공신경망(Artificial Neural Network, ANN)은 뇌 뉴런의 연결 구조를 모방한 계산 모델로, 노드(뉴런)가 입력값에 가중치를 곱해 계층적으로 전달하며 복잡한 함수를 근사합니다. 퍼셉트론·다층 퍼셉트론을 거쳐 합성곱 신경망(CNN, Convolutional Neural Network)·순환신경망(RNN, Recurrent Neural Network) 등으로 발전했습니다. ANN은 “네트워크” 개념 자체를 가리키고, DL은 그 네트워크를 깊게 쌓아 사용하는 학습 기법이라는 점이 구분점입니다.
 
▶ 트랜스포머 기반 번역 모델이 기존 RNN 구조 대비 학습 속도와 정확도를 모두 끌어올렸다는 평가를 받았다.
 
10. 트랜스포머 :
    트랜스포머(Transformer)는 2017년 구글 논문 “Attention Is All You Need”에서 제안된 어텐션 메커니즘 중심 딥러닝 아키텍처입니다. 입력 전체를 병렬로 처리하면서도 단어 간 관계를 동적으로 파악해 긴 문맥을 효율적으로 다룹니다. 현재 ChatGPT·Gemini 같은 거대언어모델(LLM, Large Language Model)의 표준 구조로 자리 잡았으며, CNN이 이미지 특화라면 트랜스포머는 언어·음성·이미지까지 아우르는 범용성이 차별점입니다.
 
▶ 사진·음성·텍스트를 한 번에 이해하는 멀티모달 AI 도우미가 고객 상담 시간을 절반으로 줄였다.
 
11. 멀티모달 AI :
    멀티모달 AI는 텍스트·이미지·음성·영상 등 서로 다른 데이터 유형(모달리티)을 동시에 처리·이해·생성하는 인공지능을 말합니다. 트랜스포머 아키텍처와 크로스어텐션 기법을 활용해 모달 간 상관관계를 학습하며, 이미지 캡셔닝·영상 요약·음성 기반 검색처럼 “한눈에 보고 한 번에 답하는” 사용자 경험을 제공합니다. 단일 모달 모델과 달리 여러 감각 정보를 융합한다는 점이 핵심 차이입니다.
 
▶ 챗봇이 16 KB 이상 입력을 받으려면 더 많은 토큰을 지원하도록 모델 설정을 변경해야 한다.
 
12. 토큰 :
    토큰(Token)은 LLM이 텍스트를 처리할 때 사용하는 최소 단위(단어·부분단어·문자 등)입니다. 예컨대 “ChatGPT”는 BPE 알고리즘에 따라 두세 개 토큰으로 분할될 수 있으며, 모델의 입력·출력 길이는 결국 토큰 수로 계산됩니다. 사용자는 토큰 단위로 과금·속도·메모리 한계를 관리해야 한다는 점에서 개념을 이해해 두면 유용합니다.
 
▶ 스타트업은 고객사 데이터로 모델을 파인튜닝해 산업별 전문 챗봇을 출시했다.
 
13. 파인튜닝 :
    파인튜닝(Fine-tuning)은 사전 학습한 대형 모델을 소량의 도메인 데이터로 추가 학습해 성능을 맞춤 최적화하는 과정입니다. 모든 파라미터를 재학습하거나 일부 계층만 동결·갱신할 수 있으며, 소량 데이터·짧은 시간으로도 효과가 큽니다. 오픈소스 LLM을 기업 매뉴얼로 재학습해 “사내 전용 답변봇”을 만드는 등 특정 업무 지식 주입에 널리 쓰입니다.
 
▶ 연구팀이 소음 제거 모델에 전이학습을 적용해 학습 시간을 90% 단축했다고 발표했다.
 
14. 전이학습 :
    전이학습(Transfer Learning)은 한 작업에서 학습한 지식(가중치)을 다른 유사 작업에 재사용해 학습 비용을 줄이는 기법입니다. 예컨대 ImageNet으로 학습한 CNN을 의료 X-ray 분류에 활용하면, 처음부터 학습할 때보다 데이터 요구량과 시간·전력 소모가 크게 감소합니다. 파인튜닝이 ‘추가 학습 단계’ 자체라면, 전이학습은 ‘지식을 가져와 새 과제에 적용’한다는 더 넓은 개념입니다.
 
▶ 복잡한 논증 질문에서 CoT 기법을 적용하자 모델이 중간 추론 과정을 단계별로 설명하며 정답률이 상승했다.
 
15. CoT :
    CoT(Chain of Thought)는 LLM이 문제 해결 과정을 단계별 자연어로 서술하도록 유도해 논리성·정확도를 높이는 프롬프트 기법입니다. “먼저…, 다음으로…, 그래서 결론적으로…” 같은 문장 구조를 강제해 모델 내부 추론을 밖으로 끌어내며, 수학·논리·법률 질문에서 특히 효과적입니다. “직접 답만 달라” 방식보다 속도는 느리지만 해설과 검증이 용이하다는 점이 장점입니다.
 
▶ 데이터셋 확보 경쟁이 치열해지면서 AI 스타트업들이 정부·공공기관과의 협업을 늘리고 있다.
 
16. 데이터셋 :
    데이터셋(Dataset)은 AI 모델을 학습·검증·평가하기 위해 모아 놓은 구조화된 데이터 묶음을 뜻합니다. 이미지·텍스트·음성 등 형태별로 구분되며, 품질·양·다양성이 모델 성능에 직결됩니다. 일반적으로 학습용·검증용·테스트용으로 분리해 사용하며, 라이선스·개인정보 규정 또한 중요한 관리 요소입니다. ‘데이터 소스’가 원본 데이터라면, ‘데이터셋’은 AI 학습에 맞게 정리·라벨링된 최종 재료라는 점이 차이입니다.
 
▶ 대형 병원에서는 영상 노이즈를 줄이기 위한 데이터 전처리 자동화 파이프라인을 구축했다.
 
17. 데이터 전처리 :
    데이터 전처리(Data Preprocessing)는 모델 학습 전 원본 데이터를 정제·가공해 품질을 높이는 과정입니다. 결측치 처리, 정규화, 라벨 오류 수정, 증강(Augmentation) 등이 포함되며, 전처리가 잘못되면 모델이 패턴 대신 노이즈를 학습할 수 있습니다. “쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)”는 속담이 전처리의 중요성을 단적으로 보여줍니다.
 
▶ AI 개발팀은 새 알고리즘의 성능 평가 결과를 발표하며 정확도가 2%포인트 올랐다고 밝혔다.
 
18. 성능 평가 :
    성능 평가(Performance Evaluation)는 학습된 모델이 주어진 과제를 얼마나 잘 수행하는지 수치로 측정하는 단계입니다. 분류 문제에서는 정확도·F1 점수, 생성형 모델은 BLEU·ROUGE, LLM은 MMLU 등 과제별 지표가 다릅니다. 평가 결과는 모델 개선·서비스 채택 여부를 결정하는 근거가 되며, “벤치마크”는 평가지표·데이터셋을 표준화해 여러 모델을 공정히 비교한다는 점이 다릅니다.
 
▶ 신형 음성 인식 엔진이 공개 벤치마크 테스트에서 기존 1위를 제치고 오류율을 20% 낮췄다.
 
19. 벤치마크 :
    벤치마크(Benchmark)는 서로 다른 AI 모델을 동일 조건에서 비교할 수 있도록 준비된 표준 데이터·지표·프로토콜 세트입니다. 예컨대, MLPerf(종합), MMLU(언어), GLUE/SuperGLUE(언어), ImageNet(비전) 등이 대표적이며, 연구·산업계가 동일 잣대로 성능을 확인할 수 있게 해 줍니다. 최신 모델이 발표될 때 “벤치마크 갱신”이 화제가 되는 이유가 바로 성능 우위를 객관적으로 증명하기 때문입니다.
    
▶ 얼굴 인식 시스템에서 인종 편향 문제가 드러나자 규제 기관이 시정 명령을 내렸다.
 
20. 편향 :
    편향(Bias)은 학습 데이터 불균형이나 설계 오류로 인해 AI 결과가 특정 집단·관점에 체계적으로 유·불리하게 치우치는 현상을 가리킵니다. 채용, 대출, 범죄 예측 등 민감 영역에서 편향은 사회적 불공정을 초래할 수 있어 윤리·규제 논의의 중심에 있습니다. ‘환각’이 사실 자체를 잘못 생성하는 오류라면, 편향은 결과 방향성이 왜곡된다는 점이 차이입니다.
 
▶ LLM이 실제로 존재하지 않는 판례를 인용하는 환각 사례가 보고돼 법률 업계가 경각심을 높였다.
 
21. 환각 :
    환각(Hallucination)은 AI 모델이 근거 없는 정보나 허구의 사실을 그럴듯하게 생성하는 현상입니다. 주로 LLM에서 나타나며, 데이터 부족·확률적 출력 특성·프롬프트 모호성이 원인으로 꼽힙니다. 잘못된 의료 조언·가짜 뉴스 생성 등 피해가 큽니다. 편향이 ‘치우침’ 문제라면 환각은 ‘사실 왜곡·허구 창조’ 문제라는 점에서 서로 다른 품질 리스크입니다.
 
▶ 지도학습 기반 의료 영상 판독 모델이 기존 진단 정확도를 5 %포인트 끌어올렸다고 병원 측이 밝혔다.
 
22. 지도학습 :
    지도학습(Supervised Learning, SL)은 입력 데이터와 정답 레이블(예: 고양이 vs 강아지)을 쌍으로 제공해 모델이 올바른 출력 값을 학습하도록 하는 방법입니다. 손실 함수로 예측과 정답의 차이를 계산하고, 그 차이를 최소화하도록 가중치를 업데이트합니다. 이메일 스팸 필터, 음성 명령 인식, 신용카드 부정 거래 탐지 등 “정답이 있는 문제”를 해결할 때 주로 쓰입니다.
 
▶ 연구진은 비지도학습으로 대량 고객 로그를 군집화해 새로운 소비 패턴을 발견했다고 발표했다.
 
23. 비지도학습 :
    비지도학습(Unsupervised Learning, UL)은 정답 레이블 없이 데이터 구조(군집·잠재 변수·패턴)를 스스로 찾아내는 학습 방식입니다. 대표 기법으로 K-평균 군집화, 주성분분석(PCA), 오토인코더가 있으며, 데이터 시각화·이상 탐지·추천 시스템 초기 단계에서 활용됩니다. SL이 ‘정답을 보고 배우기’라면 UL은 ‘스스로 숨은 규칙 찾기’가 핵심 차이입니다.
 
▶ 자율주행차 업체는 강화학습 시뮬레이터로 도심 주행 전략을 훈련해 사고율을 크게 낮췄다.
 
24. 강화학습 :
    강화학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상(Reward)을 최대화하도록 행동 정책을 학습하는 방법입니다. 바둑 AI AlphaGo, 물류 로봇 경로 최적화, 광고 입찰 전략 등 ‘순차적 의사결정’ 문제가 대표 응용 분야입니다. SL·UL이 데이터셋 기반 학습이라면, RL은 “행동→보상→정책 개선”의 순환 구조를 가진다는 점이 다릅니다.
 
▶ 법률 문서를 자동 요약하는 서비스가 고도화된 자연어처리 엔진 도입으로 정확도를 높였다.
 
25. 자연어처리 :
    자연어처리(Natural Language Processing, NLP)는 컴퓨터가 인간 언어를 이해·생성·분석하도록 만드는 기술 전반입니다. 토큰화·품사 태깅·의존 구문 분석처럼 전통 기법부터 LLM 기반 질의응답·번역·감성 분석까지 범위가 넓습니다. 현재 챗봇·검색 엔진·음성 비서 등 언어와 관련된 거의 모든 AI 서비스의 핵심입니다.
 
▶ 지도 앱 개발사는 새로운 API 공개로 타사 서비스가 실시간 교통 데이터를 쉽게 가져가도록 했다.
 
26. API :
    API(Application Programming Interface, API)는 소프트웨어 기능을 외부 프로그램이 표준화된 방식으로 호출할 수 있게 만든 ‘인터페이스’입니다. 예컨대 GPT-4o API를 호출하면 사용자 앱에서도 LLM 기능을 바로 이용할 수 있습니다. 라이브러리가 ‘내부 코드 재사용’이라면, API는 ‘네트워크·프로세스 경계를 넘어 기능을 제공’한다는 점이 다릅니다.
 
▶ 글로벌 컨퍼런스에서 AI 안전성 이슈가 집중 조명되며 위험 완화 기술에 대한 투자 의지가 높아졌다.
 
27. AI 안전성 :
    AI 안전성(AI Safety)은 예측 불가·위험한 AI 행동으로부터 인류·환경을 보호하고 책임 있게 운영하기 위한 연구·정책 영역입니다. 잘못된 목표 세팅, 보상 해킹, 대규모 자동화 오용 등을 방지하려는 기술적·윤리적 접근이 포함됩니다. 요즘은 자율 무기·초거대 모델 규제, 안전한 RL 트레이닝 등 “사전에 사고를 막는 AI 거버넌스”가 주요 논의 거리입니다.
 
▶ 금융 AI가 대출 거절 이유를 시각화해 제공하는 설명가능한 AI 솔루션이 규제 샌드박스를 통과했다.
 
28. 설명가능한 AI :
    설명가능한 AI(Explainable AI, XAI)는 모델 예측의 근거를 사람이 이해할 수 있는 형태로 제시해 투명성과 신뢰성을 높이는 기술·방법론입니다. 모델 내부 기여도를 계산하는 SHAP, LIME 같은 수치 기반 기법부터 시각화·자연어 해설까지 다양합니다. AI Safety가 “위험 완화”에 초점이라면 XAI는 “결정 이유 공개”에 초점을 맞춘다는 점이 구별됩니다.
 
▶ 국내 최대 이커머스 플랫폼이 자기지도학습 기반 추천 시스템을 도입해 고객 맞춤 상품 추천 정확도를 크게 높였다.
 
29. 자기지도학습 (Self-supervised Learning, SSL)
정답 레이블 없이 데이터 자체에서 정답(레이블)을 만들어 학습하는 방법입니다. 마치 문장에서 일부 단어를 가리고 문맥으로 맞추게 하거나(언어), 모자이크 처리된 이미지의 원래 모습을 복원하게 하는(비전) 식입니다. 대규모 언어·비전 모델 대부분이 이 방식으로 사전학습을 진행하며, 이후 소량의 정답 데이터로 파인튜닝하면 높은 성능을 얻을 수 있어 라벨링 비용 절감에 매우 효과적입니다.
 
▶ 기업들이 자체 데이터베이스를 AI 챗봇에 연결하는 MCP 기술을 도입해 업무 효율성을 크게 높였다.
 
30. 모델 컨텍스트 프로토콜 (Model Context Protocol, MCP)
MCP는 AI 모델과 외부 데이터 소스(파일, 데이터베이스, API 등)를 안전하게 연결하는 표준 프로토콜입니다. 마치 USB-C 포트처럼 다양한 앱과 도구를 AI에 표준화된 방식으로 연결할 수 있게 해줍니다. 예를 들어, 회사의 구글 드라이브, 슬랙, 깃허브 등의 데이터를 AI 챗봇이 직접 읽고 활용할 수 있도록 하여, 더 정확하고 맞춤화된 답변을 제공할 수 있습니다. 개발자가 각각의 연결 방식을 따로 만들 필요 없이 하나의 표준으로 통합할 수 있다는 것이 핵심 장점입니다.
 
 
출처 : https://www.clien.net/service/board/lecture/19017485?type=recommend

반응형