Agent 12

(2026-02-15) AI 신약개발 에이전트 시스템의 한계

화합물 표현에 SMILES 표현이라고 있습니다. 예시인데요. ​카페인을 표현하는 SMILES 표현식입니다. ​CN1C=NC2=C1C(=O)N(C(=O)N2C)C문제는 현재의 대형 언어 모델(LLM)이 이 구조식을 대할 때 발생합니다.​인간 연구자는 이 문자를 보며 분자의 각도와 입체적인 연결 구조를 떠올리지만, LLM은 그저 나열된 문자열 그 자체로 인식합니다.​이것은 모델의 지능 문제가 아니라, 텍스트 기반 학습이 가진 근본적인 구조적 한계입니다.​​똑같은 분자도 다르게 말하면 틀리는 이유​최근 발표된 논문 "Beyond SMILES: Evaluating Agentic Systems for Drug Discovery"는 이 지점을 아주 정밀하게 타격합니다.​구조적으로는 완벽하게 동일한 분자이지만, SM..

BIO 2026.02.15

(2026-01-20) AstroReason-Bench: LLM 에이전트가 마주한 물리적 현실의 벽

우주라는 거대한 환경은 인공지능 에이전트에게 있어 가장 가혹하면서도 매력적인 시험대입니다.최근 발표된 AstroReason-Bench(arXiv: 2601.11354, Weiyi Wang 외)는 일반적인 LLM 에이전트가 마주한 물리적 현실의 벽을 여실히 보여줍니다.단순한 논리 게임이나 코드 작성을 넘어 실제 물리 법칙이 지배하는 공간에서의 계획 능력을 평가한다는 점에서 큰 의미를 가집니다.LLM이 우주 임무를 잘 풀었을까?물리적 제약 조건의 엄격함에이전트 추론 능력의 근본적 한계실제 환경과 모델 간의 거대한 간극범용 LLM 에이전트는 디지털 환경에서 놀라운 성과를 보여왔습니다.하지만 궤도 역학이나 통신 가능 시간대와 같은 물리적 제약이 개입하면 이야기가 달라집니다.연구진은 이 문제를 명확히 지적합니다...

Agent 2026.01.20

(2025-12-18) 신뢰할 수 있는 LLM 에이전트를 위한 하이브리드 아키텍처 설계

최근 우리는 LLM 에이전트의 '지능'을 높이는 방법에 대해 끊임없이 고민해 왔습니다. 지난번 살펴보았던 논문(Reason-Plan-ReAct)이 복잡한 문제를 어떻게 논리적으로 분해할 것인가에 대한 'Planner'의 관점이었다면, 오늘은 조금 다른 이야기를 해보려 합니다. 바로 '신뢰(Trust)'와 '검증(Verifiability)'에 대한 이야기입니다. 아무리 계획을 잘 세우는 에이전트라도, 실행 과정에서 제멋대로 행동하거나 규칙을 어긴다면 우리는 그 에이전트를 업무에 투입할 수 없습니다. AAAI 2026 워크숍에 제출된 논문 "Towards Trustworthy Multi-Turn LLM Agents via Behavioral Guidance"를 출발점으로 삼아, 이 문제를 해결..

Agent 2025.12.18

(2025-11-29) Anthropic에서 제시하는 Agent 코딩 방식

AI 에이전트에게 몇 시간, 심지어 며칠에 걸친 복잡한 작업을 맡기는 시대가 도래했습니다. 하지만 에이전트가 여러 컨텍스트 윈도우를 넘나들며 일관된 성과를 내는 것은 여전히 난제로 남아 있습니다. 최근 Anthropic은 이 문제를 해결하기 위해 인간 소프트웨어 엔지니어의 '교대 근무' 방식에서 영감을 얻은 획기적인 이중 솔루션을 제시했습니다. 이 글에서는 Anthropic의 공식 가이드를 바탕으로 실제 구현 코드와 함께 장기 실행 에이전트를 구축하는 방법을 상세히 안내합니다.1. 문제 이해하기: 왜 장기 에이전트는 실패하는가?핵심 과제: 컨텍스트 윈도우의 한계장기 에이전트의 근본적인 과제는 매 세션이 이전 작업에 대한 '기억' 없이 시작된다는 점입니다. 마치 새로운 엔지니어가 전임자의 작업 내용을 ..

Agent 2025.11.29

(2025-11-12) 최신 Deep Research Agent 구조 - #2. Search Tool 지원 LLM으로 수정

앞선 논문 내용을 기반으로 소스를 확인해 보면, Deep Research 구조에서 Denosing 방식으로 몇 가지 도구들을 사용하는 것을 볼 수 있습니다. ​ 1. RAG 2. Reranking​ 이 기법은 엔터프라이즈 안에서 문서를 살펴보기에는 좋지만, 일반적으로 Internet Search Tool을 내장하고 있는 LLM에서는 이 기법 자체를 사용할 필요가 없습니다. ​ 그래서, 위 두가지 기능을 제거하고, LLM 이 지원하는 내장된 Search Tool을 이용해 보기로 하였습니다. ​​Gemini 를 이용한 내장 Google Search Grounding​ Gemini 는 자체적으로 Google Search를 수행하며, 질의 결과와 정확도를 보정하는 기능을 내장하고 있습니다. 따라서, 1번 2번을..

AI 2025.11.12

(2025-11-02) 메모리 구조를 활용한 연속 학습 LLM

최근 AI agent에서 제일 중요하게 판단되는 기능/모듈이 바로 메모리 특히 장기 메모리와 경험 기억부분입니다. RAG를 통한 장기 기억은 많은 제약 조건이 있고, Short Term Memory인 Context (세션) 메모리는 커지는 Context를 감당할 수 없게 되는 시점에, Trim, Compaction과 같은 기존 Context를 조절해야 하며, 이때 문제가 발생하게 됩니다. 최근, 연속적으로 학습할 수 있는 다양한 메커니즘들이 나오고 있는데, 그 중에 한가지가 변형 메모리 구조에 대한 일부 파인튜닝 방식입니다. 과거에는 Transformer 내부에 메모리 모듈 탑재하는 부분까지는 진행하였지만, 실제로 Training을 하다 보면, 너무 많은 파라미터가 변경되어, 일명 파멸적인 망각 현상..

AI 2025.11.02

(2025-10-28) Agent Lightning - Agent 훈련 도구

Agent를 구성하는 방법은 어느 정도 나와 있고, 프레임워크를 이용하면 어느 정도 완본을 만들 수 있습니다. 하지만 해당하는 Agent에 대한 지속적인 평가 그리고 성능 개선을 위한 훈련은 단순하게 RAG 구성만으로, 그리고 항목을 추가하는 것만으로는 부족할 수 있습니다.최근 Agent 훈련에 대한 매우 간단한 프레임워크를 MS에서 발표하였습니다. 좀 더 자세하게 내용을 분석해 보겠습니다.핵심 설계 철학Agent Lightning은 기존 Agent 코드를 최소한으로 수정하면서도 다양한 학습 알고리즘을 적용할 수 있는 구조를 제공합니다. 이는 LangChain, AutoGen, CrewAI 같은 기존 프레임워크나 커스텀 Python 코드 모두에 적용 가능합니다.제로 코드 변경으로 시작하는 Agent 최적..

Agent 2025.10.28

(2025-10-26) State of AI 리포트 요약 - #1. 최신 연구 동향

최근 공개된 Art of AI 2025 Online에는 방대한 최신 AI 소식이 담겨져 있습니다. 보는 것만도 며칠이 걸려서, 일부 중요한 내용을 정리해 보았습니다.​먼저, AI 연구 및 기술 동향 입니다. 이제는 성능에 올인하는 것 보다는 현재까지 나와 있는 기술에 대해서, 얼마나 더 정확하게 적용하는 것이 좋은지 이 부분이 관건인 것 같습니다.LLM 학습 비용 절감​ LLM 학습의 패러다임이 단순한 스케일업에서 효율성 최적화로 전환되고 있습니다. 이 중심에는 LoRA 기반의 강화 학습(RL) 및 새로운 옵티마이저 와 같은 혁신적인 방법론들이 있습니다.​LoRA 어댑터를 활용한 강화 학습이 비용을 획기적으로 낮춥니다​ LoRA(Low-Rank Adaptation) 기술을 RL에 적용하면 전체 미세 조정..

AI 2025.10.26

(2025-09-09) Coding Agent가 우리에게 필요로 하는 것은?

메멘토 영화 포스터 최근에 코딩 에이전트를 만들고 있지만, 뼈저리게 느끼는 부분이. 장기 기억 및 경험에 대한 부분입니다.​ 혹시 메멘토라는 영화를 보셨는지 모르겠습니다.​ 그 영화에서는 매우 똑똑한 주인공이 나옵니다. 자기가 장기 기억 상실증에 걸린 것을 알고, 주위에 일어나는 모든 것들을 조그마한 메모에 모두 적어서, 그 맥락을 최대한 지키려고 나옵니다.​ 주인공 자체가 똑똑하기 때문에, 이치적인 판단, 메모를 통한 유추 모두 열심히 잘하고 있지요. 하지만 주위에 주인공을 이용하려는 나쁜 사람들이 있다면, 이 주인공의 행동은 아예 엉뚱한 결과를 발생시킵니다.​ 너무 똑같습니다. 즉 아직까지 에이전트는 사용자의 경험, 능력에 의존성이 있는 구조라고 보여집니다. 물론 이 부분을 좀 더 명세화하고, 쪼개고..

Agent 2025.09.09

(2025-09-05) Agent 운영시 고려할 사항 #1. 구축패턴과 신뢰

좌초하는 AI 에이전트, 아키텍처와 신뢰의 역설: 개발자를 위한 실전 구축 가이드 실제 Agent 구축을 진행하면, 초기에 어떤 형태의 Agent를 구축할지 고민합니다.처음에는 단순한 LLM 을 이용하는 전략, 이후 RAG 붙이는 방법. 에후 Tools (MCP) 붙이는 방법, 이후 Agent 분리 후 도메인 담당하는 방법, 상하위로 Agent 를 계층적으로 이용하는 방법.또한, 실제 운영에 들어가면, 사용자 피드백에 대한 절망적인 요구사항으로 기동된 Agent 서비스가 사장되기도 합니다.실제로 유사한 경험에 대한 이야기가 나와서 같이 공유해 보고자 합니다.에이전트의 두뇌(LLM)에만 집중할 때, 우리는 그것의 신경계(아키텍처)와 인격(신뢰)을 잊어버립니다. 우리는 종종 AI 에이전트의 성능을 정확도나 ..

Agent 2025.09.05

(2025-09-04) Agent 작성시 E2E 평가 자동화의 중요성

에인전트류를 작성하다보면, 정확하게 사용자가 원하는 바는 목표에서 사라지고 중간에 길잃은 나그네처럼 이런저런 다른 이슈를 상대하느라 시간이 훌쩍 진행되고 맙니다. 많이 겪는 일입니다. 이 부분에 대해서 공감 가는 글이 있어서 가지고 와 보았습니다.정교한 에이전트의 조건: 평가는 단순한 성적표가 아닙니다인공지능 에이전트의 기반이 되는 모델은 하루가 다르게 발전하고 개선되지만, 그 에이전트의 가치를 제대로 측정하고 발전 방향을 결정하는 '평가'의 중요성은 결코 변하지 않습니다. 어떤 정교한 평가 방법론도 실제 데이터를 직접 들여다보는 과정을 대체할 수는 없습니다. 잘 설계된 평가는 개발 시간을 단축시켜 주지만, 결국 에이전트가 남긴 흔적, 즉 실제 작동 데이터를 분석하며 문제점을 찾아내고 개선의 실마리를 얻..

Agent 2025.09.04

(2025-09-02) AI 오용 탐지 및 대응 - Anthropic

역시 모든 진보된 기술은 악용을 피할 수가 없는 것 같습니다. Vibe Coding 도구 들이 활성화되니, 바로 여기에 발 맞추어(?) 해당 기술을 응용(?)한 사기 기술들이 등장하고 있습니다. 이에 Anthrophic에서 해당 사항에 대한 대응 방안을 정리해서 공유하였습니다.​​인공지능, 선을 넘다: 오남용의 시대​ AI 기술이 발전함에 따라, 이를 악용하여 정교한 사이버 범죄에 사용하려는 시도 또한 활발해지고 있습니다. 이제 AI는 단순히 범죄를 조언하는 수준을 넘어, 직접적인 공격의 도구로 사용되기 시작했습니다.​​AI, 정교한 사이버 공격의 새로운 무기AI를 통한 자동화 사이버 공격의 시작과거에는 높은 수준의 기술력이 필요했던 복잡한 사이버 공격들이 이제는 AI를 통해 자동화되고 있습니다. 특정 ..

Agent 2025.09.02
반응형