요즘 논문 읽기에는 시간이 부족하여 GPT5.2로 돌려보면서 정리하였습니다
궁금한 점을 물어보면서 정리하였습니다.
Perplexity 논문을 보면서 다양하게 분석한 것 같고, 사용자 질의에 저렇게 토픽을 다는 작업을 대화 하나 하나에 했을 것 같아 대단하다고 생각합니다.
이번 논문을 통해서 일반적인 검색 서비스에서 어떤 사용자들이 많이 어떤 걸 검색하고 활용하는 지 알 수 있어서 좋았습니다.

1. 논문 개요
이 논문은 일반-목적 AI 에이전트가 실제로 어떻게 채택되고 사용되는지를 대규모 실사용 데이터를 통해 분석한 연구입니다.
Perplexity가 개발한 AI-기반 브라우저 Comet과 그 안의 AI 에이전트(Comet Assistant) 를 중심으로, 수백만 건 이상의 익명 상호작용 데이터를 대상으로 세 가지 질문을 다룹니다:
- 누가 AI 에이전트를 사용하는가
- 얼마나 강하게 사용하는가
- 어떤 목적으로 사용하는가
이것은 AI 연구에서 흔히 다루는 알고리즘이나 모델 아키텍처가 아니라, 에이전트 사용 실태를 실증적으로 관찰한 최초의 대규모 현장 연구입니다
2. 데이터와 정의
데이터
- Comet 브라우저 사용자 세션
- 수백만 사용자, 수억 개의 상호작용
- 기간: 2025년 7월 9일 ~ 2025년 10월 22일
1. 샘플링 기간
- 기간: 2025년 7월 9일(Comet 출시일) ~ 2025년 10월 22일
→ 10월 23일부터는 주요 AI 에이전트 업데이트가 있었기 때문에, 초기 사용 패턴에 영향을 줄 수 있어 그 직전까지의 데이터만 분석에 포함합니다.
2. Comet 사용자 정의
- Comet 사용자:
- Comet 브라우저에서 적어도 한 번 이상 쿼리를 입력한 사용자
- 제외 조건:
- Enterprise 사용자
- 정부용 프로그램 사용자
- 계정을 삭제한 사용자
- 데이터 수집 거부(opt-out) 사용자
- 로그아웃 상태로 사용한 경우
→ 이렇게 해서 정상적인 개인 사용자 행위만 보도록 필터링합니다.
3. 에이전트쿼리(agentic query) 정의 필터링
샘플링 전에 정의 기준을 엄격히 적용합니다:
- 에이전트쿼리란:
- 브라우저 제어
- 웹사이트/애플리케이션 조작
- 외부 도구/API 호출
→ 단순 검색이나 정보 요청은 에이전트쿼리로 보지 않음 \
- 공급된 예제/온보딩 쿼리는 제거
- incognito(시크릿) 모드 쿼리는 제거
- 멀티 호출이 발생하는 복잡 쿼리는 제외
→ 의도 파악이 명확한 에이전트 행위만 포함
4. 분석에 사용된 세 가지 샘플
논문은 세 가지 별도의 샘플을 목적에 따라 구분합니다.
Sample A – 전체 집단
- 목적: AI 에이전트의 광범위한 채택과 사용 강도 분석
- 구성:
- 수백만 Comet 사용자
- 수억 건의 쿼리(에이전트 + 일반 포함)
- 특성
- 전체 트렌드를 대표
- 사용자 규모 기반 통계에 적합
Sample B – 직업별 샘플
- 목적: 직업군별 채택/사용 패턴 분석
- 구성:
- 랜덤으로 선택된 100,000명의 사용자
- 각 사용자의 최근 쿼리 일부
- O*NET 직업분류 체계를 연결
- 절차
- 무작위 사용자 100,000명 선택
- 각 사용자의 최근 쿼리 무작위 추출
- 통합된 쿼리를 occupation 분류 모델로 레이블링
Sample C – 에이전트 사용 행위 집중 샘플
- 목적: 에이전트 실제 사용 사례/행동 유형 분석
- 구성:
- 또 다른 랜덤 100,000 Comet 사용자
- 해당 사용자의 모든 agentic 쿼리 포함
- 특성
- 전체 사용자 중 agentic 행위만 뽑아 분류
- Topic/Subtopic/Task 수준의 용도 분석에 사용
| 샘플명 | 목적 | 특징 |
| Sample A | 채택/사용 강도 | 최대한 전체 경향 파악 |
| Sample B | 직업 영향 | 직업 분포를 보기 위해 표본 크기 균형 |
| Sample C | 에이전트 행동 | 실제 agentic 행동 패턴 집중 분석 |
에이전트 정의
논문에서 말하는 “AI 에이전트”는 단순한 질의 응답 시스템이 아니라, 웹 환경 안에서 사용자 명령을 실제로 실행할 수 있는 시스템입니다.
이를 위해 브라우저 제어, 도구 호출, API 호출 등의 행동(action)이 포함된 쿼리를 “agentic query”로 분류합니다.
즉, 단순 텍스트 질의 검색이나 응답은 포함되지 않으며, 에이전트가 외부 환경에서 작업을 수행하는 경우만 해당합니다.
3. 주요 결과
3.1 채택 및 사용 강도
- 초기 사용자(Early adopter)가 전체 사용자 대비 훨씬 높은 사용량을 기록했습니다.
- GDP 수준이 높고 교육 수준이 높은 국가, 그리고 디지털/지식집약적 직업군에서의 채택과 사용이 두드러졌습니다.
- 특히 디지털 기술, 학계, 금융, 마케팅, 창업 분야에서 사용자가 많았습니다.
이 결과는 기술 접근성 및 채택 격차가 존재함을 보여줍니다.
3.2 사용 사례 분류
논문은 계층적 사용 사례 분류체계(hierarchical agentic taxonomy) 를 제안합니다.
분류는 다음 세 수준으로 구성됩니다:
- Topic (주제)
- Subtopic (하위 주제)
- Task (개별 작업)
주요 주제 비율
- Productivity & Workflow (생산성/업무): 가장 큰 비중
- Learning & Research (학습/연구): 두 번째로 큰 비중
- Media & Entertainment
- Shopping & Commerce 등
상위 10개의 세부 작업(Task)만 전체의 약 절반 이상을 차지했습니다.


1. 이 구조를 만든 근본적인 이유
이 논문은 AI 에이전트를 기술이 아니라 ‘사용 행위’로 분석하려는 연구입니다.
그래서 기존 분류 방식(모델 종류, 기능, 알고리즘)이 아니라 다음 질문에 답하려 합니다.
- 사용자는 무슨 목적으로 에이전트를 부르는가
- 그 목적을 이루기 위해 **어떤 작업(task)**을 시키는가
- 그 작업이 어떤 웹 환경(environment)에서 수행되는가
이 세 질문을 동시에 다루기 위해, 단순 1차원 분류가 아니라 계층 + 다대다 구조가 필요했고, 그 결과가 Topic–Subtopic–Task–Environment 구조입니다.
2. Topic → Subtopic → Task로 나눈 이유
2.1 Topic (왜 가장 위가 ‘Topic’인가)
Topic은 사용자의 최종 목적입니다.
이 논문에서 Topic은 기술적 분류가 아니라 사용자 의도 중심입니다.
예시
- Productivity & Workflow
- Learning & Research
- Shopping & Commerce
- Media & Entertainment
왜 이렇게 나눴는가:
- AI 에이전트의 가치는 “무엇을 하게 만드는가”에 있음
- 동일한 기술이라도 목적이 다르면 사용 맥락과 위험, 가치가 완전히 달라짐
- 정책, 제품 설계, 평가 모두 목적 단위로 논의되는 경우가 많음
즉, Topic은 “왜 에이전트를 쓰는가”에 대한 답입니다.
2.2 Subtopic (왜 중간 계층이 필요한가)
Subtopic은 목적을 달성하는 방식의 묶음입니다.
예시
- Productivity → Email Management / Document Editing
- Shopping → Product Search / Price Comparison
왜 필요한가:
- Topic만으로는 너무 넓음
예: Productivity 안에는 이메일, 문서, 일정, 자동화가 섞여 있음 - 서로 다른 Subtopic은 요구되는 행동 능력과 위험도가 다름
- 이메일 자동 발송 ≠ 문서 요약
- Task 수준으로 바로 내려가면 분류가 지나치게 파편화됨
즉, Subtopic은
“같은 목적 안에서, 비슷한 행동 패턴을 요구하는 묶음”입니다.
2.3 Task (왜 Task가 핵심 단위인가)
Task는 실제로 측정되는 최소 행위 단위입니다.
예시
- Create/Edit Document
- Summarize Research
- Search Discount Codes
- Subscribe / Unsubscribe Email
논문에서 Task가 중요한 이유는 다음과 같습니다.
- 실제 로그 데이터에서 식별 가능한 단위
- 에이전트가 “행동했다”고 말할 수 있는 최소 조건
- 사용 빈도, 반복성, 자동화 수준을 정량화할 수 있음
즉,
Topic과 Subtopic은 해석용 개념이고,
Task는 데이터 분석의 실체입니다.
3. Environment를 분리한 이유 (이 구조의 핵심)
이 그림에서 가장 중요한 점은
Environment가 Task 아래에 종속되지 않는다는 것입니다.
3.1 왜 Task–Environment가 1:1이 아닌가
하나의 Task는 여러 Environment에서 수행될 수 있습니다.
예시
- “Summarize Research”
- Google Docs
- PDF Viewer
- Academic Website
반대로, 하나의 Environment도 여러 Task를 지원합니다.
예시
- Google Docs
- 문서 생성
- 요약
- 편집
- 이메일 초안 작성
그래서 논문은 Task–Environment를 다대다 관계로 모델링합니다.
3.2 Environment를 독립 축으로 둔 이유
Environment는 단순한 장소가 아니라:
- 접근 권한
- 행동 가능 범위
- 실수 시 영향 범위
- 개인정보/보안 리스크
를 결정합니다.
같은 Task라도
- 개인 메모 앱에서 실행될 때와
- 회사 이메일 시스템에서 실행될 때
의 의미는 완전히 다릅니다.
이 논문은 “에이전트 위험과 가치”를 논하려면
Task만 보지 말고, 어디서 수행되는지도 함께 봐야 한다는 입장입니다.
4. 왜 이런 구조가 기존 분류보다 낫다고 보는가
기존 분류의 문제:
- 모델 중심 분류는 “어디에 쓰였는지”를 설명하지 못함
- 기능 중심 분류는 실제 사용 행태를 반영하지 못함
- 단일 라벨 분류는 현실의 복합 사용을 표현 불가
이 구조의 장점:
- 사용자 의도 → 실제 행동 → 환경까지 연결됨
- 같은 기술이 다른 가치와 위험을 갖는 이유를 설명 가능
- 로그 기반 실증 분석에 적합
3.3 사용 환경 및 맥락
- 사용은 개인적 용도가 가장 많았고, 직업적/전문적 용도도 상당 부분을 차지했습니다.
- 대표적인 행동 환경으로는 문서 작성, 이메일, 유튜브, 직업 네트워크 사이트 등이 포함됐습니다.
4. 결과
Adoption and Usage Intensity — 핵심 내용
1) 정의
- Agent adopters: 특정 기간 동안 적어도 한 번 이상 에이전트 행동(agentic query)을 요청한 사용자를 의미합니다.
- Usage intensity: *에이전트 행동 쿼리(agentic query)*의 빈도/량으로 측정합니다.
- GA: General Availability (서비스 공개 릴리즈)
2) 사용자 코호트(cohort)별 비교
| 코호트 | 전체 사용지 비중 | 에이전트 사용자 비중 | 에이전트 행동 쿼리 비중 | AAR | AUR |
| July 9 (출시 초기) | 4.3% | 7.7% | 18.9% | 1.79 | 4.40 |
| August 13 | 28.3% | 38.1% | 48.5% | 1.35 | 1.71 |
| October 2 (GA) | 67.4% | 54.2% | 32.7% | 0.80 | 0.49 |
- Agent Adoption Ratio (AAR): 해당 세그먼트의 에이전트 채택 비중 / 전체 사용자 비중
- Agent Usage Ratio (AUR): 에이전트 행동 쿼리 비중 / 전체 사용자 비중
→ 값이 1보다 크면 전체 사용자 대비 해당 세그먼트에서 에이전트를 “평균 이상” 사용했다는 뜻입니다.
3) 국가별 채택 및 사용 강도
- 국가별로 보면 GDP per capita(1인당 GDP) 및 **평균 교육 연수(years of education)**와
- Agent adopters per million 및
- Agentic queries per million
모두 강한 양의 상관관계를 보였습니다.
해석
→ 경제적·교육 수준이 높은 국가일수록 에이전트 채택률과 사용 강도가 높다는 패턴이 관찰됩니다
4) 직업군(Occupation)별 채택 & 사용
- 직업 분류 분석 결과, 디지털·지식집약적 직업군에서 채택률과 사용 쿼리 비중이 전체 사용자 대비 상대적으로 높게 나타났습니다.
주요 직업군 예시
- Digital Technology
- Academia
- Finance
- Marketing
- Entrepreneurship
이들 직업군은 전체 사용자에서 차지하는 비중 이상으로 에이전트 채택/사용 기여도가 컸습니다
논문의 핵심 정량 결과 (사용 방식)
주요 경향
초기 사용자 계층(Early Adopters)
- 에이전트 기능을 훨씬 더 자주, 더 많이 썼다.
- 공개 이후 일반 사용자 대비 상대적으로 사용량이 매우 높음.
정식 공개 이후 사용자 증가
- GA 이후 사용자 수가 크게 늘었지만
- 개별 사용자당 사용량(에이전트 쿼리)은 초기 사용자에 비해 낮아짐.
국가/직업별 차이 존재
- 경제력·교육 수준이 높은 국가에서 채택이 많음.
- 디지털/지식집약 직업군 (개발, 연구, 금융 등)에서 사용 강도가 높음.
주요 사용 목적 및 작업 유형 분포
- 생산성/워크플로우 관련 작업 비중이 가장 큼.
- 학습·리서치, 자료 정리/요약, 문서 생성 등 인지적 작업이 중심.
정량 결과의 실제 해석 (사용자 행동 관점)
데이터는 단순 식별된 사용 기록이 아니라 사용 목적과 패턴을 시사합니다. 논문 데이터를 기반으로 아래와 같은 실사용 해석이 가능합니다.
1) 사용자들은 단순 검색/질문용으로 에이전트를 쓰는 것이 아니다
논문은 agentic query만을 분석 대상으로 삼았으며, 이는
“단순 텍스트 질의”가 아니라 행동 명령/툴 트리거/웹 상호작용이 실행된 쿼리입니다.
즉,
사용자들은 요즘 에이전트를
→ 정보를 찾기 위한 보조 도구가 아니라
→ 행동적/생산적 목적으로 활용하고 있습니다.
예시:
- 문서 생성/편집
- 학술 자료 정리/요약
- 이메일·커뮤니케이션 작업
→ 모두 단순 검색을 넘어선 실행 지향적 작업입니다.
2) 초기 사용자들은 실험적/적극적 사용이 많았다
초기 에이전트 사용자들은
- 기능이 생소할 때부터 자주 실험했고
- 자동화/반자동화 작업에 더 빨리 적응했습니다.
따라서 초기 사용자 집단은
→ 에이전트를 능동적 도구로 받아들이는 경향이 강했고
→ 그 결과 사용량도 높았습니다.
이는 기술 확산의 전형적 패턴과 일치합니다:
- 조기 수용자(Early Adopters) → 기능 실험·탐색 중심
- 이후 일반 사용자 → 실제 필요 작업 기반
3) 에이전트 사용이 단순 반복을 넘어서고 있다
논문에서 제시한 사용 사례를 보면
생산성/워크플로우, 학습/리서치 등 인지적 작업 비중이 높습니다.
- 단순 검색
- 단순 질의 응답
→ 이보다 - 자료 요약
- 문서 생성
- 분석/정리
→ 이런 작업을 위해 에이전트를 쓰는 경우가 더 많았습니다.
즉, 사용자들은
“지능적 반복 작업을 대신하는 도구”로 에이전트를 인식하고 있습니다.
4) 직업·환경 차이에 따른 도구 가치 인식 격차
논문 결과에 의하면
- 디지털/지식집약 직종
- 고소득·고학력 국가
에서 채택률과 사용 강도가 크다고 나옵니다.
이것은
- 에이전트가 보다 복잡한 작업을 자동화하거나
- 인간의 인지적 부담을 줄이는 데 강점이 있다는 의미입니다.
즉, “단순 자동화에 대한 니즈가 낮은 집단에서는 아직까지 사용이 덜 활발할 가능성”을 시사합니다.
5) 에이전트 사용은 초기 관심 → 실사용 단계로 진입 중
초기 공개 이후 사용량이 급증했으나,
일부 사용자에서만 반복적/지속적 사용이 관찰되고 있습니다.
이는
- 기술에 관심을 가진 사람들이 먼저 사용해보고
- 그 중 일상적 업무·생산성 개선 도구로 정착하는 사람들이 생기고 있는
전형적 확산 패턴입니다.
배울점
1. 이런 사용자 분석이 왜 중요한가
논문에서 한 것처럼 단순히 모델 성능을 보는 것은 AI 연구에서 흔합니다.
하지만 사용자 분석은 모델이 실제로 쓰이는 맥락과 가치를 파악하기 위함입니다.
이런 분석이 왜 중요한지를 다음 관점으로 생각해 볼 수 있습니다:
1) 기술이 실수요를 충족하는지 판단
- 모델이 잘 만들어져도 사람들이 실제로 쓰지 않으면 의미가 없다.
- 에이전트가 어떤 작업에서 많이 쓰였는지 보면, 어떤 문제에 실제 수요가 있는지를 알 수 있다.
2) 사용자 세그먼트별로 기술 수용 차이를 이해
- 논문은 GDP, 직업군별로 차이를 봤다.
- 이런 차이는 시장 전략/제품 우선순위 판단에 반영된다.
- 실제로 어떤 고객이 핵심 고객인지 가려낼 수 있다.
3) 제품 개선 방향을 찾을 수 있다
- 예를 들어 학습/리서치 쪽에서 많이 쓰이면, 자동화/반복 최적화 기능이 가치가 큰 반면
- 쇼핑/단순 검색 목적이면 응답 정확도/속도가 더 중요해진다.
2. 당신이 지금 이 논문에서 배워야 할 핵심
단순히 논문의 숫자만 보는 것이 아니라, 다음 질문에 답할 수 있어야 합니다:
❓ “왜 사람들이 특정 작업에서 에이전트를 많이 쓸까?”
→ 작업의 불편함, 반복성, 가치 측면에서 답할 수 있어야 한다.
예: 문서 요약/편집이 많다는 것은
→ 사람이 반복/지루/시간이 많이 드는 일일 가능성이 크고
→ 그것을 자동화해주는 에이전트의 가치가 크다는 신호
이런 사용자 행동이 실제 문제의 본질을 알려준다는 이해가 중요합니다.
3. 실제로 이 분석을 프로덕트/서비스에 어떻게 활용할 수 있는가
당신이 AI 플랫폼/서비스를 설계하거나 개선할 때 이런 분석은 다음에 쓰입니다:
1) 사용자 우선순위 결정
- 에이전트를 누가 많이 쓰는가 → 핵심 고객 정의
- 에이전트를 어떤 상황에서 많이 쓰는가 → 기능 우선순위 정의
예를 들어
- 고급 사용자 vs 일반 사용자
- 직장에서 쓰는지 개인용인지
이런 차이는 기능 디자인에 영향을 줍니다.
2) 가치 지표 재정의
모델 정확도만 보는 것이 아니라
- 사용 빈도
- 세션 길이
- 작업 성공률
- 지속 사용률
같은 사용자 행동 지표 기반 KPI를 정의해야 합니다.
3) 데이터 기반 제품 전략
- 어떤 기능이 체감 가치가 높은지
- 어떤 분야에서 성능 개선이 실제로 사용에 영향을 주는지
위 논문처럼 “사용 목적”을 정량화하면
→ 단순 A/B테스트 수준을 넘어
→ 사용 흐름 자체를 재설계할 수 있습니다.
4. 데이터 관점에서 배워야 할 점
이 논문을 단순히 요약했다고 만족하면 안 되고,
다음 기술을 당신의 역량으로 가져와야 의미가 있습니다:
1) 사용자 행동 데이터 설계
- 어떤 이벤트를 저장할 것인가?
- 사용자 세션을 어떻게 구분할 것인가?
- 어떤 행동이 가치 있는 행동인가?
논문에서는 “agentic query”를 기준으로 삼았는데,
당신도 이 논문처럼 행위의 기준을 명확히 정의할 수 있어야 합니다.
2) 코호트 분석
- 시간이 지남에 따라 사용 패턴이 어떻게 변하는가?
- 초기 사용자와 일반 사용자 간의 차이는 무엇인가?
이걸 통해 제품 확산 속도, 유지율, 전환율 같은 지표를 만들 수 있습니다.
3) 세그먼트 비교
직업군, 국가, 산업별 사용 차이를 보면
→ 사용자 페르소나 생성, 특성 기반 맞춤화 필요성이 나온다.
이런 분류는 단순히 분포를 보는 것이 아니라
왜 그런 차이가 나는지 설명할 수 있어야 가치가 있다.
5. 한 단계 위에서 보는 관점
논문을 통해 배우는 진짜 기술은 이것입니다:
“모델/알고리즘 중심이 아니라 사용자 행동 중심으로 문제를 보는 시각”
즉, AI 기술을 프로덕트로 만들 때
- 무엇을 해결하려고 하는가?
- 사용자는 어떤 맥락에서 쓰는가?
- 그 맥락에서 AI는 어떤 가치를 제공하는가?
이 세 가지를 함께 파악할 수 있어야 합니다.
이게 단순한 성능 향상 이상의 제품/서비스 관점의 데이터 분석 능력입니다.