PAPER(34)
-
논문 및 코드 리뷰) s1: Simple test-time scaling (50달러로 o1 만드는 방법 논문)
GPT를 활용하여 작성하였습니다 배경어쩌다가 뉴스 기사를 통해 보게 되었고, 내용을 대충 보니 데이터를 어떻게 쌓으면 되는지 그리고 어떤 식으로 학습하면 되는지 그리고 깃헙을 제공하다 보니, 관심을 가지게 되었고, 읽게 되었습니다.그래서 이 논문을 통해 알고자 하는 부분은 어떻게 데이터를 뽑았는 지, 그리고 어떻게 저렴한 비용으로 해당 모델을 만들 수 있는 지를 알고자 읽어보게 되었습니다. 이 논문의 핵심 내용은 Test-time scaling(테스트 시 스케일링)이라는 개념을 활용하여 언어 모델의 성능을 향상시키는 방법을 연구하는 것입니다. 기존에 OpenAI의 o1 모델이 이를 구현했지만, 구체적인 방법이 공개되지 않아 이를 복제하려는 여러 시도가 있었습니다. 연구진은 가능한 한 가장 단순한 방..
2025.02.09 -
논문 정리) DeepSeek (V3,R1) 논문을 보면서 기술적인 부분 알아보기
GPT와 함께 아래 내용들을 정리했습니다. 2025년 1월, 핫하게 떠오른 DeepSeek 모델최근 AI 업계에서 뜨거운 화제가 되고 있는 DeepSeek 모델을 살펴보자.이 모델은 헤지펀드 하이 플라이어 퀀트라는 기업에서 개발한 것으로, 해당 기업은 550만 달러의 비용으로 현재까지 가장 뛰어난 오픈 소스 언어 모델을 만들었다고 주장하고 있다.NVIDIA 칩 의존도를 낮춘 혁신DeepSeek 개발진은 "꼭 최고의 NVIDIA 칩이 아니더라도 고성능 모델을 개발할 수 있다"고 자신 있게 발표했다.실제로 DeepSeek은 오픈 소스 모델 중 최고의 성능을 기록했으며, 폐쇄형 모델인 GPT-4와도 견줄 만한 결과를 보여주었다.이 혁신적인 접근은 업계 전반에 큰 반향을 일으켰으며, 특히 NVIDIA의 주가..
2025.01.27 -
논문 정리) Searching for Best Practices in Retrieval-Augmented Generation
SNS에서 요약된 내용과 이미지를 보고, 잘 정리가 되어있을 것 같아 정리해 보기로 하였습니다.이 논문을 통해 현재 최신 RAG는 어떻게 하는 지 알아보고자 합니다.논문 요약 RAG의 효과성: 최신 정보를 통합하고, 오류를 줄이며, 특히 전문 분야에서 답변의 질을 높이는 데 효과적입니다.현재 문제점: 많은 RAG 접근법이 복잡한 구현과 긴 응답 시간 문제를 가지고 있습니다.연구 목적: 다양한 RAG 방법과 조합을 조사하여 성능과 효율성을 균형 있게 유지하는 최적의 RAG 방식을 찾는 것입니다.멀티모달 검색: 시각적 입력에 대한 질문 답변 능력을 크게 향상시키고, “검색을 통한 생성” 전략을 통해 멀티모달 콘텐츠 생성을 가속화할 수 있습니다.도입부RAG란?RAG는 컴퓨터가 질문에 답할 때, 최신 정보를 찾..
2024.07.05 -
Paper) Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method 읽어보기
오랜만에 강화학습 관련 논문 읽어보기개요 기존의 휴리스틱 알고리즘은 현실 세계의 제약을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하는 데 한계가 있었습니다. 이 논문은 자동차 도장 공정의 색상 배칭 재순서화 문제를 최적화하기 위해 Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)이라는 새로운 강화 학습 접근 방식을 제안합니다. 주요 기여 요소새로운 강화 학습 마르코프 결정 프로세스(MDP) 개발:FlexSim 시뮬레이터를 사용하여 환경을 설정하고 상태와 행동 공간을 정의합니다.상태는 시스템의 모든 슬롯을 나타내는 2D 배열로 구성됩니다.휴리스틱 알고리즘을 사용한 액션 마스킹:초기에는 MDP를 수정하여 기본 RL 알..
2024.06.22 -
LLM) 논문 내용 정리 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
최근에 LLAMA3에 이어서 아주 핫한 Phi-3에 대해서 마이크로소프트가 작성한 논문이 있어 공유드립니다. 최근 인공지능 연구의 한계를 극복하고자 전 세계적으로 큰 규모의 언어 모델을 개발하는 노력이 지속되고 있습니다. 이러한 대형 모델은 놀라운 성능을 보여주지만, 그 크기 때문에 일반 사용자가 접근하기에는 많은 제약이 따릅니다. 하지만, Microsoft의 최신 연구에서 소개된 Phi-3-Mini 모델은 이러한 상황에 변화를 가져오고 있습니다. 이 논문은 이 모델이 어떻게 일상의 스마트폰에 적용될 수 있는지 에 대한 기술 내용을 정리한 보고서입니다. 1. Phi-3-Mini 모델 소개Phi-3-Mini는 3.8억 개의 파라미터를 가진 언어 모델로, 3.3조 토큰으로 훈련되었습니다. 이 모델은 GPT-..
2024.05.01 -
LLM) Chat Vector 논문 내용 및 실험해보기
논문 내용 정리 CP : Continual Pre-trainingPLM : Pre-trained Language Model 해당 논문은 우연히 LLAMA3에 CHAT VECTOR 논문 방식으로 튜닝한 모델이 있다고 해서 찾아보게 되었습니다.https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview beomi/Llama-3-Open-Ko-8B-Instruct-preview · Hugging FaceLlama-3-Open-Ko-8B-Instruct-preview Update @ 2024.04.24: Release Llama-3-Open-Ko-8B model & Llama-3-Open-Ko-8B-Instruct-preview Model Details L..
2024.04.26 -
TimeSeries) TSMixer 논문 및 구현 살펴보기
2023.07.05 - [ML(머신러닝)/Time Series] - Transformer 기반 Time Series Forecast 논문 알아보기 2023.07.06 - [ML(머신러닝)/Time Series] - TimeSeries Forecast) Transformer보다 좋다는 LSTF-Linear 알아보기 2023.07.12 - [ML(머신러닝)/Time Series] - TimeSeries) PatchTST 논문과 코드 살펴보기 2023.10.13 - [분류 전체보기] - TimeSeries) TSMixer 논문 및 구현 살펴보기 해당 논문은 구글 클라우드 AI Research 팀에서 작성을 한 것이라, 믿고 보는 논문이라 생각하고 논문을 읽어보고자 한다. 현재 기준(2023.10.07) 기준으..
2023.10.13 -
TimeSeries) PatchTST 논문과 코드 살펴보기
2023.07.05 - [ML(머신러닝)/Time Series] - Transformer 기반 Time Series Forecast 논문 알아보기 2023.07.06 - [ML(머신러닝)/Time Series] - TimeSeries Forecast) Transformer보다 좋다는 LSTF-Linear 알아보기 2023.07.12 - [ML(머신러닝)/Time Series] - TimeSeries) PatchTST 논문과 코드 살펴보기 2023.10.13 - [분류 전체보기] - TimeSeries) TSMixer 논문 및 구현 살펴보기 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. ICLR2023 해당 논문은 Are..
2023.07.12 -
논문 리뷰) Deep Interest Network 리뷰
저자들이 주장하는 것은 한 그림을 표현하면 다음과 같다. 유저가 특정 상품에 대해서 클릭할 지 안할 것인 지 유저의 성향과 검색 기록을 바탕으로 클릭 여부를 예측한다는 것이고, 이때 가장 큰 핵심 포인트는 모든 히스토리를 동등하게 보는 것이 아닌 유저의 성향에다가 기존 검색 기록을 특정 상품과의 지역적인 특색을 합쳐서 해당 상품에 대해서 클릭 여부를 판단하겠다는 것이 이 논문에서 가장 말하고자 하는 것이라 생각한다. 저자들은 이런 문제를 기존에 풀 때는 fixed-length 의 벡터를 사용하고 있다는 것에 대해서 bottleneck이 생겨 유저의 다양성을 학습하는데 어려움이 있다가 하고, 이러한 문제를 해결하기 위해서 특정 광고와 기존 과거 행동등으로 adaptively하게 유저의 행동을 표현함으로써,..
2022.11.22 -
CLIP (Contrastive Language-Image Pre-Training) 알아보기
CLIP에서 사용하는 아이디어가 좋아 보여서, 그 부분만 살펴보기로 한다. 최첨단 컴퓨터 비전 시스템은 미리 결정된 객체 범주의 고정된 세트를 예측하도록 훈련된다. 이러한 제한된 형태의 감독(Supervision)은 다른 시각적 개념을 명시하기 위해 추가적인 라벨링 데이터가 필요하기 때문에 일반성(Generality)과 유용성(Usability)을 제한한다 이미지에 대한 원시(raw) 텍스트에서 직접 학습하는 것은 훨씬 광범위한 감독 소스를 활용하는 적절한 대안이다. 우리는 어떤 자막이 어떤 이미지와 함께 가는지 예측하는 간단한 사전 교육(pretraining) 작업이 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터 세트에서 SOTA 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법..
2022.08.13 -
진행중) swin transformer 알아보기
해당 논문을 보고자 하는 이유는 transformer를 사용하고, hierarchical 한 구조를 제시하고, 다양한 task에 적용 가능한 아키텍처인 것 같아 보려고 한다. 아래 DSBA에서 설명해주시는 영상을 보면 잘 설명해주기 때문에 참고하시면 될 것 같다. 이 논문은 컴퓨터 비전의 범용 백본 역할을 할 수 있는 Swin Transformer라는 새로운 비전 트랜스포머를 제시한다. 언어에서 비전으로 트랜스포머를 적응시키는 데 있어 어려움은 시각적 엔티티의 스케일의 큰 차이와 텍스트의 단어에 비해 이미지의 픽셀의 높은 해상도와 같은 두 도메인 간의 차이에서 발생한다. 물체의 크기(the scale of visual entities) 해상도(high resolution of pixels in image..
2022.06.10 -
논문 리뷰) A Generalist Agent (GATO)
구글에서 일반화되는 에이전트라는 주제로 낸 논문이다. 저자들은 일반화된 이러한 방식을 쓰면, 새롭게 들어온다기보다는 out of distribution에 있는 부분에 대해서도 잘할 것이라고 한다. 즉 완전히 새로운 것보다는 기존에 하던 것 중에서 조금 범위가 넘어가는 것에 대해서 잘할 수 있다고 하는 것 같다. 개인적으로 궁금했던 부분은 인풋과 아웃풋 그리고 손실 함수의 구성 방식이라서 이 부분을 주로 간단하게 보기로 했다. 인풋 기본적으로 인풋 같은 경우 continuous 한 것들을 discrete하게 만들거나 VIT 같은 방식을 도입해서 패치하는 식을 이용했다고 한다. 아직 그래프까지는 커버하는 아키텍처는 아닌 것 같다. continuous 1024개의 uniform unit (여기서는 값 자체보다..
2022.05.25