N8n) 웹 크롤링 기반 자동 분석 및 결과 전송 워크플로우

2024. 10. 19. 13:22꿀팁 분석 환경 설정

 

 

 

n8n이란? n8n은 오픈 소스 자동화 툴로, 다양한 서비스와 API를 연결하여 업무 프로세스를 자동화할 수 있습니다. 사용자는 n8n을 통해 여러 작업을 시각적으로 연결하여 복잡한 워크플로우를 쉽게 만들 수 있으며, 이를 통해 효율적으로 반복적인 작업을 자동화할 수 있습니다.

 


이 워크플로우는 웹사이트에서 데이터를 크롤링하고, 크롤링된 텍스트를 전처리한 후 GPT를 활용해 자연어 처리 및 요약을 수행하는 과정으로 시작됩니다. 이후, 파이썬을 사용해 텍스트를 분석하여 추가적인 인사이트를 도출하고, 최종 결과를 지메일을 통해 자동으로 전달합니다. 이 과정을 통해 크롤링부터 분석, 결과 전송까지의 전 과정을 자동화함으로써 사용자의 시간과 노력을 절감하는 데 중점을 두고 있습니다.

주요 단계:

  1. 웹사이트 크롤링: 필요한 웹사이트를 대상으로 크롤링을 수행해 데이터를 수집합니다.
  2. 텍스트 전처리 및 요약: 수집된 텍스트 데이터를 전처리하고 GPT를 사용해 자연어 처리를 통해 요약합니다.
  3. 파이썬을 이용한 텍스트 분석: 전처리된 데이터를 파이썬으로 분석하여 추가적인 인사이트를 도출합니다.
  4. 지메일 전송: 분석 결과를 지메일을 통해 자동으로 사용자에게 전달합니다.

워크플로우 설명:

이 워크플로우는 아래와 같은 순서로 진행됩니다:

  1. 사용자가 Test workflow를 클릭하면, 크롤링을 수행하는 단계로 들어갑니다. 여기서는 두 개의 웹사이트를 대상으로 크롤링을 진행합니다.
  2. 수집된 데이터를 Merge 노드를 통해 하나의 결과물로 합칩니다. 이후, 크롤링 결과 확인 단계에서 크롤링이 성공적으로 완료되었는지 확인합니다.
  3. 크롤링 결과가 성공적일 경우, ChatGPT API를 이용해 요약 결과를 생성합니다. 이어서 요약된 결과에 대한 결과 확인을 수행하고, 필요에 따라 처리 재수확인을 통해 데이터 품질을 다시 점검합니다.
  4. 전처리가 완료된 텍스트는 텍스트 분석 단계로 넘어가며, 파이썬으로 다양한 분석을 진행합니다. 분석이 완료되면 분석 결과 확인을 통해 최종 결과가 잘 도출되었는지 점검합니다.
  5. 해당 결과를 다른 서버로 보내는 작업을 수행하여 결과를 적재하는 작업을 합니다.
  6. 마지막으로, 분석 결과를 Gmail을 통해 자동으로 사용자에게 전달하여 전 과정을 마무리합니다.

이 워크플로우는 데이터 수집부터 분석 결과 공유까지의 전 과정을 자동화하여 빠르고 효율적인 데이터 활용을 가능하게 합니다.

 

해당 워크플로우를 통해서 자기가 원하는 사이트에 대해서 크롤링을 하고, 주기적으로 GPT를 통해서 내용을 요약하고 내용에 대해서 텍스트 분석을 수행할 수 있었습니다.

 

다양한 Trigger를 설정하면, 이제 더 자동으로 원하는 시간대나 원하는 주기에 보낼 수 있을 것 같아서 편리한 것 같습니다!

지금은 특정 시간대에 해당 워크플로우가 돌 수 있게 설정하였고, 파이썬으로 하게 되면 여러개로 설정할 것이 많겠지만 간단하게 사용할 수 있어 로직에만 좀 더 집중할 수 있게 해줘서 좋은 것 같습니다.

728x90