매일 쏟아지는 AI 뉴스를 효율적으로 수집하기 위해 RSS와 feedparser를 활용한 자동화 큐레이션 파이프라인을 구축했습니다. 이 글에서는 RSS 피드 파싱부터 키워드 필터링까지 전체 개발 과정을 상세히 공유합니다.
RSS 큐레이션 파이프라인이란
RSS 피드에서 특정 키워드가 포함된 글들을 자동으로 수집하고 분류하는 시스템이에요. 마치 개인 비서가 인터넷을 돌아다니면서 관심 있는 글만 골라서 정리해주는 것과 같죠.
Python의 feedparser 라이브러리를 사용하면 RSS 피드를 쉽게 파싱할 수 있어요. 여기에 키워드 필터링 로직을 더하면 원하는 주제의 글만 골라낼 수 있고요.
RSS 소스 선정과 Reddit API 포기
처음엔 Reddit API도 사용하려고 했는데, 심사가 필요한 조건이라서 보류했어요. 대신 바로 사용할 수 있는 RSS 소스 3개로 시작했습니다:
- Hacker News: 개발자들이 많이 보는 기술 뉴스
- DEV.to: 개발 관련 블로그 플랫폼
- Product Hunt: 새로운 제품 런칭 정보
이 3개만으로도 하루에 15개 정도 AI 관련 글이 수집됐어요.
feedparser 기반 curator.py 개발
Python으로 curator.py 스크립트를 만들었어요. feedparser를 사용해서 각 RSS 피드를 읽어오고, 미리 정의한 키워드로 필터링하는 방식이에요.
기본 구조는 이렇습니다:
- RSS 피드 URL 목록 정의
- 각 피드에서 최신 글들을 가져오기
- 제목과 내용에서 AI 관련 키워드 검색
- 조건에 맞는 글들만 JSON 파일로 저장
실행은 간단해요. python curator.py 명령어 하나면 됩니다. Windows 인코딩 문제도 스크립트 내부에서 처리하도록 만들어뒀어요.
필터링 로직 개선 과정
초기 버전에서 몇 가지 문제점을 발견했어요:
① Substring 매칭 오류
“containers” 같은 단어에서 “ai”가 포함돼 있다고 잘못 인식하는 문제가 있었어요. 이건 정규식에 word boundary를 적용해서 해결했습니다.
② Summary 전문 검사의 부작용
RSS 피드의 요약 내용까지 모두 검사하니까 AI와 무관한 글도 많이 포함됐어요. 그래서 제목 기준으로만 필터링하도록 바꿨습니다.
③ 키워드 범위 확장
처음엔 “ai”, “machine learning” 정도만 사용했는데, claude, cursor, anthropic, gemini, llm, agent, rag, mcp 같은 구체적인 키워드들을 추가했어요.
개선 결과와 정확도
| 구분 | 개선 전 | 개선 후 |
|---|---|---|
| 수집 글 수 | 15개 | 12개 |
| 정확도 | 약 60% | 100% |
| 오탐률 | 6개/15개 | 0개/12개 |
▲ 필터링 로직 개선 결과 비교
수집되는 글 개수는 줄었지만, 12개 모두 실제로 AI 관련 글이라서 정확도가 크게 향상됐어요. 이제 RSS 큐레이션 파이프라인이 제대로 작동한다고 볼 수 있겠네요.
결과 저장과 파일 관리
수집된 데이터는 collected_YYYYMMDD.json 형식으로 자동 저장돼요. 날짜별로 파일이 분리되니까 나중에 특정 날짜의 뉴스를 찾기도 편하고, 데이터 관리도 깔끔해집니다.
JSON 파일 안에는 제목, 링크, 발행 시간, 요약 등이 구조화된 형태로 저장돼요. 이 데이터를 가지고 나중에 웹사이트를 만들거나 이메일 뉴스레터를 자동 생성할 수도 있겠죠.
다음 단계: 실제 활용성 검증
지금은 RSS 큐레이션 파이프라인의 기본 틀을 완성한 단계예요. 31일차에는 수집된 콘텐츠가 실제로 얼마나 유용한지, SEO 관점에서도 가치가 있는지 검증해볼 예정입니다.
특히 feedparser 공식 문서를 더 자세히 살펴보면서 고급 기능들도 활용해보려고 해요.
자주 묻는 질문
Q: RSS 피드가 없는 사이트는 어떻게 하나요?
A: 웹 스크래핑을 사용할 수 있지만, 법적 문제나 차단 위험이 있어서 RSS 피드가 있는 사이트를 우선적으로 사용하는 게 좋아요.
Q: 실행 주기는 어떻게 설정하나요?
A: 현재는 수동 실행이지만, cron job이나 GitHub Actions을 사용해서 자동화할 수 있어요. 하루에 2-3번 정도가 적당할 것 같네요.
생각보다 RSS 큐레이션 파이프라인 만들기가 복잡하더라고요. 특히 필터링 로직 개선하는 부분에서 시간이 많이 걸렸어요. 하지만 이제 매일 AI 뉴스를 찾아 헤맬 필요가 없으니까 시간이 많이 절약될 것 같아요.
썸네일 사진: Viktor Talashuk on Unsplash