깃허브 액션으로 넷플릭스 트윗봇 만들기

예전부터 자동으로 응답을 해주는 카톡봇이나 자동으로 트윗을 해주는 트윗봇을 만드는 프로젝트를 하고 싶었는데 어떤걸 만들면 좋을지 몰라 미뤄두고 있었다. 그런데 얼마전에 다음에서 넷플릭스 상영 예정작을 알려주는 페이지를 만든걸 보고 일주일에 한 번씩 넷플릭스 상영 예정작을 트위터 자동봇으로 만들면 편할 것 같아서 한 번 만들어 봤다. 실제로 작동하는 트위터 계정은 https://twitter.com/DevLeelee 여기서 확인을 할 수 있다.

프로젝트 구조

간단한 리액트 프로젝트나 이것처럼 주기적으로 스케쥴링이 되기만 하면 프로젝트는 깃허브 액션을 쓰면 충분하다 판단이 되어 이번에는 깃허브 액션만 이용하고 서버리스로 구현을 했다. 프로젝트의 전반적인 플로우는 아래의 그림과 같다.

twitter flow

dev stack

stack info
Backend language python
Backend api twitter api
Server server less
Scheduler github action

resource stack

stack info
twitter api https://developer.twitter.com/en/docs/twitter-api/v1
tweepy lib https://docs.tweepy.org/ko/latest/api.html
daum netflix https://movie.daum.net/premovie/netflix?flag=Y

이 프로젝트를 통해 처음으로 트위터 api를 써봤는데 생각보다 문서가 보기 어렵게 되어있었다. 원래는 직접 api를 사용하려고 했는데 이번에는 tweepy 파이썬 라이브러리를 사용했다. 다음번에는 공연중인 뮤지컬/연극을 자동트윗하는 트윗봇을 만들려고 하는데 그때는 직접 api를 쓸 예정이다.

트위터 api와 tweepy로 트윗하기

트위터 api 계정을 만들고 대시보드에 들어가면 총 네개의 인증키를 받을 수 있다. 현재 트위터 api에서는 Oauth1, 2와 기본인증법 여러개의 인증을 지원하기 때문에 사용할 인증법을 선택해주면 된다. 트위터 auth에 대한 더 자세한 사항은 여기서 확인이 가능하다. https://developer.twitter.com/en/docs/authentication/overview

발급되는 키는 아래와 같다.

  1. Api key
  2. Api key secret
  3. Bearer Token
  4. Access Token Secret

이번 프로젝트에서는 tweepy 를 사용하고, access token 자체를 이미 저장해둬서 인증을 쉽게 끝낼 수 있었다. 만약 access token을 저장하지 않으면 tweepy가 지원하는 Oauth1또는 Oauth2 방식으로 인증을 하게 된다. tweepy 공식 문서를 보면 더 자세히 알 수 있다. https://docs.tweepy.org/en/latest/auth_tutorial.html

tweepy 라이브러리 인증 구현 코드

tweepy를 사용해서 인증받는 코드

def OAuth():
        api_key = os.environ.get('TWITTER_API_KEY')
        api_key_secret = os.environ.get('TWITTER_API_SECRET')

        access_token = os.environ.get('TWITTER_ACCESS_TOKEN')
        access_token_secret = os.environ.get('TWITTER_ACCESS_TOKEN_SECRET')

        auth = tweepy.OAuthHandler(api_key, api_key_secret)
        auth.set_access_token(access_token, access_token_secret)
        return auth
    except Exception as e:
        return None

def post_tweet(container: dict, date):
    print('work calling')
    oauth = OAuth()
    api = tweepy.API(oauth)
    _current_dir = os.path.dirname(os.path.abspath(__file__))
    _path = Path(_current_dir)

    BASE_DIR = _path.parent.absolute()
    IMG_DIR = f'{BASE_DIR}/img/netflix/{date}'
    for key in container:
        tTitle = key
        tFile = f'{IMG_DIR}/{tTitle}.png'
        reTitle = regex.change_hyphen(tTitle)

        tweet_format = f'[{reTitle}]\n 공개 여정일:{container[key]}'
        api.update_with_media(tFile, status=tweet_format)

github action secret with python

실제 사용 코드를 보면 ‘TWITTER_API_KEY’, ‘TWITTER_API_SECRET’ 등 environ 을 이용해 환경에서 받아온 변수들이 있다. 트위터 api를 사용하려면 여러개의 인증키가 필요한데 코드를 프라이빗 repo로 올려도 되지만 github action secret 으로 인증키들을 등록하는 방법을 선택했다.


깃허브 공식 가이드에 secret을 등록하는 방법이 나와있다. 따라해보다 보면 사진처럼 repo에 노출하지 않아도 사용할 수 있는 secret key들이 만들어진다.

git secret

key 까지는 잘 등록을 했는데 github action에서는 어떻게 써줘야 하고, 실제 돌아가는 코드인 파이썬에서는 어떻게 접근을 할 수 있는지 몰랐는데 간단하게 1) 액션을 등록할 때 secret을 넘겨주고 2) 실행시에 코드로 환경변수에 접근해서 3) 받아오면 사용을 할 수 있었다. 자바에서 main 실행할 때 args들을 주고 실행을 하면 코드단에서 받아오는 것과 완전 동일한 개념이었다.


스텍 오버 플로우에 있는 이 답변을 레퍼런스로 코드를 만들었다. 중요한 점은 secret으로 등록한 키들을 파이썬을 실행하는 스크립트를 작성한 후에 던져주는 것이었다. 반대로 할 경우에는 환경변수에 접근을 할 수 없다.

github action workflow

깃허브에서는 액션을 등록하기 위해서는 yml로 스크립트를 작성해야 한다. 그 스크립트 안에는 한 작업이 아니라 여러가지 작업이 하나씩 순서대로 처리가 되는데 그래서 액션을 등록하는 파일 이름을 workflow라고 하는 게 아닐까? 액션을 성공적으로 실행시키기 위해서는 이 workflow 스크립트를 잘 짜는 것이 제일 중요하다. 또 액션이 update (commit) 마다, 스케쥴링에 따라 실행이 되기 때문에 결과를 확인하기 위해서는 짧아도 1~2분 정도는 기다려야 해서 여러번 수정하다보면 많은 시간을 소비하게 된다.

# This workflow will install Python dependencies, run tests and lint with a single version of Python
# For more information see: https://help.github.com/actions/language-and-framework-guides/using-python-with-github-actions

name: Netflix_Crawl

    - cron: '0 0 * * Sat'
    branches: [ master ]
    branches: [ master ]


    runs-on: ubuntu-latest

    - uses: actions/checkout@v2
    - name: Set up Python 3.9
      uses: actions/setup-python@v2
        python-version: 3.9
    - name: Install dependencies
      run: |
        python -m pip install --upgrade pip
        pip install flake8 pytest
        if [ -f requirements.txt ]; then pip install -r requirements.txt; fi
    - name: Lint with flake8
      run: |
        # stop the build if there are Python syntax errors or undefined names
        flake8 . --count --select=E9,F63,F7,F82 --show-source --statistics
        # exit-zero treats all errors as warnings. The GitHub editor is 127 chars wide
        flake8 . --count --exit-zero --max-complexity=10 --max-line-length=127 --statistics
    - name: Run netflix crawler with python 
      run: |
        python3 "./crawl/netflix.py"
    - name: Commits
      run: |
        git config --local user.email "absinthe4902@naver.com"
        git config --local user.name "AUTO_ADD_GIT_ACTION"
        git add .
        git commit -m "AUTO ADD: commit downloaded image"
    - name: Push
      uses: ad-m/github-push-action@master
        branch: 'master'
        github_token: $ 
    - name: Tweet for final 
      run: |
        python3 "./crawl/tweeting.py"
        TWITTER_API_KEY: $

매주 토요일 00:00시에 스케쥴러가 돌아가도록 작성했는데 시간대의 기준은 UTC이다. 스크립트의 workflow를 간략히 요약하면

  1. 파이썬 실행을 위해 플라스크와 requirements.txt 속의 라이브러리들을 설치
  2. 상영 예정작 정보가 있는 사이트 크롤링
  3. 크롤링한 이미지들을 저장하기 위한 commit/push
  4. 실제로 트윗을 하는 파이썬 코드 실행

이다. 아까 스택오버플로우에서 말한 것처럼 환경변수는 파이썬 실행 후 넘겨주고 있다. 제일 헤매던 부분은 프로젝트에서 파이썬 코드가 있는 디렉터리를 찾는 부분이었다. 예를 들어 crawl 디렉터리 안에 있는 netflix.py를 실행할 때 동일한 디렉터리 안에 있는 유틸성 파일 regex.py를 찾지 못했다. 액션은 repo를 기준으로 동작하기 때문에 current dir가 repo였던 twitter_project였을텐데 무슨 이유로 다른 파일들을 찾지 못했는지 모르겠다. 여러번의 수정을 거친 다음에 ./crawl/netflix.py 로 실행을 하니 정상적으로 작동을 했다.

프로젝트의 더 자세한 코드는 https://github.com/leeleelee3264/twitter_project 에서 확인이 가능하다.

실제 동작 화면

twitter flow

다음 프로젝트 기획

  • 똑같이 twitter api를 사용
  • 현재 한국에서 공연 하고 있는 연극과 뮤지컬을 알려주는 자동봇
  • tweepy를 사용하지 않고 직접 구현하기
  • 최소한 인증을 받는 부분이라도 구현하기 (oauth 공부)
  • 동일하게 server-less로 git action 사용