Twitterで画像を一括取得する方法です。
pythonでTwitter API v2を直接触ります。
1.前提
pythonの実行環境は各自で用意してください。私はjupyter notebookを使っています。
Twitter Developerの登録を済ませてBearer Tokenを取得していることを前提とします。
v1.1を使っていた人は、以下のリンクを参考にしてv2が使えるようになっているかを確認してください。
Twitter API V2を利用しようとしたらハマったこと | 日々機械的に考える
2.Recent searchの簡単なテスト
フリーで使えるRecent searchを使います。
きちんと認証して検索できているかを簡単にテストします。
Twitter-API-v2-sample-code/recent_search.py at main · twitterdev/Twitter-API-v2-sample-codeをアレンジしました。
import requests
import os
import json
#定数の設定
bearer_token = "YOUR_BEARER_TOKEN"
search_url = "https://api.twitter.com/2/tweets/search/recent"
query_params = {'query': '(from:twitterdev -is:retweet) OR #twitterdev','tweet.fields': 'author_id'}
#認証用の関数
def bearer_oauth(r):
r.headers["Authorization"] = f"Bearer {bearer_token}"
r.headers["User-Agent"] = "v2RecentSearchPython"
return r
#検索エンドポイントに接続してJSONを取得する関数
def connect_to_endpoint(url, params):
response = requests.get(url, auth=bearer_oauth, params=params)
print(response.status_code)
if response.status_code != 200:
raise Exception(response.status_code, response.text)
return response.json()
#JSON取得の実行
json_response = connect_to_endpoint(search_url, query_params)
print(json_response)
YOUR_BEARER_TOKENのところに自分のBearer Tokenをそのまま記載(ハードコード)するのが手軽です。セキュリティが気になる人は適当に処理してください。
うまくいっていれば、200というステータスコードと、JSON形式のauthor_id, id, textのデータが表示されます。
3.画像URLの取得
画像のURLを取得するためには、query_paramsを次のように設定します。
query_params = {'query': 'テスト has:images', 'expansions': 'attachments.media_keys', 'media.fields': 'url'}
expansionsとmedia.fieldsの両方を指定しなければなりません。リレーショナルデータベースのように、まずexpansionsでメディアのキー(ID)を取得して、そのキー(ID)からURLを取得しているのでしょう。この仕組みを理解するまでに数時間かかりました。
他の部分は上でテストしたときと同じです。
これで「テスト」というキーワードで検索して表示される直近のツイートのうちで画像があるものを検索し、そのURLが取得できます。「テスト」という部分を好きなワードに置き換えればそのワードで検索した結果を取得できます。
json_response['includes']['media'][0]['url']
のようにすればURLだけが得られます。
4.一括取得(ページネーション)
デフォルトでは1回の検索で最大10件の取得になります。’max_results’: 100を設定することでこれを100件にしましょう。
query_params = {'query': 'テスト has:images', 'expansions': 'attachments.media_keys', 'media.fields': 'url', 'max_results': 100}
結果が100件を超える場合は、JSONのmetaという部分に含まれるnext_tokenを利用します。
query_paramsにnext_tokenを設定すれば、その続きから結果を取得できます。
import requests
import os
import json
#定数の設定
bearer_token = "YOUR_BEARER_TOKEN"
search_url = "https://api.twitter.com/2/tweets/search/recent"
query_params = {'query': 'テスト has:images', 'expansions': 'attachments.media_keys', 'media.fields': 'url', 'max_results': 100}
#画像URLを格納するリストを作成
image_urls = []
#認証用の関数
def bearer_oauth(r):
r.headers["Authorization"] = f"Bearer {bearer_token}"
r.headers["User-Agent"] = "v2RecentSearchPython"
return r
#検索エンドポイントに接続してJSONを取得する関数
def connect_to_endpoint(url, params):
has_next = True
while has_next:
#APIを叩いて結果を取得
response = requests.get(url, auth=bearer_oauth, params=params)
#ステータスコードが200以外ならエラー処理
if response.status_code != 200:
raise Exception(response.status_code, response.text)
#responseからJSONを取得してループを回し、URLを追加していく
json_response = response.json()
for image in json_response['includes']['media']:
try:
image_urls.append(image['url'])
except:
pass
#次のページがあるかどうかを確かめ、あればquery_paramsにnext_tokenを追加
has_next = 'next_token' in json_response['meta'].keys()
if has_next:
query_params['next_token'] = json_response['meta']['next_token']
#実行
connect_to_endpoint(search_url, query_params)
#結果の確認
print(image_urls)
【Python】Twitter API V2 でツイートを取得する | SEのプログラミングと英語の勉強ブログを参考にさせてもらいました。
rate limitsの処理はしていません。
URLを取得できないというエラーが発生したことがあったので、その部分をtry節にしました。
うまくいけば画像のURLがずらっと表示されます。
あとはそれを好きなように使ってください。
浅野様
初めまして、初学者のtoshitaruというものです。
現在(2023/4/6 Japan 19:14)でこちらの記事を拝見させて頂きました。
●前提環境
前提として実行できるpythonの環境を作りました。
python3.8.11
└requests 2.26.0
└os default
└json5 0.9.6
●実行したこと
記事内のResentsearchを実行しました。
結果、403エラーになりました。
以下エラー文抜粋です。
403
~
Exception: (403, ‘{“client_id”:”26855609″,”detail”:”When authenticating requests to the Twitter API v2 endpoints, you must use keys and tokens from a Twitter developer App that is attached to a Project. You can create a project via the developer portal.”,”registration_url”:”https://developer.twitter.com/en/docs/projects/overview”,”title”:”Client Forbidden”,”required_enrollment”:”Appropriate Level of API Access”,”reason”:”client-not-enrolled”,”type”:”https://api.twitter.com/2/problems/client-forbidden”}’)
認証のエラーがでてしまいます。
以下和訳
Exception: (403, ‘{“client_id”: “26855609”, “detail”: “Twitter API v2エンドポイントへのリクエストを認証する場合、プロジェクトに接続されているTwitter開発者アプリのキーとトークンを使用する必要があります。プロジェクトは開発者ポータルから作成できます。”, “registration_url”: “https://developer.twitter.com/en/docs/projects/overview”, “title”: “クライアント禁止”, “required_enrollment”: “適切なレベルの API アクセス”, “reason”: “クライアント非登録”, “type”: “https://api.twitter.com/2/problems/client-forbidden” }’)
●要約
まとめると上記はこのようになります。
1.403
2.bearer_tokenのみでは認証が通らない?
3.適切なレベルのAPIアクセスではない
●質問
上記2点に加えて3を詳細にお聞きしたいです。
下記のように推測しています。
twitterAPI v2 freeでエンドポイントのアクセス権限がないのでしょうか、浅野様は、freeでやっていましたでしょうか、basic or enterpriseでやっていましたでしょうか?
こちらもしコメントに気づかれましたら、メール等でご回答いただけると幸いです。
また現在の状況を踏まえて新しいソースコードがあれば拝見させて頂きたいです。
toshitaru
このコメントを見てから改めて実験してみましたが、コードを変えずにそのまま実行できました。
bearer_tokenのみでは認証が通っています。
私がbearer_tokenを発行したときには、free, basic, enterpriseという区分ではなかったような記憶があります。課金はしていません。
以下の記事によると、最近twitterのほうで変更があったようです。
https://news.mynavi.jp/article/20230331-2641058/
これらを総合して考えると、今から新しくbearer_tokenを発行して利用する場合にはfreeでは駄目でbasic以上が要求される、過去に(課金なしで)発行したbearer_tokenは現在有効に機能している、ただしそれもいつまで続くかわからない、といったところでしょうか。
title: ご連絡ありがとうございます。
浅野様
ご連絡ありがとうございます。
https://news.mynavi.jp/article/20230331-2641058/
こちらの記事も拝見させて頂きました。
下記のように実験を元に状況を教えてくださりありがとうございました。
“今から新しくbearer_tokenを発行して利用する場合にはfreeでは駄目でbasic以上が要求される、過去に(課金なしで)発行したbearer_tokenは現在有効に機能している、ただしそれもいつまで続くかわからない”
こちらには、返信不要です。
また機会がありましたらご連絡させて頂きます。
toshitaru