米トランプ大統領のTwitter最新10件のつぶやきと日本語訳を同時に見ることが出来るサイトを作った。
Twitterのページ出力方法が変わったらしく、TwitterのサイトをHTMLソースコードで表示してもJavaScriptのタグしか吐き出されなくなった。もともとTwitterの規約ではスクレイピングは出来ないことになっている。それが理由なのかは分からないが、いろいろと規制が強化されているようだ。一応HTMLが見れないサイトのスクレイピングが可能なPythonライブラリrequest-htmlも使ってみましたが、それでも「Something went wrong, but don’t fret — let’s give it another shot.」とエラーが出力されうまくいきませんでした。
参考:https://twitter.com/ja/tos
[btn target=”_blank” href=”https://torisky.com/cgi/transTrump/” class=”raised main-bc strong”]トランプ大統領のTwitter日本語訳をみて見る[/btn]
※アクセスが若干不安定なため、「500 Internal Server Error」が出て表示できない場合があるかもしれません。
[box class=”box29″ title=”制作メモ”]
言語は、Python。
Pythonのページスクレイピングのパッケージであるbeautifulsoup4とGoogle翻訳をPythonから利用できるパッケージのgoogletransを利用させてもらった。
レンタルサーバ上で標準のPython3の利用は可能。しかし、Pythonパッケージであるbeautifulsoup4やgoogletransは使えなかった為、linuxbrewをレンタルサーバ上にインストール。linuxbrew上でPython3環境を構築後、各パッケージをインストールして実現できた。
プログラム自体は、非常に簡単です。(Pythonが凄いだけ!)
[/box]
参考ソースコード
GitHubにて公開
コメント