ウェブアーカイブについての覚書

ページ名:ウェブアーカイブについての覚書

マイティー問題にこだわらずアーカイブを辿る上で一般的に役立つと思われる事項を挙げていく。

アーカイブサイトの種類

archive.today

サイト運営者がはっきりしておらず謎が多いサイト。

メリット

  • 一部のウェブサイトでは、閲覧するためにログインを要するようなページであってもarchive.today側が用意したアカウントでログインしてアーカイブすることができるようである(Facebook, Linkedin等)。
    • X(旧Twitter)は現在非対応となってしまったようである(かつては可能だったようだ(資料)が、現在は非ログイン状態でアーカイブされている。このためいいね欄のアーカイブに失敗してしまう)。
  • YouTubeのコメント欄の「続きを読む」は展開したうえでアーカイブされるようだ。
  • 権利者からの削除要請に応じないことが多いとされる。
  • アステリスク記号(ワイルドカード)を用いたアーカイブ検索機能
  • シンプルなUI

デメリット

  • 2024年現在、X(旧Twitter)やYouTubeのアーカイブに失敗する事例が目立つようになってきている(アーカイブ処理の画面が長時間ループした後でNot Found (yet?)などと表示される)。

Wayback Machine

米カリフォルニア州の非営利団体のインターネットアーカイブが運営するサイト。

メリット

  • クローラーによる巡回と手動によるURLの入力の両方でアーカイブされる。
  • 視覚的で見やすいAI
  • Save Outlink機能によりリンク先のURLも保存可能
  • URLsタブから同ディレクトリ内のアーカイブファイルを探索できる

デメリット

  • 動作が重め
  • YouTubeのコメント欄の保存に問題を抱えている。
  • ページによってはアーカイブでのみ読み込みが無限ループするような場合がある(ユーザ側でjavascriptをオフにする必要がある)

ウェブ魚拓

株式会社アフィリティーが運営するWebサイト。

メリット

  • 動作は軽い方だと思われる

デメリット

  • 最近X(旧Twitter)のアーカイブの調子が悪い
  • アーカイブの検索機能が弱め

検索エンジンGoogleのcache機能

Chromeブラウザ等でURLの先頭にcache:を付加することでサイトの以前の状態を閲覧できる場合がある。

メリット

  • リンク先のコンテンツが消えて間もない場合に役立つことがある

デメリット

  • しばらくするとアーカイブが破棄される
  • 2024年現在Googleはこの機能を廃止予定である\

ノウハウ集

URL変更関連

YouTube

YouTubeチャンネルのURLはチャンネルIDのものとYouTubeハンドルのものとがサポートされている。古いアーカイブはチャンネルIDでアーカイブを探す必要がある。

上のリンクがチャンネルID、下のリンクがYouTubeハンドルである。

X(旧Twitter)

XのURLがtwitter.comからx.comへと変更になる見込みである。

YouTubeライブ配信のチャット欄のアーカイブ

言論統制の証拠保全のためにライブ配信やプレミア公開のチャット欄をアーカイブしたいという需要は一定数あるものと思われる。ただし、ライブ配信後にあってはチャット欄を上記の方法でアーカイブすることは不可能である。またチャットのリプレイ自体をオフにしてしまう可能性も考えられる。

一方、現にライブ配信中の場合はチャット欄をアーカイブすることが可能である。しかし、アーカイブサイトは同一URLの取得にはある程度インターバルを置くように求めていることが通常である。言論統制がリアルタイムで行われるような状況においてはタイミングを逃さないことが非常に重要であるから、このような制約は証拠保全にとって足かせとなる可能性がある。

この場合、URLに適当なクエリ文字列を付すことで、実質的に同一URLのアーカイブの取得が可能な場合がある。※archive.todayとYouTubeとの相性悪化でこの方法は使いにくくなった可能性がある。

YouTubeのコメント欄のアーカイブ

アーカイブで保全されるコメント数には限界がある。場合によってはコメント欄をスクロールして下のほうにあるコメントをアーカイブしたいというケースも考えられるところである。

これについては、YouTubeについたコメントの真横のタイムスタンプをクリックすると、コメントにフォーカスしたURLが取得可能であり、当該URLをアーカイブすることによって実現することができる。※archive.todayとYouTubeとの相性悪化でこの方法は使いにくくなった可能性がある。

X(旧Twitter)のポストを時系列順に表示してアーカイブしたい

非ログイン状態だとX(旧Twitter)のプロフィールページでポストが謎の順序で表示され、それがアーカイブされてしまう(資料)。

これは、いったん検索エンジンGoogleのcache:機能で表示し、これをアーカイブすることで時系列順に表示できる。なおarchive.todayの場合、"archived via"の欄に表記されている通り、アーカイブ元が同一であることを把握したうえでアーカイブされるので、検索に支障が出ない。

注意点として、Googleのcache:機能はアーカイブ元となるサイトの更新が反映されるまでに時間がかかることが挙げられる。また、先述の通りGoogleはcache:機能の廃止を予定しているものとみられる。

シェアボタン: このページをSNSに投稿するのに便利です。

コメント

返信元返信をやめる

※ 悪質なユーザーの書き込みは制限します。

最新を表示する

NG表示方式

NGID一覧