ガラクタのすみか

個人サイトのあれそれ

個人サイトそのものを広げすぎないようにしたり、コンテンツを守るための設定とかなんやかんやです。

今回は自分のサイトとそのコンテンツを守るための一手間について解説します。

1.検索クローラー避け
方法は様々ですが、検索避けしたいページ全てにクローラー避けのタグを追記するのが簡単です。

<head>
<meta name="robots" content="noindex,noarchive,nofollow,noimageindex">
</head>

このように記述します。最近のサイトはベタ打ちは少ないので、そんなに手間にならないかな……?

2.AI学習のクローラー避け
こちらではrobots.txtを用いてクローラー避けを行います。

テキストエディタでrobots.txtを作成し、中身をこのように記述します。

User-agent: GPTBot
Disallow: /
‍User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
‍User-agent: anthropic-ai
Disallow: /
‍User-agent: Claude-Web
Disallow: /
‍User-agent:  CCBot
Disallow: /

クローラーはこれらが全てではないので暫定の設定です。クローラーが出現したら追記していくようにしましょう。
完成したらクローラーをブロックしたいサイトの一番上層のディレクトリ(一般的にはindex.htmlがある場所)にあげておけば少しは安心です。

3.コピーガード
特に小説作品はコピーで簡単に持ち出せてしまうので、コピーガードを施すことで無断転載を防ぎやすくなります。ついでに右クリック禁止も実装しときましょう。コピーされたくないコンテンツにタグを設定します。

<div onCopy="alert('コピー禁止'); return false;" onContextmenu="return false;">
この部分はコピー禁止になります。
</div>

ちなみにdivタグじゃなくても効きます。
CSSでも実装できますが、個人的にはこっちのほうが小回りが効いておすすめです。

4.直リンク禁止
直リンクされるとサーバーが重くなったりして、特にスペックが低めのサーバーだと困ったりしますよね。というわけでコンテンツへの直リンクを不可能にします。これは.htaccessで実装します。

テキストエディタで.htaccessファイルを作り、中に記述します。
SetEnvIf Referer "^https://www\.example\.com" mysite
Order Deny,Allow
Deny from all
Allow from env=mysite

※\はバックスラッシュです!!
https://の前に^をつけること、.の前にバックスラッシュを必ず入力することを守ってください
できたら直リンクを禁止したいファイルがあるディレクトリにアップロードしたらおしまいです。

これらの情報はそれぞれ探せばでてくるのですが、まとまった情報ってあまりないなと思って書きました。
このサイトもコピー禁止にしてるので、以下のサイト様から引用していただければと思います。

参考サイト様
do 生成AIに作品を学習されたくない!個人サイト展示物をAI学習から保護する方法 https://do.gt-gt.org/save-my-work-from-a...
do 【目的別】検索避けのやり方!創作・同人サイトのトラブル対策の強い味方【無断転載対策】 https://do.gt-gt.org/avoid-searching/
市川市のホームページ制作会社 文字をコピーできなくする・コピペ禁止にする方法【html css】 https://www.aya-kikaku.work/3964/
RishunTranding 直リンクを禁止・防止する方法 https://rishuntrading.co.jp/blog/seo/den...