검색엔진 최적화의 기본 : 검색엔진의 인덱스 방지기능 (robots.txt파일과 메타 태그)



검색엔진 최적화에 반드시 필요한것은 아니지만, 기본적으로 알아두시는게 좋습니다.


robots.txt은 로봇 제외 표준이라 불리며, 검색엔진 봇들로 하여금 사이트의 전체, 또는 특정부분의 접근을 제한하게 만드는 역할을 합니다.

robots.txt파일은 검색엔진 봇들로 하여금 어떤 디렉토리는 인덱스가 가능하며, 어떤 디렉토리는 인덱스를 해서는 안된다는 것을 알려줍니다.

검색엔진 봇들 또한 특정 사이트를 방문했을때, 이 robots.txt파일을 제일 먼저 찾게되며, 이 파일에 쓰여있는 내용에 대하여 절대 복종합니다.

robots.txt파일이 없어도 크게 상관은 없습니다.
검색엔진 봇은 모든것을 허용한다는 의미로 받아 들입니다.


기본적으로 robots.txt파일은 최상위 디렉토리에 위치합니다.
예) http://www.bmlee.com/robots.txt


robots.txt파일의 생성

어려운거 하나도 없습니다.
그냥 메모장 하나 열어서

사용자 삽입 이미지


위와같이 작성한 다음, 그냥 업로드 하면 끝입니다.




User-Agent: [스파이더 또는 봇(bot)의 이름]
Disallow: [제외할 디렉토리 또는 파일의 이름]



예를들어 모든 검색엔진 봇을 나타내려면 User-Agent: 뒤에 '*'를 입력합니다.
그리고 제외할 디렉토리또한 아무것도 없을때엔 :

User-Agent: *
Disallow:



반대로 어떠한 검색엔진도 자신의 사이트를 인덱스 하지 못하게 할경우 :

User-Agent: *
Disallow: /

(조심해야 합니다. '/'하나를 붙이느냐 떼어내느냐에 따라 결과는 정 반대가 됩니다.)



특정 디렉토리와 파일을 제외시킬때 :

User-Agent: *
Disallow: /admin
Disallow: /images
Disallow: /secret.html



특정 검색엔진으로 하여금 인덱스를 금지 시킬때 :

User-Agent: Googlebot
Disallow: /admin
Disallow: /images
Disallow: /secret.html



구글봇으로 하여금 인덱스를 하게 하되 네이버봇으로 하여금 특정 디렉토리와 파일 인덱스를 금지 시킬때 :

User-Agent: Googlebot
Disallow:
User-Agent: Naverbot
Disallow: /admin
Disallow: /images
Disallow: /secret.html




특정파일의 로봇 인덱스 금지를 메타태그로 컨트롤 할수도 있습니다.

< meta name="robots" content="index,follow">
(모든 로봇들이 허용되며 링크를 따라가도됨)

또는

< meta name="robots" content="noindex,follow">
(모든 로봇들이 인덱스는 하지말되 링크는 따라가게 만듬)

또는

< meta name="robots" content="index,nofollow">
(모든 로봇들이 인덱스는 하되 링크는 따라가지 못하게 만듬)

또는

< meta name="robots" content="noindex,nofollow">
(모든 로봇들이 인덱스도 허용되지 않으며 링크또한 못 따라가게 만듬)

< meta name="revisit-after" content="7 days"> (7일 후에 다시 방문할것)

위와같이 메타태그를 < head>와 < /head>사이에 끼워놓으면 됩니다.

name의 'robots'는 모든 검색엔진 봇을 의미하며, 특정 검색엔진만을 나타낼때에는 Googlebot, Msnbot, Naverbot과 같이 특정 봇의 이름을 써주시면 됩니다.
content의 'index' 또는 'noindex'는 인덱스를 하느나 마느냐,
'follow'는 페이지 내에 있는 링크들을 따라 가느냐 마느냐를 나타냅니다.

'follow'의 기능은 각각의 링크에서도 컨트롤이 가능합니다.
예를 들에 자신의 페이지에 < a href=http://www.bmlee.com/>이병무의 개인 홈페이지< /a>라는 링크가 있을때, 로봇들이 이 링크를 따라가는것을 원치 않는다면
< a href=http://www.bmlee.com/ rel="nofollow">이병무의 개인 홈페이지< /a>
위와 같이 rel="nofollow" 를 < a> 태그안에 넣어주시면 됩니다.



참조 : http://www.robotstxt.org/
이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by 평상심

트랙백 보낼 주소 : http://www.seo-korea.com/trackback/6 관련글 쓰기

댓글을 달아주세요

  1. M
    2007/10/03 05:22
    댓글 주소 수정/삭제 댓글
    여러 사이트를 만지다 보니, 참 여러개의 예측 불가한 상황이 많이 생기더군요. 때문에 어쩌면 이 SEO는 분명 여러 분야에 다양한 지식이 필요할 것이라는 생각이 듭니다.
    지난번에 한 사이트의 경우에는 사이트맵을 제출했는데도 에러가 떠서 한참을 고민하다 보니, 전에 제작하신 분이 robots.txt 파일을 올려두어서 인덱싱을 막고 있더군요. 후후.. 덕분에 고생좀 했습니다. 이것이 다시 사라지는데도 하루가 걸리구요.

    이번에 한 사이트의 경우에도 잘 되겠지 하고 확인하니, 인덱싱이 안되고 있습니다. 구글에서 사이트 인증을 받으려고 해도
    [확인 상태: 확인되지 않음
    마지막으로 2007-10-3에 시도됨: 서버 시간 초과로 인해 귀하의 파일을 확인할 수 없습니다.]
    라고 뜨는군요.
    혹시나 해서 robots.txt와 메타태그에서 허용되게 조치를 취했습니다만..

    webmasters tool의 도구 robots.txt의 분석을 보니,
    <html>
    <head>
    <title>�� ���̳����� %ȣ���� ��</title>
    <meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
    <style>
    body,td {font-family:Verdana,����; font-size:9pt; color:#434950}
    .title_01 {font-family:Verdana,����; font-size:11pt; color:#434950}
    .title_02 {font-family:Verdana,����; font-size:8pt; color:#434950}
    </style>
    </head>

    <body bgcolor="#FFFFFF" text="#000000">
    <br>
    <table width="600" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td width="40"><img src="http://error.uhost.co.kr/stop/images/dns-info.gif" width="40" height="41"></td>
    <td width="20">&nbsp;</td>
    <td class="title_01">HTTP 404 - ����; ã; �� ��=</td>
    </tr>
    </table>

    <br>

    <table width="600" border="0" cellspacing="0" cellpadding="0" bgcolor="#6699CC">
    <tr>
    <td valign="top" height="3"></td>
    </tr>
    </table>

    <br>
    <br>

    <table width="600" height="25" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td width="10">&nbsp;</td>
    <td width="70">- �߻� ��/</td>
    <td width="10">:</td>
    <td width="10">&nbsp;</td>
    <td>��û�Ͻ� ������ ��4ϴ�. �ʱ������� �ִ��� Ȯ�� ��Ź�帳�ϴ�.<br>�ʱ����ϸ�: index.html�Դϴ�.</td>
    </tr>
    </table>

    <TABLE height="10"><TR><TD></TD></TR></TABLE>

    <table width="600" height="25" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td width="10">&nbsp;</td>
    <td width="70">- �ذ� ���<br><br></td>
    <td width="10">:<br><br></td>
    <td width="10">&nbsp; </td>
    <td>�ڼ��� ����: "<A HREF="http://hosting.inames.co.kr/customer/Counsel.do?method=formRegist" target="_new">���̳����� %ȣ����</a>"�� ������ �ֽñ� �ٶ�ϴ�.</td>
    </tr>
    </table>

    <TABLE height="10"><TR><TD></TD></TR></TABLE>

    <table width="600" height="50" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td width="10">&nbsp;</td>
    <td width="70">- ���� d��</td>
    <td width="10">:</td>
    <td width="10">&nbsp;</td>
    <td>��ȭ : 02) 559-1004(����2)</td>
    </tr>
    <tr>
    <td width="10">&nbsp;</td>
    <td width="70">&nbsp;</td>
    <td width="10">&nbsp;</td>
    <td width="10">&nbsp;</td>
    <td>���� : <A HREF="mailto:hosting-faq@inames.co.kr?subject=[d�� ����]">hosting-faq@inames.co.kr</A></td>
    </tr>
    </table>

    <br>
    <br>

    <table width="600" border="0" cellspacing="0" cellpadding="0" bgcolor="#6699CC">
    <tr>
    <td valign="top" height="1"></td>
    </tr>
    </table>

    <table width="600" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td valign="top" height="5"></td>
    </tr>
    </table>

    <table width="600" border="0" cellspacing="0" cellpadding="0">
    <tr>
    <td width="40"><img src="http://error.uhost.co.kr/stop/images/logo.gif" width="60" height="24"></td>
    <td width="10">&nbsp;</td>
    <td valign="bottom" class="title_02">Copyright �� INAMES Co., Ltd. All rights reserved. </td>
    </tr>
    </table>
    </body>
    </html>

    라고 되어 있더군요. 그럼 이경우에는 아이네임즈에서 미리 robots을 설치해 두어서 그런건지요..흠..
    물론 현재는 다른 robots.txt를 인덱싱되도록 해서 올렸습니다.
    부족한 저로서는 알길이 없군요.. 간단한 조언이라도 부탁드립니다.
    • 2007/10/03 18:00
      댓글 주소 수정/삭제
      저도 이런 경험이 분명 있습니다.
      똑같은 에러메세지를 받았죠. (서버 시간 초과로 인해...)
      해결책은 못찾았었지만요..
      사이트의 html코드내의 meta태그는 아무런 에러도 없고 robot.txt 파일 또한 아무런 에러가 없었는데도 불구하고 구글 웹마스터툴에서 안먹히는 경우가 있었습니다.
      그 당시(2004년) 제 호스팅은 웹호스트.co.kr의 웹제로라고 만원짜리 싸구려 호스팅이었는데, 아무리 호스팅업체에 문의를 해봐도 뭐가 잘못됐는지 모르더라구요.
      구글 웹마스터툴이 뭔지도 모르던데요..
      그런건 뭐하는데 쓰냐고 되묻더라구요.
      어째튼 해결책을 찾지 못해서 그냥 호스팅을 확 바꿔버렸더니 그때부터 웹마스터툴에 제대로 등록할수 있었습니다.
      님께서 robot.txt와 메타태그를 잘 작성했는데 인덱스가 안돼는건 호스팅의 문제일듯 싶습니다.

      나중에 알게된 일이지만 webhost.co.kr(웹호스트)의 호스팅 서버는 한국에 있었는데(조금 비싼 서비스), 제가 쓰던 만원짜리 호스팅 웹제로는(웹호스트의 싸구려 호스팅서비스) 서버가 중국에 있더라구요.
      아마도 redirecting 같은거 때문에 안됄수도 있다고 생각하는데.. 확실치는 않습니다.
      호스팅을 한번 바꿔보세요.
  2. M
    2007/10/03 22:38
    댓글 주소 수정/삭제 댓글
    ㅎㅎ, 역쉬 노하우에서 따라 갈 수가 없군요.
    내부적으로 논의를 하고 웹호스팅 업체에 연락을 취했습니다.
    평상심님이 지적하는 것이 정확한 것 같습니다.
    일반적으로 없는 페이지의 경우 에러페이지가 뜨는데, 이 업체의 경우 인위적으로 404에러 페이지를 보여주더군요. 문제는 이 경우 자체 도메인내에서 에러페이지를 보여주는 것이 아니라, 서버 셋팅을 통해서 리디렉트를 자신내 페이지로 돌려버리는군요.
    이 때문에 발생한 것으로 추측됩니다만.. 아무도 모릅니다.
    답변 감사하드리며, 웹호스팅을 이전을 촉구해야 되겠군요.^________^
    • 2007/10/08 16:29
      댓글 주소 수정/삭제
      하하.. 노하우라 할거까지 있나요..
      하루빨리 문제가 해결되길 바랍니다.

<< PREV : [1] : ... [14] : [15] : [16] : [17] : [18] : [19] : [20] : [21] : [22] : ... [23] : NEXT >>

BLOG main image
검색엔진 최적화에 대한 모든것!!! by 평상심

카테고리

분류 전체보기 (23)
사이트내 최적화 (7)
사이트외 최적화 (2)
검색엔진 최적화 팁 (11)
검색엔진 최적화를 위한 CSS (1)
기타등등 (2)