크롤링, 인덱싱 그리고 검색 키워드의 처리작업으로 이어지는 검색엔진의 작동원리

검색엔진의 목적은 딱 한가지 입니다 – 검색 쿼리/키워드에 가장 적합한 결과물을 사용자에게 제공해주는것.
검색엔진이 사용자에게 가장 적합한 결과물을 가져다 주려면
1. 인터넷상의 수많은 문서들을 수집해야하고(크롤링)
2. 수집한 데이터를 검색엔진이 사용하기 쉽게끔 정리 및 분류하여 검색엔진 데이터베이스에 저장해(색인, 인덱싱) 둡니다.
3. 그리고 사용자가 검색어를 입력했을때 색인해둔 데이터를 사용해 입력된 검색어에 가장 적합한 문서들을 사용자에게 가져다 줍니다.(검색 키워드의 처리)

문서수집 작업(크롤링)

2011년 기준으로 인터넷상에는 2억5천만개 이상의 사이트가 존재하고있고 하루에도 수만개의 사이트가 새로 생기고 또 없어지곤 합니다.
검색엔진 크롤러(crawler, bot 또는 spider 라고도 합니다)가 이 수많은 사이트들을 찾아내어 수집하는 역할을 하고 있는데 여기서 중요한 것은 바로 사이트와 사이트를 연결하는 링크입니다.
크롤러는 링크를 타고 이 사이트에서 저 사이트로 옮겨다니며 지속적으로 문서를 수집해서 검색엔진 서버로 보내는 역할을 합니다.
만약 사이트에 연결된 링크가 없다면 크롤러 입장에서는 찾기 힘든 사이트가 되니 사이트 관리자 입장에서는 들어오는 인바운드 링크에대해 신경을 쓰셔야 합니다.
문서수집 작업은 말그대로 단순한 무작위적인 문서의 수집일뿐 이것이 검색결과에 영향을 미치지는 않습니다.
*크롤러는 공개되어 있는 사이트/문서만 수집할수 있습니다.
크롤러에 대한 사이트/문서의 공개 여부는 사이트의 robots.txt 파일을 이용하여 설정할수 있습니다.
이부분에 대해서는 robots.txt 파일과 meta robots 태그의 차이점을 참고하시기 바랍니다.

색인 작업(인덱스 작업)

크롤러가 공개된 문서를 수집한 후 수집된 내용을 검색엔진 인덱서(Indexer)에게 넘깁니다.
인덱서는 수집된 내용을 정리하고 분석하여 각각의 적합한 키워드에 맞게 분류해서 인덱스 서버에 색인해 둡니다.
이러한 색인작업은 사용자가 검색어를 입력했을때 빠르게 검색결과를 가져다주는 역할을 합니다.
*인덱서는 공개되어 있는 문서만 색인할수 있습니다.
인덱서에 대한 문서의 공개 여부는 각 페이지의 메타 태그(< meta robots=".....">)를 이용하여 설정할수 있습니다.
이 부분에 대해서는 robots.txt 파일과 meta robots 태그의 차이점을 참고하시기 바랍니다.

검색 키워드 처리작업

검색엔진은 사용자가 입력한 키워드를 복잡한 검색 알고리즘을 통해 걸러내어진 문서 리스트를 인덱스 서버로 넘기고 인덱스 되어있는 내용중 키워드가 포함된 일부분과 함께 검색결과 페이지로 내보내주게 됩니다.
문서의 순위를 정하기 위해서는 문서가 입력된 키워드와 얼마나 관련이 있는지 그리고 문서가 얼마나 중요한지 등을 판단하는 수많은 요소들이 작용을 하는데 구글의 경우 1년에 수백번 이상 크고작은 검색 알고리즘 업데이트를 하고 있습니다.
그렇다고 모든 알고리즘을 알필요는 없고 대표적인 요소들만 제대로 알고있어도 검색엔진 최적화에는 큰 무리가 없습니다.

* 위의 내용에서 보다시피 문서수집 작업(크롤링)과 색인작업(인덱스)은 서로 다른 두가지 작업입니다.
사이트 관리자가 사이트를 어떻게 설정하느냐에 따라 크롤링과 인덱스 모두를 허용하거나 막을수 있으며 크롤링은 허용하되 인덱스는 막을수도 있고 반대로 크롤링은 막되 인덱스는 허용할수 있습니다.
자세한 내용은 robots.txt 파일과 meta robots 태그의 차이점을 참고하시기 바랍니다.

관련글 모음

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>