본문 바로가기

From Others/블로그와 SEO

블로그를 세상에 알려주는 크롤링과 색인

이번 포스팅에서는 검색엔진의 크롤링 (crawling)과 색인 혹은 인덱싱 (indexing) 작업에 대한 기본적인 내용들을 알아봅시다. 이들은 블로그의 존재를 알리기 위한 필수적인 과정이기 때문에, 정보 공유를 목적으로 블로그의 글을 작성하는 분들이라면 크롤링과 색인의 개념에 대해 친숙해질 필요가 있습니다.

 

반응형

 

추가로 구글, 네이버, 다음, 마이크로소프트 빙 등의 주요 검색엔진에 노출되기 위해 크롤링과 색인을 요청하는 방법에 대해서도 짚어보겠습니다.

 

크롤링과 색인의 개념

지인이나 SNS 커뮤니티 등을 통해서 블로그를 알리는 경우라면, 포스팅의 URL 주소나 링크만 걸어주면 직접적으로 유입이 가능합니다. 하지만 검색을 통한 유입은 이보다 좀 더 복잡한 과정을 거치게 되는데요. 방문자가 가진 궁금증이나 문제와 관련된 단어를 검색창에 입력했을 때, 검색 결과 리스트에 블로그의 포스팅이 노출이 되어야 방문자가 그 존재를 알고 들어올 수 있습니다.

 

방문자가 검색창에 입력한 키워드들과 블로그 포스팅의 내용이 관련이 있어야 검색결과에 노출을 시켜줄텐데, 이를 확인하기 위해서는 검색엔진이 해당 포스팅의 내용을 알아야 할 필요가 있죠. 그래서 크롤러 (crawler) 혹은 크롤링 봇이라고 불리는 프로그램을 이용해서 블로그의 글을 수집하게 되고 이것을 크롤링이라고 합니다. 흔히 검색엔진에서 긁어간다고 표현하기도 하죠.

 

크롤링 작업은 검색엔진들이 개별적으로 하기 때문에, 검색엔진들은 각자의 크롤러를 가지고 있습니다. 대표적으로 네이버에는 예티 (Yeti)라는 이름을 가진 크롤러가 있고, 마이크로소프트 크롤러는 빙봇 (Bingbot)이라는 이름을 가지고 있죠. 구글이 개인 블로그의 포스팅을 수집할때는 구글봇 스마트폰 (Googlebot smartphone)이라는 크롤러를 사용합니다. 구글이 모바일 웹 환경을 중요시한다는 점이 드러나는 부분입니다.

 

검색엔진에서 웹사이트을 수집하고 나면, 그 내용을 바탕으로 검색결과에 노출을 시켜줄지 여부와 관련 키워드들을 결정하게 되는데요. 이것이 색인이라는 과정이고 영어단어 그대로 인덱싱이라고도 부릅니다. 색인 과정은 글에 포함된 키워드들과 문장구조 및 이미지 등을 바탕으로 이루어지는데요. 새로 생성되는 온라인 문서들을 사람이 모두 처리하기는 불가능하므로, 이것 역시 컴퓨터 프로그램에 맡기게 됩니다.

 

블로그의 일부 포스팅들은 크롤링이 되었지만 색인이 되지 않는 경우가 있는데, 여러가지 원인이 있습니다. 다른 블로그나 웹사이트에 있는 글을 짜깁기해서 글을 쓰게 되면, 표절 검사 프로그램과 비슷한 방식으로 체크를 했을 때 유사문서로 찍히고 색인이 안될 가능성이 있습니다. 글을 직접 쓴 경우에도, 방문자에게 별로 도움이 안될 것 같은 글이라고 판단되면 색인에서 누락이 될 수 있죠. 짧은 일상글을 쓰면 이렇게 되는 경우가 많다고 합니다.

 

모든 검색엔진들은 색인 여부를 결정하기 위한 복잡한 알고리즘을 가지고 있으며, 일반적으로 이를 공개하지 않습니다. 이를 공개하는것 자체가 또 다른 꼼수와 어뷰징을 위한 여지를 만들어주는 것이기 때문이죠. 그래서 검색결과에서 누락되었다거나 하는 경우에 문의를 해도, 자세한 답변을 듣기는 어렵습니다.

 

마지막으로 짚고 넘어갈 점이 있다면, 검색엔진에 색인이 되는것과 검색결과 상위 노출은 별개라는 것입니다. 검색결과에 노출되는 순위는 글의 내용이 얼마나 좋은지, 방문자들이 블로그의 글을 읽으면서 얼마나 오랫동안 머무는지 등의 다양한 요인으로 인해 결정되고, 시간에 따라 변하는 경우도 있습니다. 웹사이트 접속 속도 또한 중요한 변수죠.

 

참고로 검색엔진에서만 크롤러를 운용하지는 않습니다. 프로그래밍이 가능한 사람이라면 개인적으로 크롤러를 만들수도 있습니다만, 컨텐츠 도용을 목적으로 다른 웹사이트를 크롤링 하는 정신나간 경우도 있는데요. 남의 컨텐츠로 부당한 이익을 취하게 되면 법적으로 책임질 일이 생길 수 있습니다.

 

무단 크롤링이 불법으로 판단된 사례

 

대법원 "웹사이트 무단 크롤링은 불법"

웹사이트 콘텐츠를 긁어오는 '크롤링'을 이용해 확보한 콘텐츠를 자신의 영업에 무단 사용하는 것은 데이터베이스(DB)권 침해 행위라는 대법원 판단이 나왔다. 이는 온라인 웹사이트를 운영하는

news.bizwatch.co.kr

 

검색엔진에 색인 요청하기

주요 검색엔진에 블로그의 존재를 알리고, 크롤링과 색인을 요청하는 방법에 대해서 알아봅시다. 일반적으로 검색엔진에서 제공되는 웹마스터 도구를 통해 사이트맵RSS 피드를 등록하는 과정이 필요합니다. 사이트맵은 웹사이트의 여러 페이지들이 어떻게 연결되어 있는지를 나타내는 일종의 온라인 지도이고, RSS 피드는 블로그에 새 글이 올라갈 때 마다 검색엔진에 알려주는 기능이 있다고 볼 수 있습니다.

 

티스토리 블로그의 경우 사이트맵의 주소는 관리자 페이지에서 확인할 수 있습니다. 관리 탭의 블로그 항목에 들어간 뒤, 주소 설정을 보면 사이트맵 주소가 나옵니다. RSS 피드의 주소는 [티스토리 블로그 주소]/rss가 됩니다.

 

구글

구글의 경우 검색콘솔 (Google Search Console, 줄여서 GSC)을 통해서 사이트맵과 RSS를 등록할 수 있고, 개별 포스팅에 대한 색인 요청을 수동으로 할 수도 있습니다. 이를 위해서는 구글 계정이 필요하고, 블로그의 주인이라는 것을 증명해야 되는데요. 티스토리에서 제공하는 플러그인을 통해서 등록할 수도 있고, 구글 애널리틱스나 태그매니저를 설치했다면 이와 연동해서 소유권 인증을 할 수도 있습니다.

 

 

Google Search Console

Search Console 도구와 보고서를 사용하면 사이트의 검색 트래픽 및 실적을 측정하고, 문제를 해결하며, Google 검색결과에서 사이트가 돋보이게 할 수 있습니다.

search.google.com

 

검색콘솔 페이지 왼쪽의 색인 (Index) 탭의 사이트맵 항목에 들어간 뒤에, 사이트맵과 RSS 피드 주소를 입력하고 제출하면 되겠습니다.

 

구글 애널리틱스와 태그매니저를 앞에서 언급했는데, 이들을 블로그에 설치해서 사용하면 방문자들이 블로그의 컨텐츠를 어떻게 보고 가는지 파악하는데 큰 도움이 됩니다. 애드센스 광고를 게시하고 있다면, 무효클릭 공격에 대비해서 IP를 수집하는 것도 가능하죠. 다음 포스팅에 더 자세한 내용이 소개되어 있습니다.

 

 

구글 애널리틱스와 태그매니저로 IP 추적하기

이번 포스팅에서는 구글 애널리틱스와 태그매니저를 연동해서 블로그 방문자의 페이지뷰와 IP를 추적하는 방법에 대해서 짚어보겠습니다. 특히 애드센스를 이용해서 광고수익을 도모하는 블로

swstar.tistory.com

 

마이크로소프트 빙

빙 (Bing)은 마이크로소프트에서 제작 및 운용하는 검색엔진인데요. 윈도우랑 같이 딸려오는 엣지 (Edge) 브라우저를 열면 검색창이 하나 뜨는데, 여기에 연결된 검색엔진이 바로 빙입니다. 구글과 비슷한 방식으로 빙 웹마스터 도구에서 소유권 인증을 한 뒤에 사이트맵과 RSS 피드를 등록할 수 있습니다. 다만 빙 웹마스터 도구를 사용하기 위해서는 마이크로소프트 계정이 있어야 합니다.

 

 

Bing 웹 마스터 도구

 

www.bing.com

 

참고로 구글 검색콘솔에서 블로그 소유권 인증을 했다면, 이와 연동해서 빙 웹마스터 도구에서도 소유권 인증을 할 수 있습니다. 별도의 확인용 HTML 코드를 삽입하는 방법도 있습니다만, 구글 검색콘솔과 연동해서 인증을 받는 것이 개인적으로 편했습니다.

 

소유권 인증을 하고 나면, 왼쪽의 사이트맵 항목을 클릭하면 사이트맵과 RSS 피드를 제출할 수 있는 페이지가 열립니다.

 

네이버 (NAVER)

네이버 블로그의 경우 네이버 뷰 (VIEW) 탭에 노출이 되는데 반해, 티스토리 등의 다른 플랫폼을 사용하는 블로그들은 여기에 끼어들기가 쉽지 않습니다. 이는 네이버에서 외부 플랫폼에 대해 배타적인 정책을 펼치고 있기 때문이기도 한데요. 그렇다고 해서 네이버 유입을 포기할 수는 없습니다. 네이버 서치어드바이저 (Search Advisor)에서 사이트맵과 RSS 피드를 등록하면, 웹사이트 탭에 노출을 시키는 것이 가능합니다.

 

 

네이버 서치어드바이저

네이버 서치어드바이저와 함께 당신의 웹사이트를 성장시켜보세요

searchadvisor.naver.com

 

네이버 계정으로 로그인을 하면, 블로그의 주소를 입력하고 소유권 확인을 위한 HTML 코드를 발급받을 수 있습니다. 이 확인 코드를 스킨 편집 기능으로 블로그에 설치하면 소유권 인증이 가능합니다. 그리고 나서 왼쪽에 있는 요청 탭에서 RSS 제출 및 사이트맵 제출 항목들을 찾아들어가면 되겠습니다.

 

참고로 이렇게 네이버 웹사이트 탭으로 가게 되면, 네이버 검색유입의 난이도가 상승하게 됩니다. 왜냐하면 VIEW 탭에서는 다른 블로그들과 경쟁을 하게 되는 반면에, 웹사이트 탭에서는 위키피디아나 다른 대형 커뮤니티 사이트들과 경쟁을 해야 하기 때문이죠. 그래도 다른 곳에서 찾기 힘든 정보글을 잘 써놓으면, 네이버 검색유입도 있기는 합니다.

 

다음 (Daum)

티스토리 블로그의 경우 다음 검색노출을 위해서 별도로 요청을 할 필요는 없습니다. 다음 검색엔진과 티스토리 블로그는 모두 카카오에서 운용하는 서비스이고, 별다른 결격사유가 없으면 티스토리 블로그의 포스팅들은 자동으로 다음 검색결과에 색인이 되어 노출이 됩니다.

 

구글 블로그스팟이나 워드프레스 블로그를 운영한다면, 별도로 검색등록을 할 필요가 있습니다. 등록을 할 때 사이트 검색이 아닌 블로그 등록을 선택하면 블로그나 웹문서 탭에 노출이 된다고 하는군요.

 

 

Daum - 검색등록

Daum 검색등록 사이트 검색을 무료로 등록할 수 있는 서비스입니다. 언제든 정보보완 수정이 가능하며, 등록 후에는 Daum 검색결과에 노출되어 수많은 네티즌들이 방문하게 됩니다. 신규등록하기

register.search.daum.net

 

줌 (ZUM)

줌 검색엔진의 경우도 다음과 비슷한 방식으로 검색등록을 신청하면 됩니다.

 

 

ZUM - 사이트 검색등록

 

help.zum.com

 


 

같이 읽어보면 좋은 다른 티스토리 관련 글

 

블로그를 위해 공부하는 이유

 

블로그를 위해 공부를 해야되는 이유

다음 검색유입 키워드들을 살펴보다가 재밌는 걸 하나 발견했습니다. 이 블로그에서 자주 다루는것과 동일한 주제를 가지고 제목까지 비슷하게 해서 글들이 올라오는 블로그가 있는겁니다. 제

swstar.tistory.com

 

광고수익과 저품질

 

블로그의 광고수익과 저품질

지금까지 소소한 부업을 위한 블로그를 키우면서 느낀 점과, 그동안 귀동냥으로 배운 것들을 간략히 써 볼까 합니다. 별로 기대 안하고 혹시나 하는 마음에 신청했던 구글 애드센스가 덜컥 승인

swstar.tistory.com

 

더 나은 광고 표준

 

더 나은 광고 표준과 티스토리 블로그 생태계

광고 게재와 관련해서 구글 애드센스로부터 경고를 받은 후기와 함께, 블로거 및 방문자들을 포함한 티스토리 블로그의 생태계에 대한 제 나름의 생각을 한번 적어볼까 합니다. 2021년 10월 21일

swstar.tistory.com