국내포털의 robots.txt 패러독스

인터넷정보

국내포털의 robots.txt 패러독스

알 수 없는 사용자 2007. 10. 17. 18:47

이 또한 공감일세..

국내포털의 robots.txt 패러독스 | 뒤집어보자
언젠가부터 이 글을 적고싶었지만 마땅한 기회가 나지 않아 미루다가 마침내 적어봅니다.

뒤집어보자 카테고리에 올라오는 글들은 필요에 의해 제가 말하고자 하는것을 직설적으로 내어 표현하지 않을 수도 있고 말하는것과 정 반대의 의견을 말하고 있는 것일 수도 있는 실험적인 말장난임을 알려드립니다. 또는 누구나 그렇다고 말하고 저또한 그렇다고 생각하는 사건에 대해 그렇지 않을 수도 있음을 이야기하는 소극적인 혼잣말일 수도 있습니다.

robots.txt
이것은 웹 수집도구(로봇(robot) 또는 봇(bot)이라 불리는)가 지켜야할 규칙을 적어놓는 간단한 텍스트파일입니다. 수집기는 간단히 웹문서를 읽고 문서에포함된 링크를 모두 돌아가며 방문하면서 내용을 인덱싱하는 간단한 동작을 반복하는 프로그램에 불과합니다. 따라서 게시자가 원치 않는 관리자영역의 링크가 실수로 노출될 가능성도 있고, 글 지우기 링크등이 클릭되는바람에 내용이 몽땅 사라지기도 하는등 문제가 발생했습니다. 이에 로봇이 지켜야할 규칙을 만들자는 의지로 만들어진 규칙이 robots.txt 입니다. 로봇은 mass request 이전에 웹사이트 루트에 있는 robots.txt 파일을 읽고 disallow 된 컨텐츠에 대해서는 링크를 방문하지 않고 수집또한 하지 않으며, 허용하지 않는다고 명시된 컨텐츠에 대해서는 이미 수집된 자료조차 인덱스에서 삭제하기도 합니다. 그러나 이는 강제조항은 아니며 확정된 표준안도 아닙니다.

엠파스의 열린지식
엠파스는 열린검색, 열린지식을 표방하며 지식은 공유되어야 하고 모두에게 열려있어야 한다고 주장하며 네이버의 지식KIN 데이타를 crawling 해서 검색 결과에 포함시켜 보여주고 있습니다. 이것은 네티즌들에게 환영받았고 한때는 네이버를 싸잡아 욕하며 초딩스러운 지식좀 모아서 꽁꽁 숨겨놓고 다함께 쓰지도 못하게 하느냐는 엉뚱한 비난이 쏟아지는 결과를 낳기도 했습니다.

지식검색의 역사
국내에서 진지하게 지식 데이타베이스를 구축하자는 시도가 이루어진건 1997년쯤 생겨난 DBDIC 이라는 사이트였습니다. (현재 엠파스가 인수해서 dbdic.com은 지금 엠파스 열린지식 사이트로 redirect 됩니다) 기억하시는 분도 계시겠지만, 고래모양의 CI를 가진 이쁜 사이트였고, 당시 많은 지식인들의 호응을 얻어 수준높은 질문과 답변들이 쌓였고 좋은 방향으로 흘러가는듯 했으나 섣부른 유료화로 인해 곧 사람들이 등을 돌리고 금새 잊혀졌습니다.
그후 엠파스에서 지식검색을 시작했고 뒤늦게 검색과 포털 사업에 뛰어든 네이버에서도 지식KiN 이라는 타이틀로 지식 데이타베이스를 구축하기 시작했습니다. 이 전쟁에서 네이버가 승리했고 단시간에 가장 많은 사용자들의 질문과 답변을 수집했습니다. KIN 이 '즐'을 옆으로 뉘어놓은 모양이라는데 착안해서 유머 게시판에 오르내린 것이 사람들의 인식을 자극하는데 도움이 되었던것 같습니다. 이후 엠파스는 DBDIC의 데이타베이스를 구입하고 인수하여 다시 지식검색 분야로 네이버와 맞붙으려고 했고 문근영양이 '개새'를 동원해 열심히 홍보에 나섰지만 전지현양을 이기지 못하고 주저앉아버렸습니다.

네이버의 지식KiN
지식 KiN은 새로운 시도를 많이 했던것 같습니다. 온라인 고스톱 게임에서나 있을법한 계급제도를 도입했고 질문에 내공을 걸어 답변 의지를 높이고 질문자가 선택한 답변을 통합검색 상위에 노출시킴으로써 빠르게 해답이 눈에 들어오도록 조치했습니다.(이것은 네이버 검색의 질 향상에 크게 도움이 되어 지금의 NHN이 있게 만든 공신입니다) 또한 답변에 대한 이의를 제기할 수 있도록 장치를 마련해두어 잘못된 정보가 유통되는것을 막으려고 시도했습니다. (하지만 이것은 이른바 '초딩'이라 불리는 지식함량 미달 집단의 수를 자정능력이 뛰어넘지 못해 현재는 부정확한 지식과 반복되는 데이타 또는 쓰레기 데이타가 많습니다) 항간에는 네이버알바가 일부러 자극적인 질문을 올리고 답변을 올려 사람들의 관심을끌려는 시도가 있지 않느냐는 지적과 그럴듯한 증거가 포착되었지만 네이버측에서는 아니라고 하는군요^^

다시 robots.txt
강제사항은 아니지만 일부 포털들이 이것을 지키지 않고 무수한 요청을 날리는바람에 웹사이트가 다운될 지경에 이르기도 하고 알리고싶지 않은 정보가 포털 탑페이지에 랭크되는등 민감한 사건들이 터지자 모두들 이 규칙을 당연히 잘 지켜야만 하는것으로 인지하고 있고 실제로 그렇게 지켜지고 있습니다. 또한 여러 검색엔진들이 링크를 타고 웹사이트를 방문하는가운데 다른 검색사이트의 검색결과에 이르게 되면 셀수없이 많은 링크의 꿀단지에 빠지게 되고, 본의아니게 타사의 검색 결과를 끝없이 인덱싱하고 있게 되는 우스운 결과가 종종 발생했습니다. 게다가 타사의 검색 결과를 자사의 결과에 섞어놓는것은 스스로도 좋지 않으므로 일부러 제외시키기도 하는반면 자연히 검색 결과 페이지에는 robots.txt를 넣고 지키게 되는 습관이 생긴것 같습니다.

Google의 등장
구글은 독특한 랭킹 시스템을 고안하여 검색의 양뿐만 아니라 질을 자동으로 높이는 방법을 만들어내어 가장 중요한 정보가 첫 페이지에 나타나도록 하는 놀라운 마술을 선보여 사람들을 매혹하고, 광고나 디렉토리 없이 심플하고 깨끗한 메인화면 덕분에 단시간에 많은 사람들의 첫 페이지를 바꾸어버린 검색 사이트입니다. 구글의 기업이념은 'Don`t be evil' 이며 따라서 로봇 규칙을 처음부터 착실히 지켰습니다. 따라서 포털 중심의 UCC가 정보의 대부분인 우리나라에서는 마땅히 질 좋은 데이타를 인덱싱할 방법이 없어지게 되고 몇몇 얼리어뎁터들과 매니아를 제외한 층에서는 큰 호응을 얻지 못하게 되는 결과가 발생했습니다. 초창기에는 구글의 검색 결과에 국내 검색사이트의 검색결과나 포털사이트에 올라온 글들이 더러 보였지만, 어느순간(2001년 초반으로 추측) 사라지기 시작했을 시점이 국내 포털들이 robots.txt의 중요성을 인지하기 시작했던 때라고 판단됩니다.

다시 엠파스
네이버는 지식검색 페이지또한 인덱싱을 거부하도록 robots.txt 를 수정하고 엠파스가 함부로 그것을 가져가서 '열린지식검색'을 제공하는것은 좋지 않다 라는 입장을 고수하고 있습니다. 이에 일부 네티즌과 엠파스는, 지식을 쌓은것은 사용자들이요 네이버가 아닌데 어째서 '소유권'을 행사하려 하느냐는 논리로 네이버를 공격하고 있지만, *제 생각은 다릅니다..

제 생각
누구나 지식 DB를 구축하자는 시도를 했지만 졸렬한 시스템 또는 성급한 유료화로 실패했고, 네이버는 거대한 비용들 들여, 나름의 노하우를 투자하여 사용자들의 호응을 얻어내는데 성공했고 결국은 그 치른 댓가에 대한 보상을 검색 사업분야에대한 우위로써 이제 겨우 돌려받기 시작한 상황입니다. 이때 엠파스가 나타나서 '니들이 모은것 우리도 좀 같이 보여주고 같이 유명해보자~' 라고 주장하는것은 넌센스이며, '지식의 소유권'을 주장하며 문제의 요점을 흐리는짓은 비열하고 치사한 행위라고 감히 단정 짓습니다.

한 어부가 어장을 짓고 사료를 주어가며 물고기 수백마리를 양식해놓았더니 또다른 어부가 '수자원'의 소유권을 주장하며 같이 좀 수확하자고 주장하는것이 과연 옳습니까?

- by 거친마루

'인터넷정보' 카테고리의 다른 글

U-2, 너밖에 없다 (0)	2007.10.18
주소줄(REQUEST_URI)의 인수를 새로 설정하기 (0)	2007.10.17
주소줄(REQUEST_URI)의 인수를 새로 설정하기 (0)	2007.10.17
새로고침이 너무 빨리 발생할 때 대책 한가지? (0)	2007.10.17
새로고침이 너무 빨리 발생할 때 대책 한가지? (0)	2007.10.17
국내포털의 robots.txt 패러독스 (0)	2007.10.17
원 클릭으로 클립보드 복사하기 2 - textarea, div, span.... (0)	2007.10.17
원 클릭으로 클립보드 복사하기 2 - textarea, div, span.... (0)	2007.10.17
마우스 더블클릭으로 페이지 맨 위로 / 맨 아래로 이동하기 (0)	2007.10.17
마우스 더블클릭으로 페이지 맨 위로 / 맨 아래로 이동하기 (0)	2007.10.17

현재글국내포털의 robots.txt 패러독스

영문 우편번호, 우편번호검색, 셀렉트박스, 페이징, 우편번호, 게임, font, 꽃말, 애드센스, 바베큐, 생활의 지혜, 혈액형, 아토피, 레크레이션, EBS지식채널, 무한도전, 새창, 폰트, 팝업, 생활의지혜,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

INFOTIP