웹페이지 랭킹 알고리즘: HITS vs PageRank
웹 정보검색 시스템을 구축했을 때, 사용자가 요청한 어떤 검색(질의, query)에 대해서 최상의 결과를 보여주기 위한 방법을 끝없이 고민해야 한다. 이런 시스템을 구축하기 위해선, 인터넷의 정보를 굉장히 많이 수집(Crawling)해서 잘 저장하고 인덱싱을 함으로써, 어떤 단어가 포함된 문서를 빠르게 찾을 수 있게 정리를 해두어야 한다. 이 때 이용하는 것이 Inverted Index 방법인데, 수많은 문서들이 있을 때 어떤 단어가 어떤 문서에 몇 개 들어있는지 테이블로 기록해두는 것이다. [ "tistory": { (문서1, 10개), (문서2, 21개) }, "google": { (문서2, 20개), (문서4, 12개) } ] 이런 식으로 말이다. 그리고 분산 저장을 위해서는 구글에서 만든 GFS(..