검색 엔진 기술 개요 [ 강의 요약 정리 ]

Notice

Recent Posts

Tags more

Archives

관리 메뉴

개발일기

프로그래밍 이론/Python

한민기 2021. 8. 15. 20:55

컴퓨터 시스템에 저장된 정보를 찾아주는 것을 도와주도록 설계된 정보 검색 시스템

[ 출처 : 위키피디아 ]

SQL은 트렌젝션을 위해 제작된 데이터 베이스 이기 때문에 ACID를 제공하지만 검색 엔진은 제공해 주지 않는다.
SQL은 B-Tree나 Linear Scan들을 사용하여 결국 데이터 사이즈가 커지면 커질수록 속도는 기하급수 적으로 줄어든다. 또한 SQL의 시간복잡도는 O(n), O(log n)이다. 검색 엔진은 사이즈가 아무리 커져도 속도에는 문제가 없다. 검색엔진의 시간복잡도는 O(1)인 혁기적인 데이터베이스이다.
SQL은 realtime으로 바로 반영되고 바로 모든 subscribe들이 볼 수 있는 데이터이다. 하지만 검색엔진은 데이터가 바뀌게 되면 반영되는데 꽤 많은 시간이 걸릴 수 있다. 그 이유는 데이터가 추가되고 인덱싱 된 후 서빙되는데 꽤 큰 시간이 필요하기 때문이다.
SQL은 고급 검색 결과 그리고 랭킹 기술들을 도입하기 힘들다. SQL 자체는 Transactional Nature를 위해서 만들어진 데이터베이스이기 때문에 고급 텍스트, maipulation, 오디오, 이미지, 프로세싱 이런 것을 추가하기가 벅차다. 하지만 검색엔진은 무제한 Advanced Search Feature를 추가할 수 있는 장점을 가지고 있다.
SQL은 serving traffic이 늘어나면 늘어날 수록 serving speed가 기하급수적으로 느려지며 cost 또한 높아질 수 있다. 하지만 검색엔젠은 트래픽과 부하 속도는 아무런 연관이 없다.

CAP 이론 : 현존하는 거의 모든 데이터를 저장하는 매체들은 이 세가지 중 두가지 만을 추구할 수 있다는 이론이다.

* 세 가지 : Consistency, Availability, Partition Tolerance

예를 들어 SQL은 Consistency를 추구하는 데이터 베이스이다.

반면 검색엔진 같은 서비스는 Availability와 Partition Tolerance를 추구한다.

Elasticsearch 활용한 검색엔진 만들기 (2) (0)	2021.08.17
Elasticsearch 활용한 검색엔진 만들기 (1) - Docker 설치 (0)	2021.08.16
[파이썬] 코딩테스트에서 Python3 와 PyPy3의 차이 (6)	2021.08.10
네이버 뉴스 데이터 수집하기 [3편] - 데이터 파일화 (0)	2021.08.09
네이버 뉴스 데이터 수집하기 [2편] (5)	2021.08.08