디지털 데이터 이해하기 - 온라인 상호작용이 데이터를 생성하는 방식
1. 웹사이트의 작동 방식
모든 웹사이트는 웹 서버에 저장된 코드로 만들어진 빈 공간에서 시작합니다. 발행자(Publisher)는 이 빈 공간을 채우기 위해 콘텐츠 관리 시스템(CMS)을 사용합니다. CMS를 통해 여러 사람이 코딩 지식 없이도 쉽게 웹사이트의 콘텐츠를 생성하고 관리할 수 있습니다. 예를 들어, 뉴스 기사가 웹사이트에 게시되는 방식이 바로 이렇습니다.
2. 광고 서버와 데이터 교환의 역할
웹사이트 발행자는 광고를 위한 공간을 따로 마련해 둡니다. 이 광고들은 발행자의 콘텐츠 서버가 아닌 별도의 광고 서버에서 전달됩니다. 사용자가 웹 페이지에 접속하면, 브라우저는 사용자 정보를 발행자에게 보내 관련 콘텐츠를 받게 합니다. 동시에 이 정보는 광고 서버에도 전송되어 관련 광고가 표시되도록 합니다. 즉, 사용자의 브라우저, 발행자 서버, 그리고 광고 서버 간에 데이터가 지속적으로 교환되는 것입니다.
발행자와 광고주 모두 이 데이터를 저장합니다. 페이지 접속, 링크 클릭, 광고 클릭, 구매 등 모든 상호작용은 기록으로 남습니다. 이 정보는 콘텐츠를 개인화하고 사용자에게 표시되는 광고를 맞춤화하기 위해 분류되어 저장됩니다.
3. 데이터의 기록: 웹 서버 로그
데이터 생성의 중요한 출처는 바로 웹 서버 로그입니다. 웹사이트 서버에 대한 모든 요청(예: 코드 조각이나 이미지 요청)은 이 로그에 기록으로 남습니다. 이 로그는 복잡해 보이지만, 다음과 같은 구성 요소들을 포함하는 코드 문자열로 이루어져 있습니다:
- IP 주소: 데이터가 전송되어야 할 위치(사용자 컴퓨터의 주소)를 나타내는 일련의 숫자입니다.
- 고유 식별자: 서버가 정보를 요청하는 주체를 인식할 수 있도록 하는 문자열로, 일반적으로 브라우저에서 가져옵니다. 이는 사용자의 이름이나 실제 주소와 같은 개인 식별 정보(PII)가 아닙니다.
- 사용자 이름 (선택 사항): 웹사이트에 로그인이 필요한 경우 표시될 수 있습니다.
- 날짜 및 시간 스탬프: 서버에 정보가 요청된 시점을 기록합니다.
- 요청된 코드 문자열: 사용자가 요청하는 특정 정보를 식별하며, 웹사이트 링크에 포함되어 사용자가 링크를 클릭하는 동시에 서버에 지시를 내립니다.
- 상태 코드: 정보가 사용자에게 성공적으로 제공되었는지 여부를 나타내는 숫자입니다. 200은 성공, 404는 오류를 의미합니다.
- 콘텐츠 파일 크기: 사용자가 받은 콘텐츠 파일의 크기를 나타냅니다.