정보의 측정 Meaure of Information
by DINHO
2월 28일에 포스팅을 하고 한 달 하고 조금 더 걸려서 돌아왔네요…😶😶 그 동안 개강하고 캡스톤 제안서 쓰랴 발표하랴 조사하랴 정신이 없어서 이제서야 글을 올립니다. 😊😊
오늘은 정보이론에 대해 이야기해볼까 합니다. 학부 4학년 1학기를 다니고 있는 지금 제가 배우고 있는 과목입니다. 보통 대학원 과목인 경우가 많은데, 최근에는 여러 학교에서 정보이론을 학부 4학년에게도 가르치는 추세입니다. 제가 다니고 있는 학교에서도 정보이론을 학부 4학년 수준에 맞게 수업을 들을 수 있습니다😁😁 정보이론은 통신, 신호처리, 심지어 경영에서도 쓰이는 학문입니다. 또한, 전자공학과 분야 중에서 Prestigious(다른 저널들의 근원이 되는 정도)가 높은 편인데요!! 저는 현재 신호처리 딥러닝 연구실에서 학부연구생을 하는 중인데, 손실 함수나 KL(Kullback–Leibler divergence) 등 여러 수식에서 이 내용이 나오더라고요😲😲 그래서 복습 겸 공부 겸 정보이론에 대한 포스팅도 시작해보려 하려 합니다. 소개글이 길어졌네요 ㅎㅎ 본격적으로 시작해보겠습니다.
Motivation
정보(information)이란 무엇이며 정보의 양(amount of information)은 어떻게 측정하는가?
다음의 질문을 생각해보겠습니다.
- 현재 서울 기온은 30도가 넘는가?
- 오늘 학교에 가장 먼저 도착한 학생은 누구인가?
첫 번째 질문의 답은 예, 아니오로 두 가지 경우만 있는 반면, 두 번째 질문의 답은 전교생 수만큼의 가능한 경우의 수가 있습니다. -> 따라서 두 번째 질문에 대한 답이 첫 번째 질문에 대한 답보다 더 많은 양의 정보를 제공하고 있다는 것을 알 수 있습니다.
=> The number of possible answers r should be linked to “information”
다음의 예를 생각해보겠습니다.
- {1,2,3,4,5,6}이 나올 수 있는 확률이 동일한 주사위를 한 번 던지고, 그 값을 친구에게 알려준다고 하자. 이러한 행동을 통해, 친구에게 일정한 양의 정보를 전달할 수 있다.
- 이제 그 주사위를 3번 던지고, 세 번의 결과 값들을 친구에게 알려준다고 하자. 이 경우는 당연히 첫 번째 예에 비해 3배의 정보를 친구에게 전달할 수 있다.
=> “Information” should be additive in some sense.
이 예를 생각해보면 첫 번째 예에서는 6개의 경우의 수가 있는 반면, 두 번째 예에서는 216( \(6^{3}\) )개의 경우의 수가 있다. 하지만 정보의 양은 앞에서 살펴보았듯이 3배 차이가 난다.(36배 차이가 아니다!!) ‘정보와 경우의 수와의 관계’ & ‘정보 양의 가산성(additivity)’을 동시에 해결하기 위해서는 어떻게 해야 할까?
-> logarithm(로그) 를 사용하면 된다!! (지수의 성질을 이용함 \(\log_{b}{6^{3}} = 3\cdot \log_ {b}{6}\) )
이 아이디어가 곳 Hartely’s information measure로 이어집니다.
Hartely’s information measure
Definition 1.1.
\[\tilde{I}(U) \triangleq \log_b r,\]Hartely’s information measure를 사용하면 정보량의 ‘가산적’ 성질을 잘 표현할 수 있습니다. 즉 \(U_{1},U_{2},...,U_{n}\) 이 각 경우의 수가 독립적인 랜덤 메시지라면, ->
\[\tilde{I}(U_{1},U_{2},...,U_{n}) = \log_{b}{r^{n}} = n\cdot log_{b}{r} = n\tilde{I}(U_{1})\]여기서 b는 ‘정보의 단위(unit of information)’일 뿐, 속성을 결정하는 중요한 factor는 아님
-
주로 쓰는 b :
b = 2 -> bit b = e -> nat(natural logarithm) b = 10 -> Hartley (잘 안 씀)
예를 들어보겠습니다.
- 현재 지구이 총 인구수는 7,716,600,000이다. 이를 bit로 구별하려고 할 때 몇 bit가 필요한가?
따라서 33bit가 필요.
Hartely’s information measure의 오류
경우의 수로만 정보를 측정한다면, 1bit의 정보가 0이 아닌 가장 작은 정보를 나타냅니다. 그런데 앞에서 볼 수 있듯이 1bit는 33배만 해도 77억개의 경우의 수를 나타낼 수 있을 정도로 상당히 큰 정보량입니다.
또한 다음 예를 들어보겠습니다.
- 각 모자에서 공을 하나씩 뽑는다고 가정하고, 그 공의 색깔을 메시지 \(U_{A}, U_{B}\) 라고 하자.
- 모자 A의 경우 흰 공/검은 공 두 가지 경우의 수가 있으므로 1bit
- 모자 B의 경우 역시 흰 공/검은 공 두 가지 경우의 수가 있으므로 1bit
하지만 만약 B에서 뽑은 공이 검은 공이라면, 이미 어느 정도 예측 가능했으므로(Black is much more likely), A에 비해 상대적으로 정보를 많이 담고 있지 않다고 할 수 있다.(극단적으로 검은공이 100개인 경우를 생각해보면 체감이 더 잘 됩니다.)
따라서, 정보의 양을 올바르게 측정하기 위해서는 경우의 수뿐만 아니라 사건이 일어날 확률 을 함께 따져야 합니다.
이 아이디어는 곧 Shannon’s information measure로 이어집니다!!
Shannon’s information measure
A proper measure of information needs to take into account the probabilities of the various possible events.
Shannon 전의 통신학계에서는 deterministic sinusoidal signal(결정 사인파 신호)을 생성 및 전송하는 데 관심이 있었습니다. 하지만 수신단에서 송신단이 어떤 신호를 전송할지 미리 알고 있다면 정보가 아니며, 송신단이 채널을 통해 전송할 필요 없이 수신단에서 바로 생성하는 것이 더 간단하고 정확하겠죠? 그래서 Shannon은 정보를 다룰 때 deterministic이 아닌 random message를 고려해야 한다고 밝혔습니다.
위에서 이야기했던 모자의 경우를 다시 보겠습니다.
모자 B에서 공을 하나 뽑는 예를 다시 생각해보면 흰 공을 뽑을 확률은 1/4 (4가지 경우의 수 중에 1가지 경우)
-> \(\log_{2}{4} = 2bits\)
검은 공을 뽑을 확률은 3/4(4가지 경우의 수 중 3가지 경우) -> 이를 Hartely’s information measure에서처럼 ‘몇 가지 경우의 수 중 1가지 경우’로 표현하면 ‘4/3 가지 경우의 수 중 1가지 경우’ 수로 표현 가능
-> \(\log_{2}{\frac{4}{3}} = 0.415 bits\)
여기서 공의 색깔에 따라, 즉 사건의 확률에 따라 , 서로 다른 정보량을 가지고 있다는 것을 알 수 있습니다.
정보량을 통합적으로 나타내기 위해서는 사건의 확률에 따라 ‘평균’을 내면 됩니다.
\[\frac{1}{4}\cdot \log_{2}{4} + \frac{3}{4}\cdot \log_{2}{\frac{4}{3}} = 0.811 bits\]마무리
오늘내용을 정리해보자면,
- 정보는 경우의 수와 관련이 있음
- 정보는 ‘가산적(additivity)’여야 함
- 정보의 양을 올바르게 측정하기 위해서는 경우의 수뿐만 아니라 사건이 일어날 확률을 함께 따져야 함
다음에는 정보이론에서 Entropy에 대한 내용을 이야기하겠습니다. 감사합니다.😊😊
Follow my github