수많은 논문과 최신의 기술들이 공개가 되어 있음에도 무조건 어려울 것이라는 거부감으로 인해 클릭하지 않았던 경험이 있으실 겁니다. 저 역시 미약한 지식과 짧은 가방끈으로 인해 아직까지도 분석에 어려움이 많이 있습니다만, 그 동안 분석하면서 느꼈던 내용을 짧게 정리해 보았습니다.
1. 들어가기
본 문서는 논문, 위키피디아 등의 문서를 대상으로 하며 특히 컴퓨터 쪽의 기술 문서가 주요 대상임을 일러둡니다.
2. 구성
먼저 가장 중요한 것은 문서의 구성입니다. 논문의 경우,
논문 주제에 대한 동향, 왜 이 논문을 쓰게 되었는가? -> 논문 요약 및 정의 -> 설명 -> 결과 -> 참조 문서
와 같은 형식이고 위키피디아의 경우
정의 -> 세부 설명 -> 참조 문서
와 같은 형식입니다.
제대로 쓰여진 논문이라면 논문의 경우 제목을 가지고 핵심을 잡아 낼 수 있습니다. 볼 만한 문서인지 말이죠. 제목으로 아리송한 경우 내용보다 결과가 우선입니다. 그래서 이 논문으로 무엇을 했느냐를 구체적으로 알 수 있기 때문이죠.
위키 피디아의 경우 가장 처음에 나오는 정의가 가장 중요합니다.
3. 공식
3.1 비례, 반비례
http://en.wikipedia.org/wiki/PageRank 를 보시죠. 너무나도 유명한구글 검색엔진의 알고리즘입니다.
우주인과 통신하기 위해 전송하는 데이터가 수학이라는 것을 알고 계신가요? 그 만큼 공용 언어로써 수학의 힘은 강력합니다. 컴퓨터 관련 논문에서는 간결하고 정확하게 자신이 말하고자 하는 것을 표현하기 위해 간략한 공식을 소개하는 경우가 많습니다.
다시 구글 알고리즘으로 돌아갑시다. 우리의 목표는 수 많은 웹 페이지를 뒤져서 가치있는 녀석을 찾아 고객들에게 보여주는 것입니다. 어떤 페이지가 가치있는 녀석일까요? 구글은 도서관에서 권위있는 논문을 검색하는 방식에서 힌트를 얻었습니다. 어떤 논문을 쓰고 가장 밑에 참조 문헌을 적죠? 100 개의 논문을 봤는데 100 개 모두 하나의 논문을 참조했다면? 뭔진 몰라도 그 논문 괜찮은가 보다 생각할 수 있겠죠. 이렇게 많이 참조된 논문을 가지고 논문의 순위를 매기는 것을 page rank(웹 페이지의 순위) 라고 합니다.
생각을 좀 더 발전시켜 보겠습니다. 많이 소개된 논문이라고 다 좋은 논문인가요? 이렇게 한번 생각해 보죠. 여러분의 블로그가 네이버에 소개 되었습니다. 혹은 여러분의 블로그가 친구의 블로그에 소개되었습니다. 당연히 네이버가 소개해야 좀 더 좋은 유명한 블로그라고 생각할 수 있겠죠. 참조 문서 목록에 있다고 하더라도 어떤 논문이 참조했느냐에 따라 순위의 차등을 두어야 할 것입니다. 즉, 어떤 페이지의 page rank 는 그 페이지를 link 하고 있는 웹 페이지의 page rank 에도 영향을 받게 됩니다.
정리하면 웹 페이지의 순위는 그 페이지를 소개하고 있는 또 다른 페이지들이 많을 수록 높아지고 동시에 소개하고 있는 페이지 자체의 순위가 높을 수록 더 높은 점수를 받아야 한다는 것이죠.
마지막으로 한 가지만 더 생각해 보겠습니다. 유명한 페이지에 저의 블로그가 링크 되었는데, 그 페이지에는 제 블로그 말고도 1000 개의 블로그에 대한 링크가 더 있습니다. 아무리 권위있는 예언자의 말이라도 그 사람이 1년에 수 만개의 이야기를 수다쟁이처럼 떠들어 댄다면 신빙성이 좀 떨어지겠죠. 반대로 유명한 페이지에서 단 하나의 링크만을 가르키고 있다면? 매우 중요한 내용일 것이 분명합니다.
이상을 종합하여 공식을 만들어 봅시다. 공식을 만드는 데는 필요한 수학적 지식은 띄엄띄엄 기억나는 학생 시절의 지식만으로 충분합니다.
어떤 페이지 A, B, C, D 가 있고 B, C, D 페이지가 A 페이지를 링크하고 있다고 가정합니다. A 의 page rank 를 구하고 싶습니다. A 의 page rank 를 줄여서 PR(A) 라고 합시다. 앞서 설명한 내용을 기억해 봅시다. PR(A) 는 A 페이지를 가르키고 있는 페이지의 순위를 모두 더한 합과 같습니다.
PR(A) = PR(B) + PR(C) + PR(D)
각 페이지가 링크하고 있는 페이지의 갯수가 많을 수록 신뢰도가 떨어진다고 했으므로 B, C, D 를 각각 가지고 있는 링크의 갯수로 나누어 주겠습니다. 나눈다는 말의 의미는 반비례한다는 말과 같습니다.
PR(A) = PR(B) / 2 개 링크 있음 + PR(C) / 1 개의 링크가 있음 + PR(D) / 3 개의 링크가 있음
어때요 참 쉽죠? 이상을 정리하면 논문에서 구하고자 하는 값이 "어떤 녀석이 커질 수록 커지더라" 라면 비례관계에 있다고 보고 곱해주면 되고요, "그 녀석이 커지면 내가 구하고자 하는 값이 작아진다" 면 반비례 관계로 보고 나눠주면 되는 것입니다.
3.2 시그마, 미분, 적분
어려운 이야기를 잘 알지도 못하면서 쓰자니 조금 부끄러워 지는 군요. 3.2 는 잘 못된 부분이 있을 수 있으니 걸러 들어 주시기 바랍니다. 간략하게 적어보겠습니다.
3.1에서 언급한 웹 페이지의 합이라는 것이 사실 엄청나게 많은 수 입니다. 이거 쭉 더한다.. 루프나 제귀 돌려서 더한다, 이걸 수학공식으로 표현할 때 앞에 시그마 씌우는 것으로 표현합니다. 즉,
어떤 페이지의 페이지 랭크 = 시그마( 각 페이지의 페이지 랭크 / 페이지의 링크 갯수 )
와 같이 표현 가능한 것이죠.
적분은 단위별로 적용한다는 정도..;; 단위가 시간인 경우가 많은데, 각 단위 시간에 대해 이공식을 적용한다 정도로 해석가능하겠네요;
3.3 1차, 2차 방정식과 상수
일상 생활 혹은 물리계에서 일어나는 현상을 공식으로 표현하는 경우 실제 테스트를 통해서 나온 통계 데이터를 활용하는 경우가 많습니다. 계속 테스트를 하면서 그래프 그리고 점을 찍어 보니 대충 선분을 그으면서 증가한다면 비례한다고 하면서 곱해주고, 테스트를 하면서 그래프를 그려봤더니 2차 곡선 모양으로 가파르게 올라가더라 하면 2차 방정식이므로 제곱이 비례한다 등과 같이 공식으로 표현합니다.
비례를 하는 것 같은데 2배 차이가 난다면? 곱하기 2를 해야 하겠죠; 이 때 2를 곱했다는 의미로 상수 2가 필요하다고 공식에 써둡니다. 마찰계수와 같은 것들이 예가 되겠군요. 물론, 영어로 요런 상수들을 constant 라고는 잘 안하고요;; coefficient 라고 표현합니다.
1. 들어가기
본 문서는 논문, 위키피디아 등의 문서를 대상으로 하며 특히 컴퓨터 쪽의 기술 문서가 주요 대상임을 일러둡니다.
2. 구성
먼저 가장 중요한 것은 문서의 구성입니다. 논문의 경우,
논문 주제에 대한 동향, 왜 이 논문을 쓰게 되었는가? -> 논문 요약 및 정의 -> 설명 -> 결과 -> 참조 문서
와 같은 형식이고 위키피디아의 경우
정의 -> 세부 설명 -> 참조 문서
와 같은 형식입니다.
제대로 쓰여진 논문이라면 논문의 경우 제목을 가지고 핵심을 잡아 낼 수 있습니다. 볼 만한 문서인지 말이죠. 제목으로 아리송한 경우 내용보다 결과가 우선입니다. 그래서 이 논문으로 무엇을 했느냐를 구체적으로 알 수 있기 때문이죠.
위키 피디아의 경우 가장 처음에 나오는 정의가 가장 중요합니다.
3. 공식
3.1 비례, 반비례
http://en.wikipedia.org/wiki/PageRank 를 보시죠. 너무나도 유명한구글 검색엔진의 알고리즘입니다.
우주인과 통신하기 위해 전송하는 데이터가 수학이라는 것을 알고 계신가요? 그 만큼 공용 언어로써 수학의 힘은 강력합니다. 컴퓨터 관련 논문에서는 간결하고 정확하게 자신이 말하고자 하는 것을 표현하기 위해 간략한 공식을 소개하는 경우가 많습니다.
다시 구글 알고리즘으로 돌아갑시다. 우리의 목표는 수 많은 웹 페이지를 뒤져서 가치있는 녀석을 찾아 고객들에게 보여주는 것입니다. 어떤 페이지가 가치있는 녀석일까요? 구글은 도서관에서 권위있는 논문을 검색하는 방식에서 힌트를 얻었습니다. 어떤 논문을 쓰고 가장 밑에 참조 문헌을 적죠? 100 개의 논문을 봤는데 100 개 모두 하나의 논문을 참조했다면? 뭔진 몰라도 그 논문 괜찮은가 보다 생각할 수 있겠죠. 이렇게 많이 참조된 논문을 가지고 논문의 순위를 매기는 것을 page rank(웹 페이지의 순위) 라고 합니다.
생각을 좀 더 발전시켜 보겠습니다. 많이 소개된 논문이라고 다 좋은 논문인가요? 이렇게 한번 생각해 보죠. 여러분의 블로그가 네이버에 소개 되었습니다. 혹은 여러분의 블로그가 친구의 블로그에 소개되었습니다. 당연히 네이버가 소개해야 좀 더 좋은 유명한 블로그라고 생각할 수 있겠죠. 참조 문서 목록에 있다고 하더라도 어떤 논문이 참조했느냐에 따라 순위의 차등을 두어야 할 것입니다. 즉, 어떤 페이지의 page rank 는 그 페이지를 link 하고 있는 웹 페이지의 page rank 에도 영향을 받게 됩니다.
정리하면 웹 페이지의 순위는 그 페이지를 소개하고 있는 또 다른 페이지들이 많을 수록 높아지고 동시에 소개하고 있는 페이지 자체의 순위가 높을 수록 더 높은 점수를 받아야 한다는 것이죠.
마지막으로 한 가지만 더 생각해 보겠습니다. 유명한 페이지에 저의 블로그가 링크 되었는데, 그 페이지에는 제 블로그 말고도 1000 개의 블로그에 대한 링크가 더 있습니다. 아무리 권위있는 예언자의 말이라도 그 사람이 1년에 수 만개의 이야기를 수다쟁이처럼 떠들어 댄다면 신빙성이 좀 떨어지겠죠. 반대로 유명한 페이지에서 단 하나의 링크만을 가르키고 있다면? 매우 중요한 내용일 것이 분명합니다.
이상을 종합하여 공식을 만들어 봅시다. 공식을 만드는 데는 필요한 수학적 지식은 띄엄띄엄 기억나는 학생 시절의 지식만으로 충분합니다.
어떤 페이지 A, B, C, D 가 있고 B, C, D 페이지가 A 페이지를 링크하고 있다고 가정합니다. A 의 page rank 를 구하고 싶습니다. A 의 page rank 를 줄여서 PR(A) 라고 합시다. 앞서 설명한 내용을 기억해 봅시다. PR(A) 는 A 페이지를 가르키고 있는 페이지의 순위를 모두 더한 합과 같습니다.
PR(A) = PR(B) + PR(C) + PR(D)
각 페이지가 링크하고 있는 페이지의 갯수가 많을 수록 신뢰도가 떨어진다고 했으므로 B, C, D 를 각각 가지고 있는 링크의 갯수로 나누어 주겠습니다. 나눈다는 말의 의미는 반비례한다는 말과 같습니다.
PR(A) = PR(B) / 2 개 링크 있음 + PR(C) / 1 개의 링크가 있음 + PR(D) / 3 개의 링크가 있음
어때요 참 쉽죠? 이상을 정리하면 논문에서 구하고자 하는 값이 "어떤 녀석이 커질 수록 커지더라" 라면 비례관계에 있다고 보고 곱해주면 되고요, "그 녀석이 커지면 내가 구하고자 하는 값이 작아진다" 면 반비례 관계로 보고 나눠주면 되는 것입니다.
3.2 시그마, 미분, 적분
어려운 이야기를 잘 알지도 못하면서 쓰자니 조금 부끄러워 지는 군요. 3.2 는 잘 못된 부분이 있을 수 있으니 걸러 들어 주시기 바랍니다. 간략하게 적어보겠습니다.
3.1에서 언급한 웹 페이지의 합이라는 것이 사실 엄청나게 많은 수 입니다. 이거 쭉 더한다.. 루프나 제귀 돌려서 더한다, 이걸 수학공식으로 표현할 때 앞에 시그마 씌우는 것으로 표현합니다. 즉,
어떤 페이지의 페이지 랭크 = 시그마( 각 페이지의 페이지 랭크 / 페이지의 링크 갯수 )
와 같이 표현 가능한 것이죠.
적분은 단위별로 적용한다는 정도..;; 단위가 시간인 경우가 많은데, 각 단위 시간에 대해 이공식을 적용한다 정도로 해석가능하겠네요;
3.3 1차, 2차 방정식과 상수
일상 생활 혹은 물리계에서 일어나는 현상을 공식으로 표현하는 경우 실제 테스트를 통해서 나온 통계 데이터를 활용하는 경우가 많습니다. 계속 테스트를 하면서 그래프 그리고 점을 찍어 보니 대충 선분을 그으면서 증가한다면 비례한다고 하면서 곱해주고, 테스트를 하면서 그래프를 그려봤더니 2차 곡선 모양으로 가파르게 올라가더라 하면 2차 방정식이므로 제곱이 비례한다 등과 같이 공식으로 표현합니다.
비례를 하는 것 같은데 2배 차이가 난다면? 곱하기 2를 해야 하겠죠; 이 때 2를 곱했다는 의미로 상수 2가 필요하다고 공식에 써둡니다. 마찰계수와 같은 것들이 예가 되겠군요. 물론, 영어로 요런 상수들을 constant 라고는 잘 안하고요;; coefficient 라고 표현합니다.



덧글