[펄 (Perl)] HTML Entity(문자 참조)를 일반 문자로 변환하기


HTML 파일 안에는 HTML Entity라고 불리는(우리말로는 '문자 참조') 구조가 있습니다. 예를 들어 &이라는 문자는 HTML 파일 안에서 &로 씁니다. HTML 파일 안에 &라고 적혀 있으면 웹브라우저가 &라고 표시해주는 것입니다.


문제는 그러한 HTML 파일을 펄에서 바로 읽어버리면 &로 표시되지 않고 &라고 있는 그대로 표시되어버린다는 데에 있습니다. 이를 해결하려면 다음과 같이 하면 됩니다.


#!/usr/bin/perl

use 5.012;

use strict;

use warnings;

use HTML::Entities;


my $test = '&';

say $test; # &라고 출력됩니다.

say decode_entities($test); # &라고 변환되어 출력됩니다.



[펄 (Perl)] 웹사이트 긁어오기


펄을 이용해서 웹사이트를 긁어오려면 LWP::Simple 모듈을 사용하면 됩니다. 코드는 다음과 같습니다.


#!/usr/bin/perl

use 5.012;

use strict;

use warnings;

use LWP::Simple;


my $url = 'http://www.naver.com';

my $webPage = get($url);


if(defined $webPage)

{

    open my $output, '>', 'C:\webpage.html';

    print $output $webPage;

    close $output;

}

else { say "There's no such website!: $url"; }


이렇게 하면 $url 변수에 지정된 웹사이트의 내용을 문자열로 $webPage로 읽어온 뒤 $output 변수에 연결된 파일로 출력하게 됩니다. 만약 웹사이트 주소가 잘못되었다면 오류 메시지가 출력됩니다.


영문이 아닌 문자가 들어있는 웹사이트를 긁어올 경우 Wide character in print at xxx.pl line xx. 라는 경고 메시지가 출력될 수 있습니다. 이것은 오류가 아니라 경고 메시지이며, 이 경우도 정상적으로 파일로 출력됩니다. 하지만 경고 메시지때문에 뭔가 찜찜하다면 binmode $output, ':utf8'; 이라고 한 줄을 더 넣어주시면 됩니다. 아래 코드에 주석으로 강조해 놓았습니다. 엄밀히 말하자면 웹사이트의 인코딩에 따라 근본 문제는 해결되지 않고 오류 메시지만 안 나타나게 되기도 합니다만, 대부분의 경우에는 문제가 없습니다.


#!/usr/bin/perl


use 5.012;

use strict;

use warnings;

use LWP::Simple;


my $url = 'http://www.naver.com';

my $webPage = get($url);


if(defined $webPage)

{

    open my $output, '>', 'C:\webpage.html';

    binmode $output, ':utf8';    # 이부분입니다.

    print $output $webPage;

    close $output;

}

else { say "There's no such website!: $url"; }


갑자기 '기독교 교리를 수학으로 설명하면 이해하기 쉬워지지 않을까?' 하는 생각이 들어서 한번 시도해 봤습니다.

정의역이 온 우주에 존재하는 모든 사람의 집합이고 공역이 참과 거짓인 함수를 생각해 보겠습니다. 이 함수의 이름은 ‘구원’입니다. 수식을 사용해서 써 보면

함수 구원:X -> Y
X = {x | x는 사람}
Y = {참, 거짓}

이렇게 되겠습니다. 모든 사람을 원소나열법으로 쓸 수는 없기에 집합 X를 정의할 때에는 조건제시법을 사용했습니다.

이 구원이라는 함수는 사람이 대입되면 그 사람이 구원받았는지를 알려주는 함수입니다. 예를 들어 '구원(철수) = 참' 이라면 철수는 구원받은 것이고 '구원(철수) = 거짓' 이라면 철수는 구원받지 못한 것입니다. 구원은 모든 사람의 집합을 정의역으로 가지는 함수이기 때문에 철수 영희 갑돌이 갑순이를 다 대입해 볼 수 있지만 바둑이는 대입할 수 없습니다. 로그(log)에 음수를 넣으면 안 되는 것처럼 '구원(바둑이)'는 정의가 되어 있지 않습니다.

이제 우리의 관심사는 ‘무엇을 하면 구원받는가?’ 입니다. 구원의 조건이라고 생각해도 되겠네요. 이를 수학적으로 표현하려면 고등학교 집합과 명제 시간에 배운 명제함수가 필요합니다. 명제함수란 ‘p(x) 이면 q(x) 이다’ 형태의 문장을 뜻합니다. 그러니까 우리는

p(x) 이면 구원(x) 이다

에 해당하는 p(x)를 찾고 싶은 것입니다. 예를 들어 착한 사람이 구원받는다면 '착함(x) 이면 구원(x) 이다' 가 될 것입니다.

여기서 잠시 공리계에 대한 이야기를 해야 합니다. 주어진 이론 체계 안에서 가장 기초적인 근거가 되면서 증명이 필요없이 참으로 인정되는 명제를 공리라고 하고, 그런 공리들을 모아놓은 것을 공리계라고 합니다. 수학에서는 증명을 할 때 어떤 공리계를 사용하느냐가 중요한데, 우리는 기독교 신앙에 대해 이야기하고 있으니 우리의 공리계는 성경책이 되겠습니다. 공리계에 대해서는 나중에 더 자세히 이야기 할 기회가 있을 것입니다. 하여튼 지금은 공리계에 있는 명제는 그냥 묻지도 따지지도 말고 참이라는 것만 짚고 넘어가도록 하겠습니다.

다시 구원 이야기로 돌아와서, 우리가 찾고 싶은 구원의 조건인 p(x)에 대해 성경은 “이르되 주 예수를 믿으라 그리하면 너와 네 집이 구원을 받으리라 하고 (사도행전 16:31)” 라고 말합니다. 이건 성경이라는 우리의 공리계 안에서는 따질 필요 없이 참입니다. 이 구절에서 용어를 그대로 따 와서, 어떤 사람이 주 예수를 믿는지의 여부를 알려주는 ‘믿음’이라는 함수를 생각해 보면 다음과 같이 됩니다.

믿음(x) 이면 구원(x) 이다

예를 들어 x에 영희를 대입하면 "믿음(영희) 이면 구원(영희) 이다", 즉 "영희는 주 예수를 믿는다. 그러므로 영희는 구원받았다." 라고 말할 수 있겠습니다.

그러면 구원 받을 수 있는 다른 조건이 있나? 즉 위의 p(x)에 믿음(x) 대신 들어갈 수 있는 함수가 있을까? 하는 궁금증이 생기는데, 그 이야기는 기회가 되면 해 보도록 하겠습니다. 이거 은근 재미있네요 ㅋ

+ Recent posts