보안세상
어셈블리어 정리 본문
1. 어셈블리어란?
어셈블리어는 리버스 엔지니어링을 하기 위한 가장 기초적인 도구입니다. 예컨대 영어공부를 시작하면 알파벳을 배우고 일본어 공부를 시작하면 히라가나를 배우는 거라고 생각하면 됩니다.
하지만 저는 이 어셈블리어를 어떻게 공부해야 할지 막막했습니다. 또한 책을 찾아 공부를 해도 계속 까먹기 때문에 잊어 버릴때마다 참고하기위해 이렇게 글로서 정리하게 되었습니다.
※ 참고
-> 리버스 엔지어링만을 위한 어셈블리어 입니다.
※ 용어 정리
기계어 : 컴퓨터가 읽을 수 있는 2진 숫자로 이루어진 언어
어셈블리어 : 기계어를 사람이 보기 쉽게 문자를 기호화 하여 나타낸 것
디스 어셈블리어 : 기계어를 어셈블리어로 변환하는 것
흔히 어셈블리어는 매우 쉽고 간결하다고 합니다. 그럼에도 어려운 이유는 단순함에 있습니다.
어셈블리어는 C/C++ 코드보다 얼마나 단순한 것일까? 우리가 냉장고에서 물을 꺼내 마시는 것을 생각해봅시다.
※ C/C++ 코드 어셈블리
[사진 1.1]
참고 : 리버스 엔지니어링 바이블, 강병탁 저자, 위키북스
이 두가지의 결정적인 차이는 '한번의 동작을 몇가지 할 수 있는가?' 입니다.
위 [사진 1.1]을 보면 어셈블리는 한번에 한 가지 동작밖에 하지 못한다는 것을 알 수 있습니다.
즉 냉장고에서 물을 꺼내 마시려면 '냉장고 앞으로 간다','냉장고 문을 연다'등 세세하게 지정해줘야 합니다. 이것이 바로 어셈블리의 단순하다는 명제에서 오는 맹점힙니다.
코드가 간단명료하기에 한두줄만 봐서는 어떤 목적으로 만들어 졌는지 알 수 없습니다. 더군다나 많은 부분을 일일히 지정해줘야 하므로 코드의 길이가 굉장히 길어집니다. 그래서 C/C++ 에서 몇 줄 안되는 코드가 어셈블리어로 바꾸면 수십줄로 바뀌는 이유가 여기에 있습니다.
다음에 기회가 되면 세부적인 코드에 연연하지 않고 대략적인 흐름만 파악해서 코드의 목적을 알아내는 여러가지 방법을 작성하도록 하겠습니다.
2. 어셈블리의 명령 포멧
앞으로 사용할 어셈블리는 x86 CPU의 기본 구조인 IA-32를 기본 플랫폼으로 삼아 설명할 예정입니다.
※ 참고
-> IA-32 레지스터에 관해서는 다음장에서 자세히 다뤄보도록 하겠습니다.
일단 IA-32의 기본형태는
'명령어 + 인자' 이다.
명령어는 mov나 push등 즉, 옵코드(opcode)라고 합니다.
인자는 '명령어에 해당하는 값' 또는 '어떤 장소로 값을 넣을 것인가' 등 즉, 오퍼랜드(operand)라고 합니다.
예컨대 'push 123' 이 코드에서 옵코드는 push, 오퍼랜드는 123이라고 할 수 있습니다.
또한 오퍼랜드는 2개가 존재 할 수 있습니다.
예컨대 'mov eax, 1' 여기서 중요한 것은 앞의 오퍼랜드(eax)가 목적지(destination, 이하 dest) 오퍼랜드가 되며 뒤에 오퍼랜드(1)이 출발지(source, 이하 src)가 됩니다.
3. 레지스터
대부분의 책에는 IA-32 레지스터에는 범용 레지스터가 8개 있고 각각의 레지스터의 역할은 .....
이런식으로 적혀 있다. 하지만 이번장에서는 간단하게만 설명하도록 하겠습니다.
※ IA-32 레지스터 참고 링크 -> http://blog.naver.com/aaasssddd25/220906791725
강병탁님이 쓰신 '리버스 엔지니어링 바이블'이라는 책을 보면 레지스터를 어렵게 생각하지 말고 그냥 변수라고 생각하자고 써있습니다. 원론적으로 접근했을 때 실제 변수와는 개념 자체가 완전 다르지만, 쉽고 친근하게 접근하기 위해 변수라고 생각합니다.
'변수는 변수인데, CPU가 사용하는 변수다.' 다만 CPU가 사용하는 변수라서 개수가 몇개 안되서 메모리의 힘을 빌려서 연산을 시작하는 것이라고 생각하자
-> 리버스 엔지니어링 바이블, 강병탁 저자, 위키북스 발췌
C/C++에서 변수의 사친연산이 가능했듯이 레지스터도 레지스터끼리 계산이 가능합니다.
3.1 EAX
가장 많이 쓰는 변수입니다. 특히 더하기, 빼기 등 사칙연산에서 주로 사용된니다.
또한 함수의 리턴값이나 return 100, return FALSE 등의 코드를 사용할때 100이나 FALSE에 해당하는 값이 EAX에 기록됩니다.
3.2 EDX
이것 또한 변수의 일종이라 생각해보자. EAX와 마찬가지로 각종 연산에 사용되지만 리턴 값의 용도로는 사용되지 않는다.
3.3 ECX
C는 Count의 약자로, 우리가 흔히 for문을 사용할때 i의 역할을 한다고 생각하면 됩니다.
다만 일반적으로 우리가 사용하는 for문에 i와 다르게 ECX는 미리 루프를 돌값을 넣어놓습니다. 예컨대 3바퀴를 돈다면 먼저 3으로 설정하고 i--;를 하는것이죠. 카운팅할 필요가 없을 떄는 변수로 사용해도 무방합니다.
3.4 EBX
EBX는 별게 없습니다. 어떤 목적으로 만들어진 레지스터가 아니므로 공간이 더 필요할 때 등 적당한 용도를 프로그래머나 컴파일러가 알아서 만들어서 사용합니다. EAX,ECX,EDX가 부족할 때 사용하기도 합니다.
3.5 ESI, EDI
ESI는 시작지 인덱스(Source Index), EDI는 목적지 인덱스(Destination Index)로 사용됩니다.
쉽게 ESI에서 메모리를 읽어 EDI로 복사한다고 생각하면 됩니다.
3.6 ESP
스택 메모리 주소를 가리킵니다. 도한 어떤 명령어(PUSH, POP 등)은 ESP를 직접 조작합니다.
3.7 EBP
함수가 호출 되었을때 그 순간의 ESP를 저장하고 있다가, 함수가 리턴하기 직전에 다시 ESP에 값을 되돌려줘서 스택이 깨지지 않도록 합니다.
또한 여기서 스택과 관련해 리틀엔디언과 EAX,AX,AH,AL의 개념이 등장하는데 추후에 작성하도록 하겠습니다.
4. 외울 필요가 없는 어셈블리 명령어
'어셈블리 명령어는 정말 너무나 많다. 그래서 사실 그것을 다 암기하기란 사실상 불가능에 가깝다. 필자도 당연히 다 외우고 있지 못하다....중략... 필수 명령어만 머릿속에 집어넣고 나머지는 실제 리버싱을 할때 해당 구문이 나올때 찾아보면 된다.'
-> '리버스 엔지니어링 바이블',강병탁 저자, 위키북스 발췌
4.1 PUSH,POP
스택에 값을 넣는 것을 PUSH, 스택에 있는 값을 가져오는 것이 POP이다.
PUSHAD, POPAD는 모든 레지스터를 PUSH하고 POP하라는 명령어 입니다. 오퍼랜드는 push eax, push 1등 과 같이 1개만 있으면 됩니다.
※ 스택의 FILO(First In Last Out) 구조
스택은 먼저 넣은 것이 나중에 나오고, 나중에 넣은 것이 먼저 나오는 구조입니다.
[그림 4.1]
->
[그림 4.2] [그림 4.3]
[그림 4.1]을 보면 빨간색 공 -> 노란색 공 -> 파란색 공을 넣어주지만
[그림 4.3]을 보면 유리병(스택)의 구조때문에 파란색 -> 노란색 -> 빨간색 공 순서대로 나오게 됩니다. 스택은 이러한 특성을 가지고 있습니다.
4.2 MOV
MOV는 단지 값을 넣는 역할을 합니다. 예컨대 MOV eax, 1은 eax에 1을 넣는 코드가 되고, MOV ebx, ecx는 ebx에 ecx를 넣는 코드가 됩니다.
-> 위에 2. 어셈블리의 명령 포멧을 참고해주세요.
4.3 LEA
LEA는 MOV와 헷갈릴 수 있는데 간단히 이야기 하면,
MOV는 값을 가져오는 것이고 LEA는 주소를 가져오라는 뜻입니다.
이해를 돕기 위해 가정을 해보겠습니다.
※ 가정 : 레지스터와 메모리에 다음과 같은 값이 들어 있다.
4.4 ADD, SUB
ADD는 src에서 dest로 값을 더하는 명령
SUB는 src에서 dest로 값을 빼는 명령
4.5 INT
인터럽트를 일으키는 명령어 입니다. 뒤의 오퍼랜드로 어떤 숫자가 나오느냐에 따라 각기 다른 처리가 일어납니다. 현재 32비트 시대에서는 애플리케이션 레벨에서의 인터럽트는 한계가 있고, ring0 레벨로 내려가기 전까진 거의 사용할 일이 없는 명령어가 되었습니다. 리버스 엔지니어링을 하다보면 INT 3 명령어로 옵코드가 0xCC인 DebugBreak()를 가장 많이 만난다고 합니다.
※ 용어 정리 - 인터럽트란?
운영체제에서 컴퓨터에 예기치 않은 일이 발생하더라도 작동이 중단되지 않고 계속적으로 업무 처리를 할 수 있도록 해주는 기능
4.6 CALL
함수를 호출하는 명령어로 뒤에 오퍼랜드로 번지가 붙는다. 해당 번지를 호출하고 작업이 끝나면 CALL 다음번지로 되돌아 옵니다. 왜냐하면 CALL로 호출된 코드 안에서는 반드시 RET를 만나게 되어 다시 호출한 쪽으로 돌아오기 때문입니다.
4.7 INC,DEC
쉽게 INC는 i++; , DEC i--; 라고 생각하자
4.8 AND, OR, XOR
dest와 src를 연산한다. 여기서 XOR은 dest와 src를 동일한 오퍼랜드로 처리 가능합니다. 예컨대 XOR EAX, EAX를 수행할 경우 EAX가 0이 됩니다. 즉, 같은 값으로 XOR을 하면 0이 되기 떄문에 XOR로 같은 오퍼랜드를 전달했을떄 이것은 변수를 0으로 초기화 하는 효과를 줄 수 있습니다.
※ 비트연산 참고 ->
https://ko.wikipedia.org/wiki/%EB%B9%84%ED%8A%B8_%EC%97%B0%EC%82%B0
4.9 NOP
아무것도 하지 말라는 명령어로 해킹이나 리버스 엔지니어링에서 가장 많이 쓰이는 명령어라고 합니다.
4.10 CMP, JMP
비교해서 점프하는 명령어라고 생각하면 됩니다.
이 정도만 훓어봐도 이후 나오는 어셈블리 명령어는 사실 그때그때 검색하면서 찾는것으로 충분히 보완할 수 있습니다. 모르는 명령어가 나올때마다 구글에 검색해보도록 합시다!
[출처] [정리] 어셈블리어 정리|작성자 칸
'공부 > 리버싱' 카테고리의 다른 글
리틀엔디언이란? 그리고 빅엔디언은? (2) | 2017.03.06 |
---|