'전체 글'에 해당되는 글 148건

딥러닝 4

공부/딥러닝 2020. 10. 29. 01:34
반응형

#Artificial Neural Network

History

  • 1943년 Warren McCulloch, Walter Pitts가 제안
  • 1950년대 Perceptron 나옴(응용 가능할만해짐 하지만 선형분리만 가능
  • 1990년대 Multi-layered Perceptron(선형 분리문제 해결했지만 층을 많이 쌓으면 잘 안되는 문제점)
  • 요즘 Deep Neural Network
  • 거의 산업 전 분야에 적용됨.

개념

입력층, 은닉층, 출력층으로 구분됨

 

은닉층의 개수에 따라 분류 가능

 

층을 많이 쌓을수록 복잡한 문제들을 학습가능하지만 시간이 오래걸림

 

 

에러 : 예측값(0~1사이 값)과 정답의 차이

에러가 발생한 부분만큼을 feedback함

노드의 선들에 weight가 있음

 

모델은 구조 + weight값으로 정의가능

 

 

Perceptron

 

가장 단순한 형태의 신경망

다수의 신호를 입력으로 받아들여 하나의 신호(원하는)를 출력하는 알고리즘

 

 

Machine learning by perceptron

 

다음의 데이터로 가중치, 편항, 활성함수를 구해야함.

 

 

- weight value

 

전기회로의 저항과 유사하지만 인공신경망에서는 weight value가 크면 입력값이 출력에 많이 전달되고, 작으면 입력값이 출력에 적게 전달된다.

만약 x1은 큰값이고, x2는 작은 값일 경우, x1w1 + x2w2할 경우 x2가 잘 반영이 되지 않는다.

 

- 편향

 

b값에 따라 y값이 0또는1에 치우친 값이 나오므로 편향이라고 함.

만약 환자 = 0, 정상인 = 1로 진단하는 인공 신경망이 있을 때, 환자를 정상인으로 오인하는 것을 막기위해 |b|값을 크게 함 => 정상인이라는 증거가 충분히 클때만 정상인으로 판단

 

* weight = 각각의 입력신호가 출력에 영향을 주는 정도 조절

* bias(편향) = 뉴런이 얼마나 쉽게 활성화 되는지를 조절

 

예를 들어 and 연산을 구하는 인공신경망을 어떻게 만드는가?

머신러닝으로 weight, bias, 임계점 구함

 

 

Design of neural network

input node의 수는 feature의 수이다.

output node의 수는 class의 수이다.

 

 

4개의 클래스를 구분하기 위해선

|0|0|1|1|                                    |1|0|0|0| =>1

|0|1|0|1|                                    |0|1|0|0| => 2

 |  |  | |                                     |0|0|0|1| => 3

 |  |  | |                                    |0|0|0|1|  => 4

 v v v v                                   

1, 2, 3, 4

 

처음의 경우가 아닌 뒤의 경우로 4가지 클래스를 구분한다.

 

인공신경망을 설계할때

1. 히든 레이어의 수

2. 히든 레이어 별 노드수

3. 활성함수(모든 레이어마다)

4. bias 값

을 구해야 할 것이다.

 

곱셈연산을 하므로 값이 1 이상이 나오지않게 각 노드들의 값은 0~1사이이다.

 

선형분리 문제만 해결가능한 것을 극복하기 위해 다층 perception을 사용한다.

728x90
반응형

'공부 > 딥러닝' 카테고리의 다른 글

CIFAR-10 의 레이블중 하나를 예측  (0) 2021.05.09
classification 경진대회  (0) 2021.05.03
딥러닝 3  (0) 2020.10.09
딥러닝 2  (0) 2020.09.29
딥러닝 1  (0) 2020.09.25
블로그 이미지

아상관없어

,
반응형

Control Hijacking Attacks


  • control flow
    프로그램이 여러개의 문장 또는 명령어로 되어있는데, 프로그램에 있는 문장, 명령어, 함수 호출들이 실행되는 순서를 의미한다.

  • Control Hijacking Attacks
    프로그램의 에러를 활용한다.
    메모리조작 취약점을 사용한다.(메모리를 깨뜨리는 취약점)
    runtime때 의도된 제어프름을 덮어쓴다.

    • control Hijacking Attacks = Control-flow hijacking attacks
      control flow을 바꾼다.
      code pointer의 위치가 바뀌어진다. => PC(program counter)에 영향을 주는 값이 code pointer이다. 따라서 다음에 실행될 명령어가 달라진다.
      접근하지 못하는 메모리 영역을 바꾼다. => 변조되지 않아야할 영역까지도 달라질 수 있다.

      주로

      1. code injection attack
      2. code reuser attack
        이 있다.

Control Flow Graphs


프로그램들은 basic block들로 구성되어 있다.
CFG는 basic block들이 어떤 순서대로 흘러가는지 보여준다.

 

  • basic block
    프로그램의 일부로, 실행되는 코드영역이다. 차례차례 실행되는 프로그램 영역이다.

    하나의 진입점이 있으면 진출점도 하나밖에 없다.

    basic block 안에서는 모든 명령들이 순차적으로 실행된다.

  • control flow graph
    방향이 있으며 노드는 basic block을 가리키고 엣지는 control flow path를 가리킨다.

Code Injection Attack & Code Reuse Attack


  • Code injection attack 일반적인 방식

    공격자는 새로운 basic block을 추가하고 취약한 노드의 제어흐름을 조작한다.

  • Code reuse attack 일반적인 방식

    공격자가 새로 추가하는 노드는 없다.
    노드의 취약점으로 본래의 다른 노드로 가게 흐름을 바꾼다.

Code Injection Attack

control hijacking 중 하나이며 흐름이 주입된 코드로 덮여쓰여진다.
일반적으로 shell code를 주입한다.

shell code는 주로 버퍼에 저장되며 제어 흐름을 shell로 이동시켜주는 역할을 한다.(새로운 shell이 만들어짐)
shell code는 기계어로써, 프로세서와 운영체제에 따라 다르게 작성되어야한다.

Code Reuse Attack

원래 프로그램 코드를 의도하지 않은 방향으로 조작한다.
일반적으로 실행가능한 코드는 code segment와 library에 존재한다.

예시로 Ret2Libc, Rop, Jop가 있다.

Return-to-libc Attacks


  • Non executable Stack 우회 가능

const char code는 전역변수이다. 전역변수는 Data segment에 위치한다.

 

((void(*)()))buffer)()로 함수포인터로 cast한다.

 

지역변수 buffer의 주소로 함수를 호출한다.

 

buffer가 지역변수이기 때문에 실행되진 않는다.(non executable stack)

하지만 code를 직접실행하면 된다.

 

 

 

** 함수포인터?

 

 

 

어떻게 non executable stack을 우회할 것인가?

 

libc => c는 common으로 모든 프로그램에 연결되는 공통 라이브러리를 뜻한다.

libc 안의 "system" 함수의 취약점을 사용한다.

system함수는 인자로 들어오는 명령어들을 실행해준다.

 

return address를 system함수가 있는 위치로 가게하고 인자로 원하는 명령어를 준다면 공격이 성공할 것이다.

 

 

그림의 경우 버퍼의 크기는 100바이트 이다.

정상적이라면 왼쪽 그림과 같은 상황인데, 여기서 버퍼를 넘치게하여 리턴 주소와 함수 인자를 조작하여야한다.

 

일반적으로 함수가 호출될때 리턴 주소위에 인자가 있다.

 

따라서 이점을 이용한다면 system함수를 호출하고 인자로 원하는 명령어를 넣을 수 있다.

 

1. return address에 system의 주소를 가리키게한다.

2. saved ebp는 아무값이나 주어도된다.

3. system함수의 인자로 /bin/sh의 주소를 준다. => /bin/sh이 있는 환경변수의 위치가 주소일것이다.

4. crash가 나지 않게하기위해 exit를 넣어준다. => 왜냐하면 인자 밑이 리턴주소인데, system 함수 인자인 /bin/sh의 주소 밑이 return address가 되므로 exit가 return address가 된다. 

 

 

일종의 system 이라는 것이 call 되는 것이고, 시스템 함수가 call 되면 arg가 쌓이고 return address가 쌓인다.

따라서 exit가 return address가 된다.

 

-------------------

|  arg = bin/sh   |

-------------------

| ret = exit        |

-------------------

|   addr(system) |

-------------------

 

 

 

따라서 여기서 버퍼의 크기는 80바이트이다. 공격을 위해선 saved ebp, ret(addr(system)), exit, addr(shellcode) 4가지가 필요하므로

32bit 컴퓨터라 가정시 버퍼에 총 96바이트가 들어가야한다.

 

따라서 원래 버퍼에 80바이트 만큼 A를 넣어준다. 그리고 saved ebp에 4바이트의 B를 넣고, system이 있는 곳 0x40058ae0을, 위의 예시에선 exit를 넣어주지 않고 아무값이나 넣었다. addr(shellcode) = system함수의 인자에는 /bin/sh이 있는 곳 환경변수의 주소를 넣었다.

 

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Access Control & DAC (1)  (0) 2020.12.03
Return-Oriented Progamming  (0) 2020.11.03
Other Overflow Attacks  (0) 2020.10.16
Buffer Over flow 2  (0) 2020.10.16
Buffer Overflow Attacks 1  (0) 2020.10.16
블로그 이미지

아상관없어

,
반응형

버퍼가 heap에 있어야함. => malloc, calloc

heap에는 ret이 없어서 흐름 조작하기 어려움.

 

chunk에는 함수에 대한 포인터 변수 process가 있음

malloc으로 64+4 = 68바이트를 할당함.( 함수 포인터 4byte)

 

showlen을 process로 넘기고 gets를 이용하여 인자를 받음

 

밑의 b코드를 부면 shell code를 넣기 위해 nop를 채우고 쉘코드를 넣는다 (64byte만큼) inp가 64이므로

그리고 64byte 다음에 주소를 넣는다. 이값은 gets를 통해서 전달이 된다.

(리턴 주소는 못 덮어주므로 함수에 대한 포인터 변수를 덮어씀)

 

attack2 | buffer5를 하면  |는 파이프로 프로세스간 통신이 가능하게 해준다.

떠라서 attack2의 값이 넘어간다.

64byte를 넘어 주소값이 포인터 변수를 덮어 쓰게 된다. 주소값은 inp[0] ~[17]사이의 아무 주소이다.

nop을 실행하게 한다.

 

 

 

 

*방어법

 

 

함수 포인터 위치를 inp위로 =>inp가 넘쳐도 함수 포인터는 영향이 없다

또는 힙에서 명령어가 실행되지 않게 한다.

 

 

 

 

 

 

***전역변수 공격

 

heap과 동일한 방법임

 

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Return-Oriented Progamming  (0) 2020.11.03
Return-tol-libc Attacks  (0) 2020.10.17
Buffer Over flow 2  (0) 2020.10.16
Buffer Overflow Attacks 1  (0) 2020.10.16
set-UID Privileged programs  (0) 2020.10.15
블로그 이미지

아상관없어

,

Buffer Over flow 2

공부/보안 2020. 10. 16. 22:00
반응형

버퍼 오버플로우 => 버퍼가 수용할 수 있는 것보다 더 많이 입력을 받아 주변에 있는 다른 정보를 덮어쓸 수 있는 조건이다.

 

c언어에서 많이 발생한다. c언어는 쓰기 연산이 주어진 범위 내에서 일어나는지 체크하지 않는다.

 

 

 

버퍼 오버 플로우 공격 준비

 

1. 프로그램 내에 버퍼오버 플로우가 존재하는지 확인한다.

2. 실행 중인 프로세스에 굉장히 큰 입력을 주어서 그 프로그램의 실행을 추적한다.

3. fuzzing = 잠재적으로 취약하다고 생각되는 프로그램이 실제로 취약한지 아닌지를 임의의 입력을 주어서(자동으로 주입)어떻게 반응하는지 관찰하는 기법

 

메모리에 버퍼가 어떻게 저장되는지을 알아야 공격 방법을 이해할수 잇다.

 

결과로 공격자가 제어 이동이 가능하고 메모리 접근 위배를 할 수 있고 공격자가 원하는 코드 실행이 가능하다.

메모리 접근 위배 => 예로 stack에 악성 코드를 주입해서 실행한다면, 이것은 메모리 접근을 위배함. 본래 메모리 접근상 스택은 읽고 쓸 수만 있기 때문이다.

 

*버퍼 오버플로우는 스택만이아니라 다른 곳에서도 가능하다.

 

 

- 기계어 수준 : 모든 데이터는 바이트의 배열이다. 사용하는 명령어에 따라 해석된다.

- 현대 고급언어 : 대부분 strong type을 씀. 자바나 파이썬은 버퍼오버플로우에 취약하지 않음 하지만 JVM이 필요하고 속도가 느림

- c언어 : 메모리 직접접근 가능 따라서 권한이 막강하지만 버퍼오버플로우에 취약함.

 

 

버퍼 오버플로우를 막기위해 안전한 함수들을 사용함.

strncpy는 마지막에 null을 포함하지 않으므로 strlcpy를 사용하는 것이 좋다.

 

 

* strings 명령어

 

strings 명령어를 사용하면 프로그램에 있는 모든 문자열을 볼 수 있다.

따라서 실행 파일 내에 어떤 취약한 라이브러리가 있는지 확인 가능하다.

 

 

 

 

 

 

 

 

 

 

 

 

 

공격을 하기 위해선 AT&T syntax인지 Intel syntax인지 고려하여야 된다.

또한 Big, Little endian인지도 고려하여야 된다.

 

버퍼 오버플로우는 효과적이고 원격으로도 공격이 가능하다.

 

하지만 아키텍쳐에 의존적이고 (at&t, intel or big little endian) 

운영체제에 의존적이다 => 취약한 라이브러리나 시스템콜을 사용하는가

주소를 추측해야한다. 

 

오버플로우는 ret이나 saved ebp 등을 바꾸어 공격할 수 도 있다.

 

 

 

 

 

 

방어기법

==========================================================

 

프로그래밍 언어를 자바나 파이썬을 사용한다. -> 경계체크를 하기 때문에

 

프로그램 정적 분석기를 사용한다. => 여러 개발자들이 함께 큰 프로그램을 만들었을때 사용이 편함

(SDLC => 소프트웨어 개발 생명 주기를 늘려줌)

 

 

컴파일러 수준에서는 스택가드를 사용하거나 스택 쉴드를 사용한다.

함수가 호출 될때 가드를 설정하고 함수를 리턴할때 가드가 제대로 남아있는 지 확인 한다.

(가드는 함수 호출할때 미리 설정한다.)

 

스택 쉴드는 2개의 스택을 사용한다.

리턴 주소만 저장하는 shadow 스택을 사용하여 함수가 리턴될때 call stack, shadow stack을 비교하여 일치하지 않을 경우 종료 시킴

 

 

** 스택 보호기법 해제법

 

 

 

 

 

특정한 영역을 실행 불가능하게 한다.

stack이나 heap아니 global data에 명령어가 있으면 실행하지 못하게 함(code segment는 당연히 실행해야함)

메모리 관리 장치의 도움이 필요하다.

 

 

하지만, LISP과 같이 stack에서 실행해야하는 언어들은 사용이 불가능함.

 

 

어떤 메모리 영역은 w나 x둘중 하나만 제공해줌

그것을 하버드 아키텍쳐라고 부름 코드와 데이터를 엄격히 분리 시켜줌

 

하지만 JIT과 같이 heap에서 실행해야하는 경우가 있다.

return to libc 공격을 막을 수 없음

 

 

data 영역으로 바뀔 경우 DEP가 막아주어 d 코드가 실행되지 않게 해줌

 

 

주소를 랜덤화시킴

 

 

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Return-tol-libc Attacks  (0) 2020.10.17
Other Overflow Attacks  (0) 2020.10.16
Buffer Overflow Attacks 1  (0) 2020.10.16
set-UID Privileged programs  (0) 2020.10.15
운영체제보안 4  (0) 2020.09.22
블로그 이미지

아상관없어

,
반응형

Stack 기본 개념

====================================================================

Data segment에는 초기화된 전역변수가 들어가고, BSS segment에는 정적변수, 초기화되지 않은 전역변수가 들어간다. (BSS = Block Started by Symbol)

ptr 안의 값은 Heap 영역에 있게 된다.

 

ebp는 stack의 base pointer이다. 

b는 ebp에서 12byte 위에 저장이 되는 것을 알 수 있다.

 

PC는 다음에 실행할 명령어의 위치를 가리키며, Text segment에 있다.

f가 호출되면 f의 stack frame이 push된다.

 

ebp는 하드웨어적으로 하나 밖에 없음.

가장 마지막에 stack에 push된 프레임을 가르킴.

 

 

fopen을 하여 read로 badfile을 open하고, open한 파일의 포인터를 변수badfile에 줌

그리고 badfile 변수가 가르키는 포인터로부터 300바이트를 읽어서 str로 가져옴.

 

 

foo는 300바이트를 받아서 strcpy를 함.

foo에 대한 스택 프레임이 생성됨.

 

300바이트를 100바이트에 카피하게됨 => 넘치게됨.

 

버퍼가 넘치게 되면서 return 주소가 덮여쓰여지게 된다. 

 

정상적인 명령들은 code segment에 잇음

 

return주소가 커널 영역을 가리키면 Access violation이 일어난다.

 

공격에 성공하면 공격자의 코드가 실행됨

 

버퍼에 300바이트를 주면 ret이 바뀌게 되고 ret이 악의적인 실행코드를 가리키도록 함.

 

실습하기 위해선 설정을 해야함.

 

1. 주소를 랜덤화하는 방어기법을 끈다.

2. 스택에서 명령어가 실행되도록 하고, stack protector를 끈다.

3. owner를 root로 하고, setUID bit를 설정한다.

 

공격자 입장에서는 두가지 문제점이 있음.

 

1. 버퍼와 리턴 주소의 차이 거리(offset)를 알아야함. => 그래야 리턴 주소 변경가능

2. 쉘코드를 어디에 넣을 것이냐? => 리턴 주소가 쉘코드를 가리키게 해야함

 

디버깅을 하여 foo를 break함

ebp를 보면 0xfffeaf8임을 알 수 있고 buffer의 시작주소가 0xbfffea8c임을 알 수있다.

그 차이는 108byte임을 알 수 있다.

saved ebp 4byte를 더하면 버퍼 시작으로부터 리턴 주소가 112바이트 만큼 떨어져잇음을 알 수 있다.

 

인자가 어디에 전달되는지 봐야함.

인자의 주소를 확인하면 0xbffff370임을 알 수 있다.

 

리턴 주소위에 인자가 쌓이므로 악의적 코드는 인자보다 위에 쌓으면 됨.

NOP을 넣어서 아무것도 실행하지 않는 코드를 넣는다

NOP는 다음 NOP로 다음 명령어를 넘기므로 계속해서 넘기다보면 악의적인 코드를 실행하게 됨.

 

디버깅을 통해 버퍼의 시작주소 리턴 주소간의 간격을 알았고, 리턴 주소에는 nop중 하나의 위치를 가리키게함.

 

파이썬으로 badfile을 만드는 것이다.

300 바이트를 nop로 채우고 쉘코드를 젤 뒤에 넣는다.

리턴주소는 버퍼의 시작주소에서 112만큼 뒤에 있다.

 

euid가 root로 바뀐것을 볼 수 있다.

 

dash는 보호기법이 있기때문에 zhs를 사용해야한다.

dash는 setUID 프로세스 내에서 실행될때 권한이 내려간다(real user)

 

기계어를 사용해야하지만 컴파일러를 통해서 만듬

name[0]  => bin/sh의 주소

name의 주소, NULL

 

execve는 11번임

주소값 bin/sh의 주소

argv의 주소

int 0x80 => 소프트웨어 인터럽트를 검

al에는 execve 콜 번호 11이 들어감

 

 

ebx 첫번째 인자 => bin/sh의 주소

eax => execve 번호 11

ecx => argv 주소

edx => 0

 

 

 

 

 

대응책

==================================================

1. 안전한 함수 사용

2. 안전한 라이브러리 사용 => 경계를 체크하는 함수

 

운영체제 => ASLR

 

컴파일러 => 스택가드

 

HW => NX bit

 

 

ASLR

---------------------

스택의 위치를 랜덤화 시킨다. => 코드가 메모리에 적재될 때 마다

공격자는 주소를 모르게 되고 ret과 shell code의 위치를 알기 어려움

 

sysctl -w kernel.randomize.va.space => 0,1,2 

 

2로 하였을때 완벽하진 않음

 

 

./stack을 12524번 실행하면 공격이 된 것을 알 수있음

 

 

 

 

 

Stack Guard

---------------------------------------------------------------------------------------------------------------------

 

guard를 0x00이나 NULL을 쓰면 ret을 덮어쓸수 없다 => NULL에서 끝나기 때문에

guard가 덮여쓰여지지 않으면 실행하고 덮여쓰여지면 중지함, canary라고도 함

 

dash는 EUID와 RUID가 다르면 setUID 프로그램을 non setUID프로그램으로 만듬

 

따라서 RUID를 높여야한다.

그러므로 복잡해진다 공격코드가

dash도 안전하진 않음

 

 

NX bit

----------------------------------------------------------------------------------------------------------------

메모리 영역 중 일부를 명령어가 실행되지 않도록 한다.

공격 코드가 들어가더라도 실행이 되지 않도록한다.

 

 

 

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Other Overflow Attacks  (0) 2020.10.16
Buffer Over flow 2  (0) 2020.10.16
set-UID Privileged programs  (0) 2020.10.15
운영체제보안 4  (0) 2020.09.22
운영체제보안 3  (0) 2020.09.16
블로그 이미지

아상관없어

,
반응형

Set- UID Privileged Programs


Need for Privilieged Programs

예를 들어 /etc/shadow 파일의 권한을 보면

-rw-r----- 1 root shadow 1443

=> 오직 오너만이 write할 수 있다.

하지만 일반 유저들이 그들의 비밀번호를 바꿀때 어떻게 바꿀 수 있을까? 특권 프로그램을 이용해서 바꾼다

일반적으로 운영체제 내에서 세부적으로 접근 제어를 하는 것은 굉장히 복잡하다.
rwx 3가지 권한을 세부적으로 할 경우 write를 1. 앞에 2. 중간에 3. 뒤에 와 같이 3가지로 나눌 수 있다. 하지만 복잡해진다.

따라서 rwx + 3bits 총 12비트로 permission을 나타낸다.
(확장, fine-grained access control을 위해 3bits를 추가한다.)

일반적으로 OS가 제공하는 접근제어를 바로 사용가능하지만 (e.g system call)
특별한 경우(e.g root가 가진 파일 수정)는 특권 프로그램이 필요하다! => setUID가 설정된 프로그램이 필요하다! 혹은 daemons
(관리자(super user)를 믿는다고 가정한다. 일반 사용자들은 특권 프로그램을 이용해서 바꿀 수 있다)

Different Type of Privileged Programs

  1. Daemons in Linux (MS Windows 에서는 services)
    백그라운드에서 계속 수행된다. 따라서 키보드로 부터 입력을 받을 수 없다.
    root나 특권을 가진 유저의 권한으로 실행해야한다.

    • 만약 daemon에게 요청을 하고 요청이 타당하면 daemon이 수행한다.
      (특히 Network는 Service를 위해 daemon들을 많이 사용한다.
      ps - af, ef, af 등을 통하여 모든 프로세스들을 보면 d로 끝나는 것들이 있다.
      Network daemon을 뜻한다. => 중요한 일을 하므로 root의 권한을 주던지 어떤 특권이 있는 사용자의 권한으로 돌아간다.
      중요한 일을 하므로 daemon을 임의로 만들지 못한다.
  2. Set-UID Programs
    Unix 시스템에서 사용된다.
    특정한 비트가 표시되어있는 프로그램이다.

Set-UID Concept

  • superman story

    1. Power suit 1.0
      Super man은 자신의 모든 권한을 superpeople 준다.
      문제점 : superpeople중 나쁜 사람이 있을 수 있다.

    2. Power Suit 2.0
      주어진 일만 가능하게 한다.
      특정한 일을 위한 컴퓨터 칩을 같이 내장한다. => chip에서 시킨 일만 함
      미리 프로그래밍이 되어 있어 프로그래밍된 일만 한다.

setUID는 위와 같은 매커니즘을 리눅스 운영체제에 구현한 것이다.
  • 프로그램의 소유자 권한으로 실행을 할 수 있게 해준다.

  • 일시적으로 권한을 상승시켜준다.

    예시)
    $ ls -l /usr/bin/passwd

    -rwsr-xr-x 1 root root 41284 Sep 12 2012 /usr/bin/passwd

    • s : setUID가 설정되었다.
    • others가 r-w로 누구나 실행가능하다. => 실행하는 동안 권한이 root로 상승된다.
    • /usr/bin/passwd : pw 변경 명령어 이다.

root가 실행? => RUID == EUID
seed가 실행? => RUID != EUID
(EUID = 현재 명령을 수행하는 주체의 UID, RUID : real UID 프로세스의 주인)

  • 일시적으로 권한을 상승시켜주기위하여 프로세스들은 사용자 ID를 두가지 가진다.

  • Real UID : 프로세스의 실제 주인

  • Effective UID (유효 사용자 아이디) : 권한 식별
    (권한 제어는 EUID에 기반한다.)

  • 일반 프로그램이 실행되었을때 RUID와 EUID는 같지만, setUID 가 실행되었을때는 다르다.

mycat의 owner를 root로 변경하였다.

mycat으로 /etc/shadow를 보려하면 권한이 없는 것을 볼 수 있다.

chmod로 "4"775로 setUID를 설정하였다. (setUID bit 설정)

그러자 /etc/shadow를 볼 수 있다.

setUID bit를 설정하였을 때, euid가 root가 됨을 알 수 있다.

exec전에는 RUID=EUID=25

exec을 하면서 owner가 17이고 setUID가 설정된 program을 실행함.

그러면 EUID가 17로 변경이 됨

i=getruid => ruid를 가져와서

setuidI(i) => euid를 이전의 상태로 돌림

Unix setuid그림을 보면

setuid bit가 0, 1일때 각각 euid를 보면 201, 100인 것을 볼 수있다.

pid1 = 모든 사용자 프로세스의 조상 (처음에 만들어지고 1번으로 계속 남아있음)

pid 523 ruid 0 euid 0 => pid 523 ruid 42 euid 42

setgroups, setgid, setuid를 실행하면 변경됨을 알 수 있다.

다시한번 예시를 보면

setUID bit를 설정해주면 일시적 권한 상승으로 소유자 권한으로 실행되는 것을 볼 수 있다.

setUID 보안?

  • 일반 유저들에게 권한을 상승시켜준다.

    • 슈퍼맨의 컴퓨터 칩처럼 행동이 제한되어있다.
    • setUID 내 포함된 행위만 가능하다
  • sudo command와 달리 직접 권한을 주는것은 아니다.
    (sudo => 1. root의 pw 아는 경우

         2. 다른 user(권한이 있는) pw 아는 경우
       3. /etc/shadow file에 사용자가 등록되어 있는 경우
       )
  • 만약 superman이 "북쪽으로 가서 왼쪽으로 틀고 성벽을 부셔라"라는 명령을 할때, 만약 명령을 받는 Mallory가 지구 반대편에 있고, 성벽의 반대쪽에 은행이 있다고 할 경우, Mallory의 기준에서 북쪽으로 가서 왼쪽으로 틀면 은행이 나올것이다. 그러면 Mallory는 은행을 털 수 있다.
    따라서 chip안의 SW구현도 중요하다!

Attack Surfave of Set-UID Programs

  1. 사용자의 입력으로 부터
  2. 사용자가 제어할 수 있는 시스템 입력을 통해서
  3. 환경변수
  4. 사용자에 의해 제어되는 비특권 프로세스 이용

1. 사용자의 입력

  • 버퍼 오버플로우

  • Format String Vulerability ( string형태로 유저입력을 받았을 때 프로그램을 바꿈)

  • chsh 명령어

    default shell을 바꾸는 명령(setUID 프로그램이다)

    shell 프로그램은 /etc/passwd 파일의 마지막 filed에 표시되어 있음.

입력값은 두개의 줄을 포함할 수 있다. 따라서 첫번재 라인은 정상적이고 두번째 라인에 root 계정을 만들도록 할 수 있다.  
혹은 만약 공격자가 3, 4번째 필드(UID, GID)에 0을 넣는다면 root 계정을 만들 수 잇다.
  • 시스템 inputs (사용자가 통제 가능한 시스템 input을 통해서도 setUID 프로그램 공격이 가능하다.)
    경쟁 조건

2. 환경변수

  • 환경 변수를 사용해서 setUID 프로그램 공격이 가능하다.

  • 환경 변수는 printenv나 env명령어를 통해 확인 가능하다.

  • 등호 앞에 있는 것이 환경변수이고 오른쪽이 환경변수에 들어있는 값이다.
    (PWD = /home/scho)

일반적으로 파일의 경로를 지정할때 절대 경로나 상대 경로를 지정할 수 있다.
모든 명령들은 어떠한 폴더 아래에 존재한다.

system("/bin/sh") => 값을 입력받아 명령을 수행함을 알 수 있다.
system(ls)를 할 경우 운영체제가 알아서 경로를 찾아서 ls를 실행한다.
이때 환경변수를 사용하여 알아서 경로를 찾음
echo path를 하면
:로 경로가 구분되어있고 처음 경로부터 해당 경로에 파일이 있는지 찾는다.
path라는 환경변수에 등록된 경로들 순서대로 명령을 찾는다.

cd /home/attacker
vi attack.c
gcc -o ls attack.c
export PATH=/home/attacker/:$PATH:/home/user1/bin

이러한 상황에서 공격자가 home 밑의 attack 파일을 만든다.
그리고 실행파일을 ls로 하고 환경변수를 바꾼다.
그러면 ls를 명령으로 입력하였을때 /bin/ls가 아닌 /home/attacker/ls가 실행된다.

  • Capability Leaking

    자격 유출
    어떤 특권 프로그램은 실행 중에 자기 자신의 권한을 다운그레이드한다.
    대표적으로 su라는 명령어는 switch user로 사용자를 바꾸는 명령어다.
    setUID프로그램이다.

    예시로 user1에서 user2로 바꿀때, EUID는 root이고 RUID는 user1이다.
    그리고 비밀번호가 확인되었을때 RUID와 EUID는 동일하다. 그리고 EUID는 root에서 user2로 내려간다.

<set UID 프로그램의 소스>

/etc/zzz의 owner는 root이고 root만 writable하다.

fd 0은 표준입력 , 1은 표준 출력, 2는 표준에러이고 프로세스가 생성되자마자 default로 open된다.

따라서 open성공시 fd는 3이된다.

setuid(getuid()) => real uid를 가져와서 euid로 설정한다. (실행하는 사람은 root가 아님)

새로운 shell을 실행한다. 그 프로세스는 이전에 open된 파일을 그래도 상속한다. (fd 0, 1, 2, 3)

cap_leak을 owner를 root로 하고 setUID bit를 설정한다.

/etc/zzz에 쓰기를 할 수없다.

하지만 cap_leak을 실행하면 파일의 owner인 root의 권한으로 상승되고, fd를 상속받았으므로 fd 3이 open된 /etc/zzz이고 그곳에 ccccccccccc가 적혀진다.

그리고 새로운 쉘을 빠져나오면 ccccccccccccccc가 쓰여진 것을 알 수 있다.

높은 권한을 가진 EUID가 중요한 파일을 open한 상태로 새로운 shell이 상속받아 문제가 발생하였다.

getuid : real user ID

geteuid : effective user ID

setuid : set effecitive user ID

3. Invoking Programs

  • 하나의 프로그램 내에서 외부 명령어 수행

  • 외부 명령어가 setUID 내에서 실행된다면 안전하지 않거나 엉뚱한 결과를 보여줌

  • 공격 : 사용자는 명령에 대한 입력 데이터를 줌, 명령이 제대로 호줄 되지 않으면 유저 입력 데이터는 명령어 이름으로 될 수 있음.

system은 외부 명령어를 호출하는 함수이다.

root소유 setUID프로그램이다. 따라서 프로그램은 모든 파일을 볼 수 있지만 쓰기는 하지 못한다.

 

실행권한이 마지막 r-x이므로 누구나 실행이 가능하다.

';'은 shell에 두개 이상의 명령어를 줄 수 있게 한다. 예시) ls;ps ls;cp a b

(root가 owner인 setUId프로그램이기 때문에 shell이 뜰때 root shell이 뜬다. => $가 아니라 #)

aa를 입력하고 그 뒤 /bin/sh를 입력한다.

그러면 uid는 1000이지만 euid가 0임을 알 수 있다.

 

execve을 사용하여 명령어 + 인자로 나누어주면 안전해 질 수 있다.

 

"aa;/bin/sh"를 하나의 인자로 인식힌다.

 

 

Principle of Isolation

 

system() 사용 줄임

권한이 필요할 때만 잠시 상승 하지만 그 권한이 더이상 필요없을땐 권한을 다시 낮춘다.

 

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Buffer Over flow 2  (0) 2020.10.16
Buffer Overflow Attacks 1  (0) 2020.10.16
운영체제보안 4  (0) 2020.09.22
운영체제보안 3  (0) 2020.09.16
운영체제 보안 2  (0) 2020.09.10
블로그 이미지

아상관없어

,

딥러닝 3

공부/딥러닝 2020. 10. 9. 17:12
반응형

Learing for classification => class를 나누는 경계선을 찾는 문제였음

경계선을 직선으로 할 경우 오류가 많지만 곡선으로 할 경우 오류가 줄어들음

Scikit-learn classifiers

  • Logistic regression
  • KNN'
  • Support Vector Machine (SVM)
  • Naive Bayes
  • Decision Tree
  • Random Forest
  • AdaBoost
  • xgboost(Not in scikit-learn)

여러 classifier들이 있지만, 어떤 방법이 현재 가지고 있는 데이터에 대해 가장 효과적인지 사전에 알 수 없다. 따라서 모든 방법을 해보고 그 중에 좋은 것을 선택해야한다.

1. Decision Tree


  • 큰 문제를 작은 문제들의 조각으로 나누어 해결한다.
  • 예측을 위한 모델이 만들어졌을때, Tree의 형태로 나온다.
  • Tree형태이기때문에 결론이 나온 이유를 이해하기 쉽다. => 예측 결과에 대해서 근거가 명확하다
  • 예를 들면 의료분야에서 질병진단시 근거가 명확해야한다.

1.1 Decision Tree 예시


  • 영화 대본 및 기본 정보를 이용하여 영화가 흥행할지 예측하는 모델
  • 유명 배우수와 추정 제작비로 예측
  • 결과는 매우흥행, 어느정도 흥행, 폭망으로 3가지로 구분

  1. 특정 class와 다른 class를 가장 잘 구분할 수 있는 선을 찾는다. 하지만, 잘못 예측한 경우도 있다.

  1. 다른 class를 다시 구분하는 선을 찾는다. 잘못 예측한 것들이 있지만 최선이다.

  1. 결과

1.1.1 문제점


  • 트리의 node를 선택 할 때 데이터 셋에서 어떤 속성을 선택할 것인가?
    => 이전 영화문제에서는 유명배우가 많으면서 예산이 적어야 성공한 영화였다. 그러면 스타급 배우수가 먼저인가? 예산이 먼저인가?

사진과 같이 class가 겹치는 부분이 적은 것을 선택한다.

  • 트리를 split할 때 언제 중단할 것인가?
    => 트리의 가지를 계속 뻗어나가면 모든 instance를 100%t식별 할 수 있다. 하지만 overfitting발생

적당할 때 트리생성을 중단 해야한다. -> 가지치기(pruning)
경계선을 많이 나누면 이론상으로 100% 예측 가능한 tree를 만들 수 있다. 하지만 test 정확도는 낮다.

1.1.2 장점


  • 모든 문제에 적합
  • 결측치, 명목속성(범주), 수치속성을 처리하기에 용이
  • 여러 속성중 중요한 속성들만 사용하여 예측
  • 매우 많은 수 또는 상대적은 훈련 데이터로도 모델 구축 가능
  • 수학적 배경이 없이도 해석이 가능한 모델
  • 단순한 이론적 근거에 비해 높은 효율성

1.1.3 단점


  • 결정 트리는 다수의 레이블을 가진 속성쪽으로 구분하는 경향이 잇음
  • 모델이 쉽게 과적합(overfitting)하거나 과소적합(underfitting) 됨
  • 축에 평행한 구분선을 사용하기 때문에 일부 관계를 모델화 하는데 문제가 있다.
  • 훈련 데이터에 대해 약간의 변경이 결정 논리에 큰 변화를 준다.
  • 큰 트리는 이해하기 어렵고 직관적이지 않다.

1.1.4 코드


예시) liver.scv (간 장애 자료, 레이블 + 혈액검사 결과(6개 변수))

category
mcv
alkphos
sgpt
sgot
gammagt
drinks

category = 클래스 정보. 0 : 정상 1 : 간장애

  1. 데이터 셋 준비
  2. 설명변수/반응변수 구분
  3. train/test 셋 나눔
  4. 모델 만듬
  5. 모델 training
  6. 튜닝
from sklearn.tree import DecisionTreeClassifier, export_graphviz //export_graphviz는 tree시각화에 필요
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
import pandas as pd
import pydot # need to install

#1. 데이터 셋 준비
# prepare the iris dataset
df = pd.read_csv('D:/data/liver.csv')
print(df.head())
print(df.columns) # column names

#2. 설명변수/반응변수 구분
df_X = df.loc[:, df.columns != 'category']
df_y = df['category']

#train/test 셋 나눔
# Split the data into training/testing sets
train_X, test_X, train_y, test_y = \
train_test_split(df_X, df_y, test_size=0.3,\
random_state=1234) 
#4. 모델 만듬
# Define learning model (basic)
model = DecisionTreeClassifier(random_state=1234)

#5. 모델 학습
# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :',model.score(train_X, train_y))
print('Test accuracy :',model.score(test_X, test_y))

#6. 튜닝
# Define learning model (tuning)
model = DecisionTreeClassifier(max_depth=4, random_state=1234)

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :',model.score(train_X, train_y))
print('Test accuracy :',model.score(test_X, test_y))

### 튜닝 후 test 정확도가 69%로 더 좋아진 것을 알 수 있다. 그러므로 매개변수를 잘 조절하면 모델의 성능이 좋아진다.

 visualize tree
export_graphviz(model, out_file='tree_model.dot', feature_names =
train_X.columns, class_names = 'category’, rounded = True,
proportion = False, precision = 2, filled = True)
(graph,) = pydot.graph_from_dot_file('tree_model.dot’,
encoding='UTF-8')
graph.write_png('decision_tree.png') # save tree image

#from IPython.display import Image
#Image(filename = 'decision_tree.png')

1.1.5 Hyper parameters


모델을 만들 때, 모델의 성능에 여향을 끼치는 매개변수들이다.
따라서 Hyper parameter를 어떻게 조절하냐가 중요하다. 그러나 매개변수가 20개 가까이 되므로 다 조절하기는 힘들다.
그러므로 몇개의 자료로 추린다.

  • criterion : String, optional (default = "gini")
    Decision Tree의 가지를 분리 할 때, 어떤 기준으로 정보 획득량을 계산하고 가지를 분리 할 것인지 정함
    gini = entropy보다 빠르지만 한쪽으로 편향된 결과를 낼 수 있음
    entropy = gini에 비해 조금 더 균형잡힌 모델을 만들 수 있다.
  • max_depth : int or None, optional(default = None)
    Decision Tree의 최대 깊이 제한을 줄 수 있음
    사전 가지치기를 하고 voerfitting을 방지 할 수 있음
  • min_sample_split : int, float optaional(default = 2)
    노드에서 가지를 분리할 때 필요한 최소 sample 개수에 대한 제한을 줄 수 있음. 주어진 값에 type에 따라 다음과 같이 기능함
    int -> 주어진 값 그대로 사용
    float -> 0,1사이의 값을 줄 수 잇음,. cell(전체 데이터수 * min_sample_split)의 값을 사용함
  • min_sample_leaf : int, float optaional(default = 2)
    한 노드에서 가지고 있어야 할 최소 sample 개수에 대한 제한을 줄 수 있음.주어진 값에 type에 따라 다음과 같이 기능함
    int -> 주어진 값 그대로 사용
    float -> 0,1사이의 값을 줄 수 잇음,. cell전체 데이터수 * min_sample_leaf)의 값을 사용함
  • max_features : int, float, string or None, optional(default = None)
    Decision Tree model을 만들 때 사용할 수 있는 변수의 개수를 제한을 줄 수 있음
    int -> 주어진 값 그대로 사용
    flaot -> int(max_features * 총변수 개수) 사용
    None -> 총 변수 개수 사용
  • class_weight : dict, list of dict or "balanced", default=None
    예측 할때 두개의 class의 중요도가 다른 경우가 있다.
    예로 환자 판단시, 정상을 정상으로 진단하는 것보다 환자를 환자로 진단하는 것이 더 중요하다
    그러므로 정상:환자 = 6:4 와 같이 비율을 정한다.
    class_label: weight

1.2 Random Forest


  • N개의 Decision Tree가 투표를 통해 결정하는 방식이다.
  • Bagginf approach중 하나임. -> 여러 모델을 합쳐서 결론냄
  • 주어진 데이터에서 랜덤하게 subset을 N번 sampling해서(좀 더 정확하게 observations와 features들을 랜덤하게 sampling) N개의 예측 모형을 생성
  • 개별 예측 모형이 voting하는 방식으로 예측결과를 결정하여 Low Bias는 유지하고 High Variance는 줄임
  • Random Forest는 이런 Bagging 계열의 가장 대표적이고 예측력 좋은 알고리즘

1.2.1 코드


from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
import pandas as pd

# prepare the iris dataset
df = pd.read_csv('D:/data/liver.csv')
print(df.head())
print(df.columns) # column names
df_X = df.loc[:, df.columns != 'category']
df_y = df['category']

# Split the data into training/testing sets
train_X, test_X, train_y, test_y = \
train_test_split(df_X, df_y, test_size=0.3,\
random_state=1234) 

 

# Define learning model (# of tree: 10) #################
model = RandomForestClassifier(n_estimators=10, random_state=1234) # n_estimators = 트리 수

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :', model.score(train_X, train_y))
print('Test accuracy :', model.score(test_X, test_y))
pred_y = model.predict(test_X)
confusion_matrix(test_y, pred_y)

 

# Define learning model (# of tree: 10) #################
model = RandomForestClassifier(n_estimators=10, random_state=1234)

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :', model.score(train_X, train_y))
print('Test accuracy :', model.score(test_X, test_y))
pred_y = model.predict(test_X)
confusion_matrix(test_y, pred_y)

 

# Define learning model (# of tree: 50) #################
model = RandomForestClassifier(n_estimators=50, random_state=1234)

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :', model.score(train_X, train_y))
print('Test accuracy :', model.score(test_X, test_y))
pred_y = model.predict(test_X)
confusion_matrix(test_y, pred_y)

tree 수를 50으로 늘리니까 정확도가 올라갔다.

 

 

Hyper parameters

  • n_estimators : 생성하는 트리의 개수, 많을수록 성능이 좋아짐 이론적으론 500, 1000이면 충분
  • max_feautures : 좋은 split을 하기위한 features의 개수
  • Criterion : measure the quality of a split

1.3 Support Vector Machine


이때까지는 tree 형태의 모델로 접근을 했다.
Support Vector Machine은 접근법이 다르다.

idea 1)

  • finding maximum-margin hyperplane
    모든 점 정보를 가지고 경계선을 찾는게 아니라 class 경계면에 있는 몇개의 점들로 경계선을 찾는다.
  • 데이터의 차원을 높이는 방법
    차원을 높여서 찾는다.
  • C - Support Vector Classification
    학습시간이 sample 수(data set의 instance 수)의 제곱에 비례하여 많아짐

1.3.1 코드

from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

import pandas as pd
import pydot

# prepare the iris dataset
df = pd.read_csv('D:/data/liver.csv')
df_X = df.loc[:, df.columns != 'category']
df_y = df['category']

# Split the data into training/testing sets
train_X, test_X, train_y, test_y = \
train_test_split(df_X, df_y, test_size=0.3,\
random_state=1234)
# Define learning model (basic)
#####################################
model = svm.SVC()

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :', model.score(train_X, train_y))
print('Test accuracy :', model.score(test_X, test_y))
pred_y = model.predict(test_X)
confusion_matrix(test_y, pred_y)

 

# Define learning model (poly kernel) ############
model = svm.SVC(kernel='poly')

# Train the model using the training sets
model.fit(train_X, train_y)

# performance evaluation
print('Train accuracy :', model.score(train_X, train_y))
print('Test accuracy :', model.score(test_X, test_y))
pred_y = model.predict(test_X)
confusion_matrix(test_y, pred_y)

정확도가 낮아졌다.

 

1.3.3 Hyper parameter

  • c: float, deault =1.0
    Regularization parameter
    과적합을 조절(일어나지 않게)
  • kernel : linear, poly, rbf, sigmoid, precomputerd default = 'rbf'
    차원 변경
  • degree : int, default = 3
    커널에 따라 달라짐
  • gamma : scale, auto or float default = 'scale'
    'rbf', 'poly', 'sigmoid' 지원

1.3.4 SVM 장단점

장점

  • 범주나 수치데이터 보두에 사용가능
  • 노이즈 데이터에 영향을 크게 받지 않고 overfitting이 잘 일어나지 않음
  • 경계면의 몇개의 점만 사용하므로
  • 높은 정확도

단점

  • 최적의 모델을 찾기 위해 커널과 기타 hyper parameter의 여러 조합ㅇ르 테스트해보아야한다.
  • 입력 데이터셋이 feature 수와 데이터 sample 수가 많으면 훈련시간이 많이 소요될 수 있다.
  • 모델의 해석이 불가능하진 않지만 어렵다.

1.4 xgboost


예측력이 가장 좋지만 복잡하다.

  • Ensemble => 예측 모델을 만들때 여러개 모데ㅐㄹ을 만들어 하나로 합친다. 여러개 모델로 단일한 결과를 나오게 한다. 예측 성능을 높일 수 있다.
  1. Bagging => 투표로 결과 도출
  2. Boosting =>잘못 예측된 것들에 대해 예측력을 높여줌

728x90
반응형

'공부 > 딥러닝' 카테고리의 다른 글

CIFAR-10 의 레이블중 하나를 예측  (0) 2021.05.09
classification 경진대회  (0) 2021.05.03
딥러닝 4  (0) 2020.10.29
딥러닝 2  (0) 2020.09.29
딥러닝 1  (0) 2020.09.25
블로그 이미지

아상관없어

,

딥러닝 2

공부/딥러닝 2020. 9. 29. 21:14
반응형

Clustering


  • Grouping target data into some category(class)
  • 성격이나 가진 정보가 비슷한 데이터들을 묶음
  • 비지도 학습임(정답이 없고 알아서 묶음)
  • 어떻게 컴퓨터가 그룹을 나누느냐? => 거리가 가까운것 끼리 묵음 따라서 거리 계산이 중요함.

Classification


  • 데이터들이 그룹이 나누어져있고 알고 있음
  • 새로운 데이터가 들어왔을때, 어디에 속할지 판단함
  • 예측, 의료에서 진단 분야에서 사용됨.
  • 주로 많이 사용함.
  • 범주데이터를 주므로 지도학습임.

예시 : clustering

  • 차량의 특성을 가지고 grouping
  • 산점도를 그림

  • 점이 모이는 것을 확인할 수 있음
  • 그룹이 지어지면 해석이 가능해짐, 그룹의 특징을 해석해서 활용함
  • 혹은 비정상 거래 판단시, 주류범주에 속하지 않으면 비정상 거래로 탐지

예시 : classification

  • 이미 그룹이 만들어져 있음
  • ex) 병원 새로운 사람이 왔을때 환자인지 정상인지 판단
  • 어떤 class에 속하는지 찾아봄

Binary vs multiple classfication


  • Binary classification
  • class 의 수가 2개인 경우
  • 좀 더 쉬움 = 모델의 정확도가 높음
  • multifple classfication
  • class의 수가 3개 이상인 경우

K-means clustering


  • 예시 : 금이간 타일과 정상 타일 군집화

  • 크랙이 있는 것과 없는 것은 소리(주파수)가 다름
  • clustering을 하였을때, 금이 간 것과 안 간것끼리 class가 나뉘어야 사용할 수 있음
  • 주의) log값을 취하여 사용함. 왜냐하면 scale을 맞추어 왜곡값을 줄이기 위하여임(그러지 않을 경우 값들이 x, y축에 붙음)

  • 두개의 그룹으로 확연하게 분리됨

  • k = 클러스터의 수 => 따라서 2개(금간것, 안간것)

  • 임의로 점 두개를 찍음( k 개수 만큼)
    1. 이 점이 각 클러스터의 중심점이 됨
    2. 중심점과 점들의 거리를 구함
    3. 각 점들에 대해 더 가까이 있는 중심점을 그 점들과 합쳐서 중심점을 구함(x 좌표 평균, y 좌표 평균이 새로운 중심점)
    4. 반복하여 계산함

  1. 더 이상 안움직이는 때(움직임이 작을 때)가 오면 그룹의 중심을 찾았다는 뜻이다. 그러면 중심점들과 점 사이 거리를 계산하여 그룹을 찾는다.
  2. 두 그룹이 금간 것, 안간 것으로 구분이 되면, 이것으로 새로운 것이 들어왔을때 판단을 한다(중심점으로)

  • 거리계산법

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans

X = np.array([[1,2], [4,3], [2,5],
              [8,5], [10,6], [9,4]])

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
  • n_clusters : 클러스터의 개수
  • random_state : seed for reproducability => 클러스터 중심점 위치를 랜덤하게 찍기위해

# cluster label
kmeans.labels_ #클러스터 번호 알려줌

# bind data & cluster label
np.hstack((X, kmeans.labels_.reshape(-1, 1))) #lable을 포함하여 X를 보여줌, 세로로 바꾸어 합침

# center of clusters
kmeans.cluster_centers_ #중심점의 좌표값을 보여줌 

# predict new data
kmeans.predict([[0, 0], [12, 3]]) #예측

KNN classifier


  • 분류(classification)
  • 어느 카테고리에 속할것인가?
  • idea of KNN
  • 모르는 데이터와 알려진 데이터 중 모르는 데이터에 가까운 것들을 추림
  • K-NN : K는 몇개를 추릴 것인지
  • 그러면 K개 중 많은 것을 따름(다수를 따라감)

  • 가까운 이웃을 판단하기 위해선 거리를 다 계산함(모르는 데이터와 알려진 데이터들 사이의 거리)
  • K는 홀수로 하여야 모르는 데이터가 어디에 속할 지 정하기 쉬움

  • 계산
  • K의 값은 데이터의 수가 N이라 할 때, K < sqrt(N)을 권장
  • K가 클때와 작을때 각각 장단점이 있음

  • K개수에 따라 정확도가 달라지므로 여러개를 해보고 그중 정확도가 높은 것을 선택해야한다.
  • 이러한 모델의 정확도에 영향을 미치는 변수를 초매개변수라 한다. 정확도가 높은 초매개변수를 찾는 것이 중요함
  • 장점
  1. 통계적 가정 불필요(머신러닝 초기 모델들은 통계에 기반하여, 데이터는 정규분포를 따른다는 가정을 했다. 따라서 가정을 벗어난 데이터는 예측이 불가능했다)
  2. 단순하다
  3. 성능이 좋다
  4. 모델을 훈련하는 시간이 필요없다 (모델을 만드는 과정이 없음, 데이터를 바로 찾아서 결과를 냄 )
  • 단점
  1. 데이터가 커질수록 많은 메모리가 필요하다
  2. 데이터가 커질수록 처리시간(분류시간)이 증가한다.
  • 모르는 값이 있을 때, class를 구하려면 거리계산을 다 해주어야한다. 따라서 메인메모리에 모든 값이 있어야한다. 그리고 모두 거리계산을 해주어야한다.
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Load the iris dataset
iris_X, iris_y = datasets.load_iris(return_X_y=True)
print(iris_X.shape) # (150, 4)

# Split the data into training/testing sets
train_X, test_X, train_y, test_y = \
train_test_split(iris_X, iris_y, test_size=0.3,\
random_state=1234) 
# Define learning model
model = KNeighborsClassifier(n_neighbors=3) #K값은 3임, 초매개변수 K = 3 (default값은 5임)

# Train the model using the training sets
model.fit(train_X, train_y)

# Make predictions using the testing set
pred_y = model.predict(test_X)
print(pred_y)

# model evaluation: accuracy #############
acc = accuracy_score(test_y, pred_y)
print('Accuracy : {0:3f}'.format(acc))
  • Dataset scaling
  • 거리기반 학습방법을 적용할 때는 scaling이 필요
  • 예로 키, 시력을 비교시 (170, 0.8) 두 값간의 차이가 커서 시력의 거리 의미가 없어짐
  • 따라서 두 크기의 스케일을 바꾸어 동등한 영향력을 가지게해야함.
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() # 정의
scaler.fit(X) # X : input data # 실행
X_scaled = scaler.transform(X) # 결과 얻음

Performance metric : 모델 성능 평가 척도


For Binary classification model only

  • Sensitivity
  • Specificity
  • precision
  • F1 score
  • ROC, AUC

For All classification model

  • Accuracy

=> 평가 척도가 다양한 이유는 응용을 어디에 하느냐에 따라 모델 평가 척도가 달라지기때문

 

 

  • Binary classification metric

의료일 경우 FP인 경우, 음성을 양성으로 잘못 판단한 것이므로 정상을 비정상으로 진단한 경우다.
FN인 경우 양성을 음성으로 잘못 판단한 것이다. 실제로 감염이 된 것인데 안되었다고 판단하므로 FN의 경우가 더 심각하다

  • 민감도

    - Sensitivity = TP/(TP+FN) => (실제 양성인데) 양성 판단 / 실제 양성

  • 특이도

     - Specifity = TN/(TN+FP) => (실제 음성인데) 음성 판단 / 실제 음성

  • 정밀도

     - Precision = TP/(TP+FP) => (실제 양성인데) 양성 판단 / 양성 판단

 

 

  • F1 ScoreBinary가 아닌 경우
  • class A, B, C가 있을경우
  • For class A : A는 Postive, B,C는 Negative
  • For class B : B는 Postive, A,C는 Negative
  • For class C : C는 Postive, A,B는 Negatvie
    => table을 만드는 경우 복잡하고 의미를 찾기 힘들다.
from sklearn.metrics import accuracy_score
test_y = [2, 0, 2, 2, 0, 1]
pred_y = [0, 0, 2, 2, 0, 2]
acc = accuracy_score(test_y, pred_y)
print(acc)

aac = 0.6666666666666

  • Confusion matrix
  • from sklearn.metrics import confusion_matrix test_y = [2, 0, 2, 2, 0, 1] pred_y = [0, 0, 2, 2, 0, 2] confusion_matrix(test_y, pred_y)

  • 정답이 0이고 예측도 0인 경우가 2개 있고, 1,1인 경우가 0개 2,2개인 경우가 2개이다 나머지는 예측이 틀린 경우이다
# binary classification
test_y = [1, 0, 0, 1, 0, 1]
pred_y = [0, 0, 0, 1, 0, 1]
tn, fp, fn, tp = confusion_matrix(test_y, pred_y).ravel()
(tn, fp, fn, tp)

tn, fp, fn, tp
3, 0, 1, 2
=> tn, fp, fn, tp 순이다.

K-fold Cross Validation

---------------------------------------------------------------------------------------------------

  • 데이터를 Training과 Test로 나누었을때 나온 accuracy를 믿어야하는가?
  • Test 데이터 셋을 다르게 만든다면 accuracy는 달라질 것임
  • Test 데이터 셋이 어떻게 구성되었느냐에 따라 accuracy가 원래 성능보다 높거나 낮게 나올 수도 있음
  • K-fold Cross Validation을 사용함

  • k가 4인 경우 4등분하여 각 모델별로 Test와 Train을 다르게 한다.
  • 그리고 각 모델의 정확도의 평균을 구한다

 

복잡한 방법 : 하지만 for문 사이에 테스트 코드를 추가할 수 있다.

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Load the iris dataset

iris\_X, iris\_y = datasets.load\_iris(return\_X\_y=True)

# Define fold (5 fold)

kf = KFold(n\_splits=5, random\_state=123, shuffle=True) # shuffle => 섞음(섞어서 나눔)

# Define learning model

model = KNeighborsClassifier(n\_neighbors=3)  
acc = np.zeros(5) # 5 fold 저장할 배열  
i = 0 # fold no

for train\_index, test\_index in kf.split(iris\_X):  
print("fold:", i)  
train\_X, test\_X = iris\_X\[train\_index\], iris\_X\[test\_index\]  
train\_y, test\_y = iris\_y\[train\_index\], iris\_y\[test\_index\]  
model.fit(train\_X, train\_y)  
pred\_y = model.predict(test\_X)

# model evaluation: accuracy

acc\[i\] = accuracy\_score(test\_y, pred\_y)  
print('Accuracy : {0:3f}'.format(acc\[i\]))  
i += 1  
print("5 fold :", acc)  
print("mean accuracy :", np.mean(acc))

 

심플한 방법

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np



# Load the iris dataset

iris\_X, iris\_y = datasets.load\_iris(return\_X\_y=True)

# Define learning model

model = KNeighborsClassifier(n\_neighbors=3)

# Define fold (model, train, target, cross validation)

scores = cross\_val\_score(model, iris\_X, iris\_y, cv=5) # cv=5는 fold가 5개임  
print("fold acc", scores)  
print("mean acc", np.mean(scores))

  • K-fold cross validation이 원하는 모델을 도출하진 않음 (k=5일 경우 모델은 5개가됨)
  1. 주어진 데이터 셋으로 모델 개발시 미래의 정확도를 추정 ( k=1, 3, 5 일경우 최적의 경우를 찾음)
  2. 최종 모델 개발을 위한 hyper parameter 튜닝에 사용
  3. 전처리시 feature selection에 사용 => 모델을 만드는데 도움이되는 변수를 골라냄
728x90
반응형

'공부 > 딥러닝' 카테고리의 다른 글

CIFAR-10 의 레이블중 하나를 예측  (0) 2021.05.09
classification 경진대회  (0) 2021.05.03
딥러닝 4  (0) 2020.10.29
딥러닝 3  (0) 2020.10.09
딥러닝 1  (0) 2020.09.25
블로그 이미지

아상관없어

,

딥러닝 1

공부/딥러닝 2020. 9. 25. 21:24
반응형

머신 러닝 분류

  • 지도학습
  • 회귀(regression) - 수치형 자료(대소 비교가능)
  • 분류(classification) - 범주형 자료
  • 비지도 학습
  • 강화학습

1. 단순 선형회귀 (Simple linear regression)

  • 종속 변수 y와 독립 변수 x 사이의 선형 관계를 파악하고 이를 예측에 활용하는 방법
    예시) 기온(x) 아이스크림 판매량(y) => 필요한 아이스크림 재료의 양을 예측 가능해짐
  • 독립 변수 x와 선형 변수 y 사이의 관계식을 모델이라고 함.(학습 모델)
  • y = Wx + b
    상수인 W와 b를 찾는것이 학습 목표
  • 현실 세계에서는 두 변수가 _선형관계_에 있는 경우가 많음
  • 두 변수가 선형 관계에 있는지 알아보는 법 = 산점도, 상관계수
    산점도 : x,y 좌표값으로 나타냄
  • 회귀식에서 W와 b를 찾는 방법

(a)와 (b)중 어떤걸 선택? => 객관적 평가 척도가 필요함

좋은 식은 오차들의 합계가 작은 것임

오차들의 차이 계산? => 오차가 +값, -값이 나오므로 제곱한 값들의 합을 사용함 => 최소 제곱법

Code

# module load
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from sklearn.linear_modle import LinearRegression
from sklearn.metrics import mean_wquared_error, r2_score
from sklearn.model_selection import train_test_split
# prepare dataset

cars = pd.read_csv('D:cars.csv')

speed = cars['speed']
distance = cars['distance']

# data frame to npl.numpy => numpy 배열로 바꾸어주어야함
speed = np.array(speed).reshape(50,1)
distance = np.array(distance_.reshape(50,1) # 1차원 벡터가 되어야 하므로 (50,1)로 바꾸어줌 (2차원 벡터로)

# Split the data into training/testing sets
train_X, test_X, train_y, test_y = train_test_split(speed, distance, test_size=0.2, random_state=123)
# 인자 speed = x, distance = y, test_size-0.2 = 전체 개수 중 20%를 테스트로 사용하고 나머지를 trainning으로, random_State = 무엇이 test가 되고 train이 될지 랜덤하게 결정​
# 학습 방법을 정해줌
model = LinearRegression()

# 학습 시킴
model.fit(train_X, train_Y)

# 예측함(테스트 셋으로 테스트함)
pred_y = model.predict(test_X)
print(pred_y)
# 예측
print(model.predict([[13]])

- [[]] 괄호 2개를 사용하는 이유는 predict는 배열이 들어가야하는데, 2차원 배열을 만들기 위해서 괄호 2개를 사용함

# W와 b값
print('coef : {0: .2f}, Intercept : {1: .3f}'.format(model.coef_[0][0], model.intercept
_[0]))

(파이썬에서는 format함수를 이용해서 문자열과 변수값을 쉽게 작성할 수 있다. 문자열 안에 {}기호를 작성하고 .format을 붙여 변수를 넣음. print("a={}".format(a)) )

  • Model 평가
  • The mean squared error
print('Mean squared error: {0: .2f}'.format(mean_squared_error(test_y, pred_y)))
  • The coefficient of determination : 1 is perfect prediction
print('%.2f' % r2_score(test_y, pred_y))
  • 모델 시각화(
plt.scatter(test_X, test_y, color = 'black')
plt.plot(test_X, pred_y, color='blue', linewidth=3)

plt.xlabel('speed')
plt.ylabel('distance')

plt.show()

Multiple linear regression (중선형 회귀)

  • 독립변수(설명변수)가 2개 이상인 경우
  • 예시
  • 키(X1) 몽무게(X2)를 가지고 혈당(Y)를 예측
  • 앞의 예시인 자동차의 속도를 가지로 제동거리를 예측할 경우, 단순히 제동거리는 주행속도에 의해 결정이 되진 않음!
  • 따라서 다양한 요인을 넣는다면 오차는 줄어들 것임
  • 예시 = 특정 직군의 연봉을 교육년수, 여성비율, 평판으로 예측
  • import pandas as ps import numpy as np from sklearn.linear_model import LinearRegression from skleran.metrics import mean_squared_error, r2_score from sklearn.model_selection import train_test_split
# load the prestge dataset
df = ps.read_csv('D:prestige.csv')
print(df)
df_x = df[['education', 'women', 'prestige']]
df_y = df[[i'income']]

데이터 셋을 준비하면 test/training set으로 나눔

# split the data into training/testing sets
train_X, test_X, train_y, test_y = train_test_split(df_X, df_y, test_size=0.2)

# Dfine learing model
model = LinearRegression()

# Train the model using the training sets
model.fit(train_X, train_y)

# Make predictions using the testing set
pred_y = model.predict(test_X)
print(pred_y)

learning model은 같지만 내용은 달라짐 = 변수 3개

# The coefficient & intercept
print('cofficients: {0:.2f}, {1:,2f}, {2:.2f} Intercept {3:.3f}'.format(model.coef_[0], model.coef_[1], model.coef[2], model.intercept))

# The mean squared error
print('Mean squared error: {0:.2f}',format(mean_squared_error(test_y, pred_y)))

# The coefficient of determination: 1 is perfect prediction
print('Coefficient of determinaion: %.2f' % r2_score(Test_y, pred_y))

그러면 연봉은 어떻게 구할까? => model.predict 사용

ex) education : 11.44 /women : 8.13 /prestige : 54.1

# Test single data
my_test_x = np.array([11.44, 8.13, 54.1]),reshape(1,-1) #행의 개수는 1, 열은 알아서 맞추어라(주어진 개수대로)
my_pred_y = model.predict(my_test_x) #예측값 얻음
print(my_pred_y)

Logistic regression

  • 일반적인 회귀 문제는 종속변수가 수치데이터임
  • 범주형 데이터를 예측할때, 회귀방법으로 구할때
  • 예시 : iris 데이터셋이에서 4개의 측정 데이터로부터 품종(분류)을 예측
  • Logistic 회귀도 y값이 숫자임
from sklearn import datasets #dataset에 iris가 포함되어 잇음
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score # 모델 정확도가 오차를 사용하지 못함
# Load the diabetes dataset
iris_X, iris_y = datasets.load_iris(return_X_y=True) # 독립변수와 종속변수를 구분해서 가져옴
print(iris_X.shape)

# Split the data into training/testing sets
train_X, test_X, train_y, test_y = train_test_split(iris_X, iris_y, test_size=0.3, random_state=1234)
# Define learning model
model = LogisticRegression()

# Train the model using the training sets
model.fit(train_X, train_y)

# Make predictions using the testing set
pred_y = model.predict(test_X)
print(pred_y)

# model evaluation: accuracy #############
acc = accuracy_score(test_y, pred_y)
print('Accuracy : {0:3f}'.format(acc))

Accuracy = 예측과 정답이 일치하는 instance 수 / 전체 test instance 수

! 종속변수가 숫자여야하기 때문에 문자형으로 되어 있는 범주 데이터를 숫자로 변환해야됨 => LabelEncoder

from sklearn.preprocessing import LabelEncoder
import numpy as np
number = LabelEncoder() # 객체생성

label_str = np.array(['M','F','M','F','M'])
label_num = number.fit_transform(label_str).astype('int') # int로 바꾸어라 기준은 알파벳 순서대로 F =0, M = 1
print(label_str)
print(label_num)
728x90
반응형

'공부 > 딥러닝' 카테고리의 다른 글

CIFAR-10 의 레이블중 하나를 예측  (0) 2021.05.09
classification 경진대회  (0) 2021.05.03
딥러닝 4  (0) 2020.10.29
딥러닝 3  (0) 2020.10.09
딥러닝 2  (0) 2020.09.29
블로그 이미지

아상관없어

,
반응형

무선 이어폰을 구매한 이상 오래 사용하다보면 배터리 수명이 줄어들 것이다. 하지만 애플은 배터리 교환을 해주지 않으므로 오래 사용할 것이면 애플케어플러스를 가입하는 것이 좋다. 

애플케어플러스 가입시 리퍼비용은 4만원으로 애플케어 플러스 구입가 45,000을 더하면 총 85,000원으로 새기기로 교환받을 수 있다. 

 

1. 먼저 080-333-4000으로 전화를 한다.

2. 에어팟 애플케어 플러스 구매를 요청하면, 애플아이디, 에어팟프로 기기일련번호, 구매 영수증을 요구한다.

2.1 쿠팡으로 구매를 하였다면, 주문상세내역에서 쿠팡거래명세서를 보여주면된다. 

다음과 같은 메일을 받을 것인데, "Apple 지원으로 파일 보내기"를 클릭하여 구매 영수증을 보내면 된다. 

3. 애플케어플러스 구매를 위해 카드/계좌이체 둘 중 결제수단 하나를 선택하고 결제하면 완료이다.

 

애플케어플러스는 구매일로부터 2년동안 적용된다. 그리고 가입기간은 제품 구매후 60일 이내이므로 최대한 60일에 근접하였을 때 가입하는 것이 이득이다.

728x90
반응형
블로그 이미지

아상관없어

,

운영체제보안 4

공부/보안 2020. 9. 22. 16:18
반응형

Race Conditions


운영체제는 자원관리자이다. 따라서 Thread나 Process가 주요자원들을 공유하게 해준다.

CPU는 하나이고 실행시킬 Task는 여러개일때, 시간을 나누어 번갈아가며 실행한다. (CPU => MIPS 따라서 번갈아가며 사용해도 사용자는 동시에 사용하는 것처럼 보인다.)

두 thread나 process가 공유자원에 동시에 접근하면 발생한다 따라서 임계영역에 한 순간 한 thread만 들어가도록 상호배제를 하거나 순서관계를 주어 한 thread가 다른 thread가 끝날때까지 기다리게 동기화해준다.

상호배제가 되어있지 않은 경우 다른 일을 하기 전에 공격자가 끼어들 수 있다.

Logging


log : 일지를 남기다.

시스템에 대해 기록하여 문제점, 침입자 등을 찾아낼 수 있다.
문제를 파악해서 대응할 수 있게해준다.

모든 것을 log할 수 없고, privacy risk와 process가능한 data만 log하는 것이 좋다.
하지만, 반드시 보안적으로 중요한 이벤트들은 log하여야한다.

linux에서 /var/log 아래에 log 파일들이 있다.

log viwer로는 last command가 있다.
tail = 최근 저장된 log 10줄을 보여준다.

Intruders & Security Design


Intruders = Attackers = Crackers = Black hat hackers = 침입자

  • Masquerader : 신분위장자, 내부의 적법한 사용자의 계정을 도용하여 비인가적인 침입을 함 (outsider)
  • Misfeasor : 적법한 사용자, 더 많은 권한을 가지고 불법행위를 함 (insider)
  • Clandestine user : 은밀한 사용자, 백도어 드으로 log를 남기지 않거나 log를 지움 (insider or outsider)

Layers of A computer system, Security


==========================
| Application |
| Services(compiler, DB..|
| OS |
| Hardware |
=======================

      Application security
     ============
     Network Security
   ================ 
      OS Security
 =====================
     User Security

=========================
Physical Security
============================
=> 위층의 보안이 좋아도 아래층 보안이 약하면 취약

Protection and Security Desing Principles


  • 최소한의 권한 (Least privilege).
    각 사용자와 프로그램은 가능한 최소한의 권한을 사용하여 작동해야 한다. 이 원리는 사고, 에러 또는 공격으로부터의 손상을 제한하며 또한 권한을 갖는 프로그램간의 잠재적인 상호작용의 수를 저하시는데 따라서 의도되지 않은, 원하지 않은 또는 부적절한 권한 사용이 덜 일어나게 할 것이다. 이 개념은 프로그램의 내부로 확장될 수 있는데 이러한 권한을 필요로하는 프로그램의 가장 작은 부분만이 이러한 권한을 가져야 한다.

 

  • 메카니즘의 효율적 사용/단순 (Economy of mechanism/Simplicity).
    보호 시스템 설계는 가능한 단순하고 작아야 한다. 이들은 "소프트웨어의 라인별 검사 및 보호 메카니즘을 구현하는 하드웨어의 물리적 조사와 같은 기법들이 필요하다. 이러한 기법이 성공적이기 위해서는 작고 단순한 설계가 절대적으로 필요하다" 라고 논의하고 있다. 이는 때때로 "KISS ("keep it simple, stupid")" 라고 기술된다.

 

  • 오픈 설계 (Open design). 보호 메카니즘은 공격자의 무지에 의존하지 않아야 한다.
    대신 메카니즘은 패스워드 또는 비밀키와 같은 비교적 소수 (쉽게 변경될 수있는) 아이템의 기밀성에 의존하며 공개적이여야 한다. 오픈 설계는 상세한 공개적 조사를 가능하게 하며 또한 사용자 자신이 사용하고 있는 시스템이 합당함을 깨닫게 할 수 있다. 솔직히 널리 배포되어 있는 시스템에 대해 기밀을 유지하려고 하는 것은 현실적이지 않다; 디컴파일러와 파괴된 하드웨어는 구현시의 어떤 비밀을 재빨리 드러낼 수 있다. Bruce Schneier 은 스마트 엔지니어는 소스 코드가 폭넓은 검토를 받았으며 모든 확인된 문제가 수정되었음을 보장해야 할뿐만 아니라 보안과 관련된 모든 것에 대해 오픈 소스 코드를 요구해야 한다고 주장하고 있다

 

  • 완벽한 조정 (Complete mediation).
    모든 접근 시도가 검사되어야 하는데 메카니즘이 파괴될 수 없도록 이를 위치시켜라. 예를 들어 클라이언트-서버 모델에서 일반적으로 서버는 사용자가 자신의 클라이언트를 구축 또는 수정할 수 있기 때문에 모든 접근 검사를 해야 한다.

 

  • 고장 안전 디폴트 (Fail-safe defaults (예, 허가권 기반 접근 방법).
    디폴트는 서비스 부인이어야 하며 보호 체계가 접근이 허가되는 조건을 확인해야 한다.

 

  • 권한 분리 (Separation of privilege).
    원칙적으로 객체에 대한 접근은 한가지 이상의 조건에 의존해야 하며 따라서 한가지 보호 시스템을 무너뜨려도 완전한 접근을 할 수 없을 것이다.

 

  • 최소한의 공통 메카니즘 (Least common mechanism).
    공유 메카니즘 (예, /tmp 또는 /var/tmp 디렉토리 사용) 의 수와 그 사용을 최소화해라. 공유 객체는 정보 흐름 및 의도되지 않은 상호작용에 대해 잠재적으로 위험한 채널을 제공한다.

 

  • 심리학적 수용성/사용의 편리함 (Psychological acceptability/Easy to use).
    휴먼 인터페이스는 사용하기 쉽도록 설계되어야 하며 따라서 사용자는 일상적 및 자동적으로 보호 메카니즘을 정확히 사용할 것이다. 보안 메카니즘이 사용자가 보호하려는 목적의 정신적 이미지와 밀접하게 일치된다면 실수는 줄어들 것이다.

 

Set- UID Privilieged Programs


Need for Privilieged Programs

예를 들어 /etc/shadow 파일의 권한을 보면

-rw-r----- 1 root shadow 1443

~


=> 오직 오너만이 write할 수 있다.

하지만 일반 유저들이 그들의 비밀번호를 바꿀때 어떻게 바꿀 수 있을까? 특권 프로그램을 이용해서 바꾼다

일반적으로 운영체제 내에서 세부적으로 접근 제어를 하는 것은 굉장히 복잡하다.
rwx 3가지 권한을 세부적으로 할 경우 write를 1. 앞에 2. 중간에 3. 뒤에 와 같이 3가지로 나눌 수 있다. 하지만 복잡해진다.

따라서 rwx + 3bits 총 12비트로 permission을 나타낸다.
(확장, fine-grained access control을 위해 3bits를 추가한다.)

일반적으로 OS가 제공하는 접근제어를 바로 사용가능하지만 (e.g system call)
특별한 경우(e.g root가 가진 파일 수정)는 특권 프로그램이 필요하다! => setUID가 설정된 프로그램이 필요하다! 혹은 daemons
(관리자(super user)를 믿는다고 가정한다. 일반 사용자들은 특권 프로그램을 이용해서 바꿀 수 있다)

 

Different Type of Privileged Programs

  1. Daemons in Linux (MS Windows 에서는 services)
    백그라운드에서 계속 수행된다. 따라서 키보드로 부터 입력을 받을 수 없다.
    root나 특권을 가진 유저의 권한으로 실행해야한다.
    • 만약 daemon에게 요청을 하고 요청이 타당하면 daemon이 수행한다.
      (특히 Network는 Service를 위해 daemon들을 많이 사용한다.
      ps - af, ef, af 등을 통하여 모든 프로세스들을 보면 d로 끝나는 것들이 있다.
      Network daemon을 뜻한다. => 중요한 일을 하므로 root의 권한을 주던지 어떤 특권이 있는 사용자의 권한으로 돌아간다.
      중요한 일을 하므로 daemon을 임의로 만들지 못한다.
  2. Set-UID Programs
    Unix 시스템에서 사용된다.
    특정한 비트가 표시되어있는 프로그램이다.

 

Set-UID Concept

  • superman story
    1. Power suit 1.0
      Super man은 자신의 권한을 superpeople
728x90
반응형

'공부 > 보안' 카테고리의 다른 글

Buffer Overflow Attacks 1  (0) 2020.10.16
set-UID Privileged programs  (0) 2020.10.15
운영체제보안 3  (0) 2020.09.16
운영체제 보안 2  (0) 2020.09.10
운영체제 보안 1  (0) 2020.09.10
블로그 이미지

아상관없어

,

운영체제보안 3

공부/보안 2020. 9. 16. 17:44
반응형

User Authentication


  • 사용자 인증
    등록된 사용자를 증명해준다.
    주로 ID/PW
    첫번째 보안 수단이다.
    인증에 기반하여 접근권한을 부여한다.
  • 기기 인증
    client가 server에게 접속할 수 있는 권한을 가진 기기라고 증명해준다.
    따라서, 아무나 server에 접근할 수 없다.
    ex) 인터넷 뱅킹시 특정 기기 등록하는 경우
  • linux에서
  • /etc/passwd
    login:x:userid:groupid:gecos:homedir:shell
  • root:x:0:0:root:/root:/bin/bash
  • /etc/shadow
    login:password:password aging fields
  • root:pB3ijlksa28hdkl93h:13904:0:99999:7:::
    (유저네임)(암호화된 PW)(PW가 언제 변경되었는지 1970.1.1기준)(99999일 안에는 변경해야)(이후에 얼마나 지나야 변경가능?)
  • /etc/groups
    groupname:grouppassword:groupid:secondarymembers
  • daemon:x:2:root,bin,daemon

Password가 X로 표시된 이유는 초창기에는 저 영역에 PW가 있었지만, /etc/shadow 위치로 옮겼고, 암호화된 PW가 저장됨 따라서 아무나 접근 할 수 없음,

Access Control


관리하는 자원이 많다. 따라서 이 자원을 어떻게 접근하고 누가 접근할 것인지 등 설정해주어야함
유저는 주체이고 자원은 객체가 된다.
OS가 해야할 중요한 일 중 하나는 log를 남기는 것이다.(시스템 자원에 대한 유저 접근을 기록한다.)

  • DAC
    Discretionary Access Control : 임의 접근 제어
    But, 문제가 있음 => 바이러스나 멀웨이들이 permission 수정 가능하다.
    공유적인 측면에서는 좋으나, 보안적인 측면에서는 좋지 않음
  • MAC
    Mandatory Access Control : 강제 접근 제어
    악성코드가 permission 수정 불가하다.
    공유적인 측면에서는 좋지 않으나, 보안적인 측면에서는 좋음
  • Priviledged Users
  • Root와 Normal의 차이?
  • root : 권한을 가진 사용자(root만이 쓸 수 있는 명령어 따로 있음)

User mode <-> Kernel mode
특권 명령어 X 특별한 권한이 있는 명령어 사용가능

Normal user <-> Root user
쓸 수 있는 명령어 제한 권한 가짐, DAC 기반
(ex) sudo, 디스크 포맷 X) File 권한 임의 변경 가능, 자원 접근 마음대로 함

Secure OS는 Super user 개념이 없다 why? Super User가 공격자가 되었을때의 보호기법이 없기 때문

File Permissions


  • 읽기 보호 : 기밀성 제공 -> read를 막음으로써 암호화가 필요없어도됨
  • 쓰기 보호 : 무결성 제공 -> write를 막음으로써 무결성 제공
  • 명령어
    id : 현재 로그인한 계정 정보 출력
    touch : 시간 정보 현재로 변경(날짜 정보), 파일이 없을 결우 새 파일 만듦
  • File permission bit는 9bit? -> 12bit이다
  • Directory 권한이 X? 실행이 아니라 디렉토리 접근 권한이다. 디렉토리가 접근 불가능하면 디렉토리 내 파일에 접근이 불가하다.
728x90
반응형

'공부 > 보안' 카테고리의 다른 글

set-UID Privileged programs  (0) 2020.10.15
운영체제보안 4  (0) 2020.09.22
운영체제 보안 2  (0) 2020.09.10
운영체제 보안 1  (0) 2020.09.10
사이버 킬체인 연습(자동차 해킹 예시)  (0) 2020.07.17
블로그 이미지

아상관없어

,
반응형

Interfaces in Linux


user

ㅡㅡㅡㅡ -> User interface

Standard utility programs

(shell, editors, compilers etc) => user mode

ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ -> Library interface
Standard libarary
(open, close, read, write, fork etc) => kernel mode
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ -> System call interface
Linux operating system
(process managaement, memory management .. etc)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
Hardware
(CPU, memory, disks etc)

  • 일반 APP들은 Library를 통하거나 직접 System call 인터페이스 사용가능
  • System call interface = 운영체제에게 서비스를 요청하는 방식
  • cpu가 커널 영역에 있는 code를 수행하면 커널모드이다.

User, Kernel mode


  • kernel mode
    신뢰되는 운영체제 코드를 프로세서가 실행될 때 모드
    특권명령어/권한을 부여 => 모든 명령어 실행가능 ( 모든 자원 접근 가능)
  • Kernel은 운영체제의 핵심적인 부분으로써 직접 하드웨어와 상화작용함
  • kernel은 부팅이 되면 메모리로 load되고 컴퓨터가 동작하는 동안에는 메모리에 상주 <-> 사용자 프로그램은 실행 할 때만 메모리에 올라감

운영체제의 핵심모듈은 반드시 Kernel모드에서 수행되어야함
잠재적으로 위험(중요)한 코드 이므로 엄격한 인터페스를 통해서만 진입한다.
미리 만들어둔 코드만 정상적으로 돌려야한다.

  • User mode
    사용자 프로그램이나 유틸리티 프로그램이 실행 될때 권한을 제한함
    중요한 하드웨어 자원을 직접 접근하지 못하고 운영체제를 통해서 접근가능함.
  • 언제 애플리케이션이 커널모드로 진입?
  • 예외 발생시 -> 다른 프로세스의 메모리 영역을 침범하거나 0으로 나누거나, int overflow
  • 애플리케이션이 중요한 시스템 서비스를 받고자 할때 ( System call 요청 )
  • 하드웨어 인터럽트
    I/O 장치가 이전에 시킨일을 끝냈을 때 -> cpu가 어느 시점이 되면 입출력 장치에게 일을 내림. 입출력이 완료되기 전에 문맥교환을 하여 다른 일을함. 언젠가는 나중에 디스크에 쓰는 작업 그러면 I/O 인터럽트가 걸림

Exception Processing


  • 운영체제가 어떤 예외인지 파악 = > 따라서 mode가 바뀌어야한다.
  • mode 변경위해 현재 상태를 저장한다
  • 나중에 복구할 수 있는지 확인한다.
  • 복구가 어려우면 해당 프로세스 Kill
  • user 모드에서 예외 발생시 -> kernel mode로
  • kernel 안에서 발생시 -> system down

Interrupt 발생


  • 자기보다 우선순위가 낮은 인터럽트 disable
  • 인터럽트 당한 프로세스 정보 저장
  • 이후 restore

OS Challenge


  • 동시에 여러 사용자 가능, 많은 자원 공유 가능
  • 운영체제는 사용자들을 다른 사용자로 부터 보호해야하고, 프로세스를 다른 프로세스로부터 보호해야한다.

OS's role


  • 내부적 특성
    특권 모드, 메모리 보호, 파일 접근 권한
  • 사용자들로부터 OS 보호
  • 다른 유저들로 부터 사용자 보호

Protection


  • No Protection -> 멀티 태스킹 X, 한 사용자만 한번에
  • Isolation -> 물리적으로 사람마다 다른 컴퓨터 사용하게
  • Share via access limitation -> 물리적 메모리 공유 가능, But 논리적으로 분리
  • Limit user of an object -> 관리자만 접근

Security


허가 되지 않은 객체가 원하지 원하지 않는 행동을 하는 것을 막음

STRIDE


  • Spoofing 위장 -> 인증
  • Tampering 변조 -> 무결성
  • Repudiation 부인 -> 무결성
  • Information Disclosure 정보유출 -> 암호화
  • Denial of Service 서비스거부 -> 가용성
  • Elevation of Privilege 권한상승 -> 권한

OS Protection Principles


  • Separtion
  • physical
  • temporal
  • logical
  • cryptographic
  • memory protection
  • sandbox
728x90
반응형

'공부 > 보안' 카테고리의 다른 글

set-UID Privileged programs  (0) 2020.10.15
운영체제보안 4  (0) 2020.09.22
운영체제보안 3  (0) 2020.09.16
운영체제 보안 1  (0) 2020.09.10
사이버 킬체인 연습(자동차 해킹 예시)  (0) 2020.07.17
블로그 이미지

아상관없어

,
반응형

What is OS?


시스템 소프트웨어로써, H/W, S/W 자원들을 관리해준다. H/W와 APP사이에 있으면서 인터페이스를 제공해준다.
컴퓨터 프로그램들에게 공통적 서비스를 제공해준다.

Fucntion of an OS


  • 공유
    제한된 자원을 가지고 여러사람 또는 여러개의 프로세서, thread가 공유 할 수 있도록 만들어준다.
    즉 효율적으로 사용할 수 있도록 자원을 관리 해준다.
  • 멀티 유저
    하나의 기계(서버, 시스템)을 여러사람이 동시에 사용가능 (80년대 컴퓨터는 이용료를 내고 사용햇음)
    예) 구글, 카카오 서버
  • 멀티 태스킹
    하나의 core에서 여러 프로세스를 번갈아가며 실행 => 병행 수행
  • 멀티 프로세싱
    cpu개수만큼 프로세스가 여러개 돌아감. 멀티 태스킹보다 비용이 많이듬. 코어가 여러개 필요함
  • 멀티 스레딩
    thread : 프로세스 보다 수행단위가 작음 = 프로세스의 일부분
    한 프로세스내에 여러 스레드가 존재함.
    예) 하나의 프로세ㅐ스에 여러 개의 함수가 존재 (여러가지 함수 = 동시에 동작하므로 thread)

cpu 여러개 : 동시
core 하나 : 번갈아 가면서

What is OS & Kernel?


  • 운영체제들은 유저모드, 커널모드 두가지를 지원함
  • 커널은 운영체제에서 핵심적인 부분이다. 시스템에 대한 모든 통제권을 가진다.
  • 중요하므로 메인 메모리에 상주한다 => 자주 쓰이고 빨리 서비스 가능하기 위해
  • 커널 코드는 메모리 영역에서 분리되어 로드된다. => 애플리케이션 프로그램들이나 다른 부분들로부터 보호함
    APP이 H/W 사용시 => 미리 규정이 되어 있는 인터페이스를 통해서 요청한다.(임의접근X)
  • 전반적인 하드웨어를 제어할 수 있는 수준을 제공
    CPU 스케줄링, 문맥교환, IPC, 메모리 관리, 인터럽트 핸들러, 예외 핸들러
    H/W자원직접관리하며, H/W서비스 직접 처리한다.
  • Kernel은 하드웨어와 애플리케이션간 인터페이스이다.

OS Operations


유저 프로그램은 잘못된 명령어(특권 명령어나 존재하지 않는 명령어)나 금지된 메모리 영역에 접근하려 할 수 있다.
그럴 경우 SW Interrrupt가 발생함.

문제 발생시 제어흐름이 운영체제로 넘어가서 에러 메시지를 보냄. 그 당시 상황을 저장하고(디버깅 할 수 있게) 문제 프로그램을 종료한다.

Function of OS


  • Protection
    보호
    주로 내부적 공격
    사용자나 프로세스의 자원 접근을 통제한다.
    고의 or 실수로 접근할 수 없는 자원을 접근하려 할 때
    다른 프로세스와 간섭이 일어날 때 통제 할 수 있게 보장함
  • Security
    보안
    의도적인 공격임
    내부의 인가된 사용자가 권한을 얻으려 할 때
    외부적인 공격자가 의도적인 공격을 할 때

Trusted OS


설계한 기능만을 수행하는가?
설계하지 않는것은 구현 X

728x90
반응형

'공부 > 보안' 카테고리의 다른 글

set-UID Privileged programs  (0) 2020.10.15
운영체제보안 4  (0) 2020.09.22
운영체제보안 3  (0) 2020.09.16
운영체제 보안 2  (0) 2020.09.10
사이버 킬체인 연습(자동차 해킹 예시)  (0) 2020.07.17
블로그 이미지

아상관없어

,
반응형

사용하던 노트북이 나사집이 부러지면서 힌지가 제 역할을 하지 못하게 되어 교체를 하게 되었다.

 

원래 G마켓에서 호러쇼를 하여 20% 할인쿠폰과 AMD 8%할인쿠폰을 사용하여 약 59만원 정도에 레노버 Slim3 14are - R7모델을 구입하려 하였다. 그 이유는 라이젠 7을 단 노트북중 가볍고 가장 싼 가격이였다.(전에 쓰던 노트북이 2kg대여서 이번 구매에서는 무게를 가장 중점으로 두었다)

하지만 다음날 판매자는 가격을 13만원을 더 올려버렸고, 현금으로 다른 업체에서 63만원 가량에 구입하려 하였지만 재고가 없다고 하여 TFX 4700H를 구매하게 되었다.

Slim3 14are-R7 대비

 

SSD (250 ->500)용량

RAM(8GB(4gb온보드) -> 16GB(듀얼채널))

모니터( ntsc45% -> NTSC: 72%)

무게(1.4kg->1.1kg)

CPU(8C8T->8C16T)

배터리(35Wh->47Wh)

 

로 가격대비 이득이 많은것같아 TFX4700H를 선택하였다.

주문은 목요일에 하였고 배송은 월요일에 받았다.

 

박스는 다음과 같이 꼼꼼히 포장되어 왔다.

 

구성품이다. 본체 충전기 보증서이다. 

본품을 열면 모니터 키보드 자국 방지를 위한 작은 부직포 하나와 상단모니터 보호를 위한 비닐, 보증서가 나온다.

저 터치패드는 불이 들어오면 꺼진상태이고 불이 꺼지면 터치패드가 켜진상태이다.

16쓰레드의 웅장함이 느껴진다 ㄷㄷ



문제점으로는 별 문제가 되진 않을 수 있는데. 키보드 중앙이 볼록하게 올라와있다.
그리고 HDMI 사용시 충전기를 꼽으면 화면이 깜빡거리는 문제점이 있다.

이 부분을 제외한다면 나머지부분은 크게 문제되지 않는것 같다.

이 성능과 가격대와 무게를 생각하면 이만한 노트북이 없는것 같다.

 

추가
10일간 사용해본 후기를 남기겠다.

단점)

1. 충전기가 부피가 크고 무겁다. 하지만 PD충전기를 구입한다면 휴대성이 더 좋을 것이다. 

2. 키보드 백라이트는 없다고 생각하는 것이 편하다

3. 스피커의 품질이 썩 좋진 않다. 하지만 못들을 수준까진 아니다.
4. 배터리 보호 프로그램이 없다. 보통 60%나 80%까지만 충전되게 설정해주는 프로그램들이 있는데 이 모델에는 없고 바이오스 상에 설정하는 것도 없다. 따라서 항상 전원을 꼽고 사용한다면 주의하길 바란다.

 

장점)

1. 가벼운데 8코어 16쓰레드이다.

2. 1.1kg무게로 오버워치 정도는 무난하게 돌린다.

3. 생각보다 배터리가 오래간다. 카페에서 5-6시간 정도 있었는데 굳이 충전을 하지않아도 사용가능했다. (주로 검색과 강의를 들었다.)

4. 플라스틱 바디가 아니라 금속 바디이다.

 

 

추가)

-상판이 너무 밋밋하다.

-위에서 말한 배터리 타임은 밝기를 50%정도로 낮춘 상태다.
-전원 충전 시 HDMI 사용할 경우 화면 꺼짐이 랜덤이라, 모니터를 연결하여 사용시 충전이 다되면 전원을 빼고 사용하는 것이 좋다. ( c-type 포트로 충전시 위와같은 문제는 해결된다. 따라서 시중 65w 충전기 아무거나 하나 사서 사용한다면 문제없을 듯 하다.)
-뜨거울때 팬 속도를 최대로 하면 금방 시원해진다.

-8C16T라 멀티코어 사용 시 빠르다.

-오버워치 플레이시 간혹 한타때 프레임이 50정도로 내려갔다 올라온다.

-USB type C 포트는 모니터 출력을 지원하지 않는다고 들었다.

-Caps Lock 키와 터치패드에 불이 들어와 켜져있는지 표시가 되어 편하다. 

-배터리 충전 시간이 빠른것같다. 한시간 정도만 충전하면 3-4시간은 사용가능(밝기 낮추었을때)

 

추가로 궁금한 사항이 있다면 댓글로 답변해주겠다.

728x90
반응형
블로그 이미지

아상관없어

,