에템 알페이딘(2016). 머신러닝 쉽게 이해하기. 범어디자인연구소(역) (2018). 유엑스 리뷰
일단 책값이 32,000.
처음에는 기존 머신러닝 책을 여러 개 봐서 내용이 어렵지 않게 들어왔다.
중반으로 가면서 머신러닝에 대한 용어가 쏟아지면서 머리 속이 복잡해졌다.
머신러닝 관련 용어를 매우 간결하게 소개하려는 노력이 보인 책
혹시 머신러닝을 계속 공부한 후에 다시 보게 되면 더 이해가 잘 될 수 있을지 테스팅하기 좋은 책
중후반으로 가면서 분명 한글로 적혔는데, 무슨 뜻인지 이해가 안 되는 부분이 점점 더 많아졌다.
옮긴이들이 이 책을 제대로 이해하고 쓰면 좀더 쉽게 의역해서 쓸 수 있지 않았을까 한다. 번역투의 문체가 너무 많다.
영어로는 머신 러닝 띄여 있는데, 번역에서 붙인 이유가 궁금하다.
아래는 인사이트를 준 구절이다.
----
. 인간 고유의 작업에 계속해서 인공지능이 도입됨에 따라 머신러닝을 활요할 수 없는 개인과 조직은 점차 경쟁력을 읽게 될 것이다(6).
. 과거에는 프로그래머가 프로그래밍 언어로 알고리즘을 코딩함으로써 컴퓨터가 할 일을 정의했었다. 하지만 현재는 (일부 작업에 있어) 프로그래머의 역할은 더 이상 프로그램을 직접 작성하는 것이 아니라 데이터를 수집하는 것이다(7).
. 알고리즘을 데이터로부터 자동으로 학습하여 프로그래머를 학습 프로그램으로 대체하고자 하는 것이 머신러닝의 집중 영역이다(8).
. 데이터의 크기가 크다 할지라도 그것은 적은 수의 요인들과 그것들의 상호작용을 통해 비교적 단순한 모델로 설명할 수 있다(9).
. 패턴이 있다. 사람들은 임의로 아무 물건이나 구매하지 않는다. ... 관측된 데이터로부터 그 드러나지 않은 요인들과 그것들의 상호작용에 대한 추론이 머신러닝의 핵심이다(10).
. 스마트폰을 특별하게 만들어주는 것은 스마트폰이 모바일 감지 기기이기도 하지만, 우리의 개인적인 물건으로써 그 사용자에 대한 정보(주로 위치정보)를 지속적으로 기록하고 그 데이터를 이요할 수 있도록 제공한다는 점 때문이다. 특히 사용자의 위치에 대한 정보는 계속 기록된다. 스마트폰은 우리가 탐지하고, 추적하고, 기록할 수 있게 해주는 모바일 센서다(31)
. 예전에는 책과 신문은 희소하고 값이 비싼 물건이었다. 그래서 오직 중요한 사람들에 대한 이야기만 기록하거나 글로 쓸 수 있었다. 그러나 시간이 흘러 이제 데이터는 저렴해졌고 모든 사람들이 온라인 영지에서 왕과 왕비가 될 수 있다. 전자 기기를 좋아하는 부모를 둔 아이기는 태어난지 첫 달 만에 호머의 오디세이에서 다루는 모험 이야기보다 더 많은 데이터를 한 달 동안 만들어낼 수 있다(35)
. 고객 행동 패턴 그 자체는 잘 알지 못할지라도 우리는 수집된 데이터에서 그 행동이 일어나기를 기대한다. 만약 과거의 데이터에서 그러한 패턴을 발견할 수 있다면, 그 패턴은 미래에 혹은 적어도 가까운 미래에는 과거에 수집했던 데이터와 그리 많이 다르지 않을 것이라는 전제하에 이러한 경향이 지속되기를 기대할 수 있다. 또한 이러한 데이터를 기반으로 예측할 수 있을 것이다(38).
. 다수의 스마트 기기가 계속해서 우리의 일상생활에 도움을 주면서 우리는 모두 데이터 생산자가 되었다. 물건을 살 때마다, 영화를 보러 갈 때마다, 웹페이지를 방문할 때마다, 블로그나 소셜 미디어에 포스팅을 할 때마다, 심지어 그저 걷거나 운전하는 도중에도 우리는 데이터를 생성하고 있다. 그리고 이러한 데이터는 그것을 수집하고 분석하는 데 관심이 있는 누군가에는 유용하고 가치 있게 사용된다. 고객은 항상 옳을 뿐만 아니라 흥미롭고 따를 만한 가치 있는 존재다.
우리 모두는 각각 데이터 생산자이면서 동시에 소비자다. 소비자는 제품과 서비스를 자신에게 맞춘 특별한 것으로 만들고 싶어 한다. 그들은 누군가 자신들이 필요한 것을 이해해주기를 원하며 자신의 관심사가 예측되었으면 하고 바란다(41).
. 인간은 모두, 사실상 모든 동물은 데이터 과학자라고 할 수 있다. 우리는 감각으로부터 데이터를 수집하고, 그 데이터를 처리해 추상적인 규칙을 얻어 환경을 인지한다. 그리고 그 환경에서의 행동을 통제해 고통을 최소화하고 기쁨을 최대화한다. 우리는 이러한 규칙을 기억해 뇌에 저장할 수 있으며, 이것이 필요할 때마다 이를 불러와 사용한다. 학습은 평생 지속되는 것이다. 우리는 규칙이 더 이상 적용되지 않을 때, 규칙을 잊고 환경이 변화할 때 이를 수정할 수 있다(45).
. 우리가 관심을 가지고 있는 관찰대상 사이에 어떤 관계가 있는 것 같이지만 그 관계가 정확히 어떤 관계인지 모를 때 머신러닝을 사용한다(63).
. 전문가 시스템은 지식 기반과 추론 엔진으로 구성된다(87).
. 머신러닝 시스템은 두 가지 방식으로 의사 결정을 하는 전문가 시스템의 확장이다. 첫 번째는 프로그래밍 없이도 예시로부터 학습 할 수 있다는 것이다. 두 번째는 확률 이론을 사용하기 때문에 모든 수반되는 노이즈, 예외, 모호함, 그리고 불확실성으로 현실세계를 더 잘 나타낸다(89).
. 기대 값 계산이 보험과 같이 여러 영역에서 빈번하게 사용되지만, 살마들이 이것을 언제나 이성적으로 사용하지는 않는다. 사람들이 올바르게 판단할 수 있다면 로또를 사는 사람은 아무도 없을 것이다!(92)
. 급속한 인기를 얻고 있는 감성컴퓨팅(affective computing, 기기가 상황에 적합한 개인화된 경험을 제공할 수 있도록 감정과 기분을 분석 및 처리하여 반응할 수 있도록 하는 것- 역자)의 목표는 사용자의 기분에 적응하는 컴퓨터 시스템을 만드는 것이다(110).
. 베이지안 접근법은 유연하고 흥미롭지만, 제한적인 전제의 단순한 시나리오를 제외하고는 필요한 계산이 너무 복잡하다는 단점이 있다. 우리가 쉽게 다룰 수 있는 실제 사후 분포 대신에 사용할 수 있는 분포와 가장 유사한 것을 다룰 수도 있다. 그 다른 방법은 분포 자체를 사용하기보다 그 분포로부터 대표적인 인스턴스를 생성해 이를 기반으로 추론을 하는 것이다. 이와 관련해 인기가 많은 기법은 전자의 경우에는 변분 근사 variational approximation 이고, 후자의 경우에는 마르코프 연쇄 몬테카를로 Markov chain Monte Carlo (MCMC) 표본 추출로, 이 방법들이 현재 머신러닝에서 가장중요한 연구 방향이다(137).
. 컴퓨팅은 운영체제를 하나씩 진보시키기 시작하였다. 각각의 새로운 버전은 컴퓨터를 더 쉽게 사용할 수 있도록 해 주었으며 새로운 응용을 지원하였다. 요즘 컴퓨터는 스마트 기기 혹은 하나의 스마트 앱을 하나씩 발전시키고 있다. 과거에는 컴퓨팅의 진보를 정의 내린 핵심 인물이 하드웨어 디자이너였다면, 그다음에는 소프트웨어 엔지니어가 되었고, 그다음에는 컴퓨터 앞에 앉아 있는 사용자가 되었으며, 지금은 무엇이든 하고 있는 일반적인 사람으로 변화하였다(214).
. 머신러닝은 우리가 점점 더 복잡해지는 세상을 이해할 수 있도록 도와줄 것이다. 우리는 이미 감각으로 대처할 수 있거나 뇌가 처리할 수 있는 것보다 더 많은 데이터에 노출되어 있다. 온라인에서 이용 가능한 온라인 리포지터리는 오늘날 방대한 양의 디지털 텍스트를 포함하는데, 이것이 너무 크기 대문에 수동적으로는 처리할 수가 없다. 이 목적을 위하여 머신러닝을 이용하는 것을 머신 리딩 machine reading 이라고 한다(218).
. 머신러닝은 작업을 직접 프로그래밍할 필요 없이 명쾌하게 학습할 수 있다는 기본적인 장점을 가진다. 우주까지도 머신러닝을 위한 새로운 국경이 될 것이다. 미래의 우주 탐사 임무는 무인화될 가능성이 높다. 이전에는 그렇게 스마트하고 다재다능한 기계가 없었기 때문에 인간을 우주로 보내야만 했다. 하지만 오늘날 우리에게는 그러한 일들을 할 수 있는 로봇이 있다. 만약 인간이 탑승하지 않는다면 짐은 더 가볍고 단순해질 것이며 그 짐을 지구로 다시 가져올 필요도 없다. 만약 로봇이 아무도 가지 못했던 곳에 용감하게 가게 된다면, 그것은 오로지 학습 로봇만이 가능한 일이다(222).
. 오늘날에는 하드웨어와 소프트웨어 측면을 둘 다 포함하는 고성능 컴퓨팅을 가르쳐야 할 필요가 대두되었다. 실생활 응용에서 데이터가 얼마나 효율적으로 저장되어 이용되는지는 그 예측의 정확성만큼이나 중요할 수 있다. 데이터 과학을 배우는 학생은 또한 데이터 프라이버시 및 보안의 기본사항들을 숙지하고 있어야 하며 윤리와 법 분야에서 데이터 수집과 분석이 가지는 시사점을 알아야 한다(237).
. 추천 시스템이 과거의 사용 및 선호도에 너무 많이 의존할 수 있다는 데에는 중대한 위험성이 있다. 만약 개인이 이전에 듣고 즐겼던 음악만 듣거나 이전에 보고 즐겼던 영화와 유사한 영화만을 관람한다면 더 이상의 새로운 경험이 없을 것이며 개인 및 늘 무언가 판매해야 할 새로운 제품을 찾기 위해 노력하는 모든 회사에 제한이 될 것이다. 그러므로 추천 시스템 계획이 어떤 것이든 다양성을 도입하려는 시도 역시 병행되어야 한다(240).
. 머신러닝은 우리가 점점 더 복잡해지는 세상을 이해할 수 있도록 도와줄 것이다. 우리는 이미 감각으로 대처할 수 있거나 뇌가 처리할 수 있는 것보다 더 많은 데이터에 노출되어 있다. 온라인에서 이용 가능한 온라인 리포지터리는 오늘날 방대한 양의 디지털 텍스트를 포함하는데, 이것이 너무 크기 대문에 수동적으로는 처리할 수가 없다. 이 목적을 위하여 머신러닝을 이용하는 것을 머신 리딩 machine reading 이라고 한다(218).
. 머신러닝은 작업을 직접 프로그래밍할 필요 없이 명쾌하게 학습할 수 있다는 기본적인 장점을 가진다. 우주까지도 머신러닝을 위한 새로운 국경이 될 것이다. 미래의 우주 탐사 임무는 무인화될 가능성이 높다. 이전에는 그렇게 스마트하고 다재다능한 기계가 없었기 때문에 인간을 우주로 보내야만 했다. 하지만 오늘날 우리에게는 그러한 일들을 할 수 있는 로봇이 있다. 만약 인간이 탑승하지 않는다면 짐은 더 가볍고 단순해질 것이며 그 짐을 지구로 다시 가져올 필요도 없다. 만약 로봇이 아무도 가지 못했던 곳에 용감하게 가게 된다면, 그것은 오로지 학습 로봇만이 가능한 일이다(222).
. 오늘날에는 하드웨어와 소프트웨어 측면을 둘 다 포함하는 고성능 컴퓨팅을 가르쳐야 할 필요가 대두되었다. 실생활 응용에서 데이터가 얼마나 효율적으로 저장되어 이용되는지는 그 예측의 정확성만큼이나 중요할 수 있다. 데이터 과학을 배우는 학생은 또한 데이터 프라이버시 및 보안의 기본사항들을 숙지하고 있어야 하며 윤리와 법 분야에서 데이터 수집과 분석이 가지는 시사점을 알아야 한다(237).
. 추천 시스템이 과거의 사용 및 선호도에 너무 많이 의존할 수 있다는 데에는 중대한 위험성이 있다. 만약 개인이 이전에 듣고 즐겼던 음악만 듣거나 이전에 보고 즐겼던 영화와 유사한 영화만을 관람한다면 더 이상의 새로운 경험이 없을 것이며 개인 및 늘 무언가 판매해야 할 새로운 제품을 찾기 위해 노력하는 모든 회사에 제한이 될 것이다. 그러므로 추천 시스템 계획이 어떤 것이든 다양성을 도입하려는 시도 역시 병행되어야 한다(240).
댓글
댓글 쓰기