PlatformDay 2009
"6월 12일 이화캠퍼스복합단지(ECC) B146호"
platform day

강연 소개

제목 Hadoop Tutorial - Basic
요약
Hadoop에 대한 기본적인 구조를 이해하고 MapReduce에 대해 소개한다. WordCount 예제를 이용해서 MapReduce Programming에 대해서 소개할 예정이다.
키워드 Hadoop, HDFS, MapReduce, Distributed Programming
발표자료 PDF
발표시간 9:00 ~ 9:40
강사
조준호

현. NexR, 데이터솔루션그룹 팀장
전. BEA Korea 연구소, 통신팀 팀장
전. 세넷시스템즈, 연구원
제목 Hadoop과 오픈소스 소프트웨어를 이용한 비지니스 인텔리전스 플랫폼 구축
요약
비지니스가 복잡해지고 경쟁이 심화됨에 따라, 기업은 빠르고 정확한 의사 결정 지원을 필요하게 되었다. 또한 웹의 대중화와 분석 대상 데이터의 폭발적인 증가는 기존 BI(Business Intelligence)와 DW(Data Warehouse) 인프라스트럭처의 변화를 가져오고 있다.
이런 변화의 대표적인 사례가 'MapReduce' 프로그래밍 모델을 이용한 대용량 데이터 분석 시스템의 활용이다.
본 세션에서는 Hadoop의 분산파일시스템과 MapReduce 프레임워크를 활용한 Facebook, Yahoo!, Business.com의 BI 플랫폼과 오픈소스로 공개한 Hadoop 기반 데이터 분석 프레임워크인 Hive, CloudBase, Pig 등에 대하여 살펴본다. 그리고 Hadoop과 오픈소스 소프트웨어 기반의 BI 플랫폼 구축을 위한 PoC, 성능평가 그리고 실제 개발단계에서 배운 점과 Hadoop 기반 분석 플랫폼 구축 시 고려해야 할 내용들에 대해 알아본다.
키워드 비지니스 인텔리전스, 데이터 웨어하우스, Hadoop, 오픈소스
발표자료 PDF
발표시간 10:00 ~ 10:40
강사
김영우

Daum Communications, Data Integration 팀.

블로그: http://mixellaneous.tistory.com
제목 NexR CC Packages (VC3, MR.Flow, Archiving, HadoopAppliance)
요약
Hadoop은 대용량 스토리지 클라우드와 대규모 분산 처리 프레임워크로서 Cloud Computing의 중요한 플랫폼으로 활용될 수 있다. 반면 Cloud Computing은 Hadoop 기반의 데이터 처리를 위한 유연한 인프라로서 활용될 수 있다. 이러한 가능성을 NexR에서 개발해온 Cloud Computing 솔루션과 서비스를 통해 확인해 본다.

1) VC3: 컴퓨팅 클라우드와 스토리지 클라우드를 제공하며 Amazon EC2 & S3 인터페이스 제공하는 Cloud Computing 서비스
2) MR.Flow: 웹 UI 기반 Drag-and-Drop 방식의 MapReduce 워크플로우 서비스
3) EmailArchiving: Hadoop과 Lucene 기반의 대용량 이메일 아카이빙 솔루션
4) HadoopAppliance: Provisioning, Management, HA 등을 제공하는 Hadoop 최적화된 HW/SW 패키지
키워드 Cloud Computing, Hadoop, MapReduce, Workflow, Archiving, Lucene, MR.Flow, Appliance
발표자료 PDF
발표시간 10:40 ~ 11:20
강사
한재선

KAIST 전자전산학과 공학박사
현. NexR 대표이사
현. KAIST 정보미디어 경영대학원 겸직교수
현. 한국 Hadoop Community 회장
현. 한국클라우드컴퓨팅연구조합 이사장


블로그 : http://www.web2hub.com
제목 GAIA & Neptune
요약
GAIA Cloud DataStorage and Search Service는 수억~수십억건 이상의 대용량 데이터를 관리 및 검색이 가능하게 하는 분산데이터서비스 시스템으로 텍스트 문서 뿐 아니라 비즈니스문서까지도 저장 및 검색이 가능한 스토리지 및 검색 시스템이다. GAIA에 대한 소개와 GAIA에서 Neptune, Hadoop 등의 활용 사례를 살펴본다.
키워드 cloud search service, neptune, bigtable, simpledb
발표자료 PDF
발표시간 11:20 ~ 12:00
강사
김형준
neptune project manager
권영길
gruter.com founder
제목 Force.com : Salesforce.com의 검증된 차세대 Cloud platform
요약
최근 대두되고 있는 Cloud Computing을 위한 플랫폼은 어떠한 기능적 요소가 있으며, 고객의 요구를 능동적으로 수용하기 위해 어떠한 단계를 거쳐서 진화되어 왔는가? 본 세션에서는 SaaS에서 Cloud Computing Service에 이르기까지 많은 사용자를 보유하고 있고 십여 년의 기간 동안 고객곁에서 성장해온 세일즈포스닷컴의 Cloud Platform인 Force.com에 대해서 알아보고자 한다. 전환된 패러다임의 흡수의식을 가지고 참석하는 당신은 이 장을 통해 이론적인 의미와 부풀어진 포장 속에 기사속의 태풍으로 불리어지는 Cloud Computing분야에서, 다양한 고객층을 확보하고 있는 진정한 Service Platform의 실체를 알아보는 시간이 될 수 있을 것이다.
키워드 SFDC, Salesforce.com, Force.com, Platform, Cloud computing, Cloud service. SaaS
발표자료 PDF
발표시간 1:40 ~ 2:20
강사
김박사

(주)다우기술 Salesforce.com 사업팀장
제목 과학 어플리케이션에 대한 MapReduce의 적용 사례
요약
클라우드 컴퓨팅은 주로 아마존, 세일즈포스닷컴, 구글 등과 같이 웹 기반의 as-a-Service 플랫폼으로 주목을 받아 왔지만, 대용량 데이터 처리가 필요한 기업의 정보 분석이나 과학 기술 분야의 문제 해결을 위한 경제적인 수단으로서 수요를 창출할 것으로 예상된다. 본 발표에서는 과학 기술 분야의 문제 해결에 필요한 알고리듬에 MapReduce를 어떻게 적용하여 병렬 처리를 극대화하고 있는지 고에너지 물리와 생물정보학 분야에서 사용되는 기계 학습, 유전자 알고리듬 등 몇 가지 적용 사례를 중심으로 그 현황을 소개하고자 한다.
키워드 MapReduce, 기계 학습 알고리듬, 유전자 알고리듬
발표자료 PDF
발표시간 2:20 ~ 3:00
강사
최동훈

1981년 2월 서울대학교 계산통계학과 졸업(학사)
1983년 2월 한국과학기술원 전산학과 졸업(석사)
1989년 6월 Northwestern University 전산학과 졸업(박사)
1983년 2월∼1986년 8월 한국증권전산㈜ 과장대리
1989년 8월∼1992년 2월 한국국방연구원 선임연구원
1992년 3월∼1999년 2월 동덕여자대학교 부교수
2005년 2월 현재 한국과학기술정보연구원 책임연구원
관심분야 : 데이터베이스, 병렬 처리
제목 클라우드 컴퓨팅 서비스를 이용한 SNS분석
(DHT기반의 Key-Value Storage와 클라우드 컴퓨팅 서비스(EC2, S3, MapReduce)를 이용한 SNS 분석)
요약
DHT기반의 Key-Value 스토리지(CouchDB+DHT)와 클라우스 서비스(AWS EC2/S3/MapReduce 등)를 이용한 SNS의 분석 어플리케이션을 통해 최근 이슈가 되고 있는 Key-Value 스토리지 및 클라우드 서비스의 사용전략을 소개한다. Amazon의 Dynamo, Facebook의 Cassandra 등의 DHT기반 플랫폼 및 국내외 Key-Value 스토리지 개발/사용 동향도 소개한다. 대규모 클러스터 시스템을 적은 비용으로 사용하려는 연구자/개발자를 위한 팁도 언급한다.
키워드 SNS, Key-Value 스토리지, 클라우드 서비스, Amazon Web Service(EC2, S3, MapReduce), CouchDB, DHT
발표자료 PDF
발표시간 3:00 ~ 3:40
강사
이동우

그리드 컴퓨팅 전공 / 공학박사
개인적 연구를 위한 OikoLab 운영 / 클라우드, HPC 컨설팅
기업에서 R&D업무를 하고 있음
제목 IRIS: 그리드컴퓨팅 기반의 분산 DBMS
요약
통신회사의 NMS/OSS 분야는 과거 장비관점의 품질관리 및 제어 중심에서 사용자관점의 품질관리 및 사용자 성향분석을 통한 새로운 서비스 개발로 진화하고 있다.이러한 환경에서 대용량의 사용자 usage log 를 처리하기 위한 새로운 플렛폼이 필요하게 되었고 이를 위한 그리드컴퓨팅 기반의 분산 DBMS 인 IRIS 를 설명하고 통신회사에서의 적용사례를 소개한다.
키워드 NMS,OSS,클라우드 컴퓨팅,그리드 컴퓨팅,분산처리 DBMS,IRIS
발표자료 PDF
발표시간 4:00 ~ 4:40
강사
김태수

(주)MOBIGEN, CNS연구소 연구소장
제목 Business Intelligence and Hadoop
요약
전통적인 BI 솔루션들은 방대한 데이터를 처리하는데에 한계가 있는 반면 Hadoop 은 방대한 데이터 처리에 적합한 플랫폼이다. BI 솔루션 중 오픈소스인 Pentaho Kettle 과 Hadoop 을 연동시킴으로서 개발자는 물론 일반 기획자들까지 대용량 데이터의 처리, 통계 분석 및 표현 등의 작업을 손쉽게 할수 있는 이점이 있다.
키워드 Hadoop, BI, ETL
발표자료 PDF
발표시간 4:40 ~ 5:20
강사
심탁길

현재 NHN 에 근무중이며 분산 컴퓨팅 플랫폼 분야의 연구 개발 업무를 담당하고 있다. 외국계 기업 및 삼성SDS 등에서 다년간 엔터프라이즈 컴퓨팅 분야에서 시스템 개발 및 운영을 수행한 바 있으며 일반 사용자가 쉽게 사용할 수 있도록 분산 컴퓨팅과 엔터프라이즈 컴퓨팅을 접목하는 부분에 대해 관심을 가지고 연구하고 있다.
제목 검색광고 성과분석에 HADOOP 활용하기
요약
오버추어 또는 구글에 검색광고를 진행하며 쌓이게 되는 성과보고서를 HADOOP의 HDFS에 저장하고, MR을 통하여 분석하는 방법에 대하여 소개하고자 함.
키워드 검색광고, 성과분석, 오버추어, 구글, HADOOP, HDFS, MR(Map&Reduce)
발표자료 PDF
발표시간 5:20 ~ 5:40
강사
김민중

현. HADOOP 커뮤니티 운영진
전. 이엠넷 개발팀장

주최



한국 Hadoop Community

도움주신 곳





기념품 후원