오픈 데이터 란?
간단히 말해서 오픈 데이터는 누구나 액세스, 수정, 재사용 및 공유 할 수 있도록 모든 사람이 사용할 수있는 데이터의 종류를 의미합니다.
오픈 데이터는 오픈 소스, 오픈 하드웨어, 오픈 정부, 오픈 사이언스 등과 같은 다양한 "오픈 운동"에서 기반을 얻습니다.
정부, 독립 조직 및 기관은 무료로 쉽게 액세스 할 수 있도록 점점 더 많은 개방형 데이터를 생성하기 위해 데이터의 수문을 열기 위해 나섰습니다.
오픈 데이터가 중요한 이유는 무엇입니까?
세계가 점점 데이터 중심으로 성장했기 때문에 오픈 데이터가 중요합니다. 그러나 데이터 액세스 및 사용에 제한이있는 경우 데이터 기반 비즈니스 및 거버넌스 개념이 구체화되지 않습니다.
따라서 오픈 데이터에는 고유 한 위치가 있습니다. 그것은 글로벌 문제와 보편적 문제에 대한 완전한 이해를 가능하게합니다. 비즈니스에 큰 도움이 될 수 있습니다. 기계 학습에 큰 자극이 될 수 있습니다. 질병이나 범죄 또는 기근과 같은 전 세계적인 문제를 해결하는 데 도움이 될 수 있습니다. 오픈 데이터는 시민들에게 힘을 실어 주므로 민주주의를 강화할 수 있습니다. 사회와 정부가 구축 한 프로세스와 시스템을 간소화 할 수 있습니다. 그것은 우리가 세상을 이해하고 참여하는 방식을 변화시키는 데 도움이 될 수 있습니다.
여기에 15 개의 멋진 오픈 데이터 소스 목록이 있습니다.
1. 세계 은행 오픈 데이터
전 세계 여러 국가에서 일어나고있는 일에 관한 세계에서 가장 포괄적 인 데이터 저장소 인 World Bank Open Data는 오픈 데이터의 중요한 소스입니다. 또한 데이터 카탈로그에 언급 된 다른 데이터 세트에 대한 액세스도 제공합니다.
World Bank Open Data는 마이크로 데이터, 시계열 통계 및 지리 공간 데이터를 포함하는 3000 개의 데이터 세트와 14000 개의 지표를 가지고 있기 때문에 방대합니다.
원하는 데이터에 액세스하고 검색하는 것도 매우 쉽습니다. 지표 이름, 국가 또는 주제를 지정하기 만하면 Open Data의보고가 열립니다. 또한 CSV, Excel 및 XML과 같은 다양한 형식으로 데이터를 다운로드 할 수 있습니다.
저널리스트 나 학계라면 사용할 수있는 다양한 도구에 매료 될 것입니다. 연구를 강화할 수있는 분석 및 시각화 도구에 액세스 할 수 있습니다. 그것은 글로벌 문제에 대한 더 깊고 더 나은 이해를 촉진 할 수 있습니다.
필요한 데이터 시각화, 다른 데이터 소스와의 라이브 조합 및 더 많은 기능을 만드는 데 도움이되는 API에 액세스 할 수 있습니다.
따라서 World Bank Open Data가 오픈 데이터 소스 목록에서 1 위를 차지한 것은 놀라운 일이 아닙니다!
2. WHO (세계 보건기구) — 개방형 데이터 저장소
WHO의 오픈 데이터 저장소는 WHO가 194 개 회원국의 건강 관련 통계를 추적하는 방법입니다.
저장소는 데이터를 체계적으로 정리합니다. 다른 필요에 따라 액세스 할 수 있습니다. 예를 들어 사망률이든 질병 부담이든 밀레니엄 개발 목표 (아동 영양, 아동 건강, 산모 및 생식 건강, 예방 접종, HIV / AIDS, 결핵, 말라리아, 방치 된 질병, 수자원 및 위생), 전염되지 않는 질병 및 위험 요인, 전염병에 취약한 질병, 보건 시스템, 환경 건강, 폭력 및 부상, 형평성 등
특정 요구에 따라 테마, 카테고리, 지표 및 국가에 따라 데이터 세트를 살펴볼 수 있습니다.
좋은 점은 필요한 모든 데이터를 Excel 형식으로 다운로드 할 수 있다는 것입니다. 데이터 포털을 사용하여 데이터를 모니터링하고 분석 할 수도 있습니다.
세계 보건기구의 데이터 및 통계 콘텐츠에 대한 API도 사용할 수 있습니다.
3. Google Public Data Explorer
2010 년에 출시 된 Google Public Data Explorer는 방대한 양의 공익 데이터 세트를 탐색하는 데 도움이 될 수 있습니다. 각 용도에 맞게 데이터를 시각화하고 전달할 수 있습니다.
다양한 기관 및 출처의 데이터를 사용할 수 있습니다. 예를 들어 World Bank, 미국 노동 통계국, 미국 국, OECD, IMF 등의 데이터에 액세스 할 수 있습니다.
다양한 이해 관계자가 다양한 목적으로이 데이터에 액세스합니다. 학생이든 언론인이든, 정책 입안자이든 학계이든이 도구를 활용하여 공개 데이터의 시각화를 만들 수 있습니다.
데이터 탐색기를 사용하여 선 그래프, 막대 그래프,지도 및 거품 형 차트와 같은 데이터를 나타내는 다양한 방법을 배포 할 수 있습니다.
가장 좋은 점은 이러한 시각화가 매우 동적이라는 것입니다. 그것은 시간이 지남에 따라 변하는 것을 볼 수 있음을 의미합니다. 주제를 변경하고 다른 항목에 초점을 맞추고 척도를 수정할 수 있습니다.
또한 쉽게 공유 할 수 있습니다. 차트가 준비 되 자마자 웹 사이트 나 블로그에 차트를 삽입하거나 간단히 친구와 링크를 공유 할 수 있습니다.
4. AWS의 오픈 데이터 레지스트리 (RODA)
공개 데이터 세트가 포함 된 저장소입니다. AWS 리소스에서 사용할 수있는 데이터입니다.
RODA에 관한 한 공개적으로 사용 가능한 데이터를 발견하고 공유 할 수 있습니다.
RODA에서는 원하는 데이터를 검색하기 위해 게놈, 위성 이미지 및 교통과 같은 일반적인 데이터 유형에 키워드와 태그를 사용할 수 있습니다. 이 모든 것이 간단한 웹 인터페이스에서 가능합니다.
모든 데이터 세트에 대해이 데이터를 사용하는 세부 정보 페이지, 사용 예, 라이선스 정보 및 자습서 또는 응용 프로그램을 찾을 수 있습니다.
광범위한 컴퓨팅 및 데이터 분석 제품을 사용하여 오픈 데이터를 분석하고 원하는 서비스를 구축 할 수 있습니다.
액세스하는 데이터는 AWS 리소스를 통해 사용할 수 있지만 AWS에서 제공하지 않는다는 점을 염두에 두어야합니다. 이 데이터는 다른 기관, 정부 기관, 연구원, 기업 및 개인에 속합니다.
5. 유럽 연합 개방형 데이터 포털
유럽 연합 개방형 데이터 포털이라는 단일 플랫폼에 게시 된 모든 개방형 데이터 EU 기관, 기관 및 기타 조직에 액세스 할 수 있습니다.
EU 오픈 데이터 포털은 EU 정책 도메인과 관련된 중요한 오픈 데이터의 본거지입니다. 이러한 정책 영역에는 경제, 고용, 과학, 환경 및 교육이 포함됩니다.
Eurostat, European Environment Agency, Joint Research Center 및 기타 European Commission Directorates General 및 EU Agencies와 같은 약 70 개의 EU 기관, 조직 또는 부서가 데이터 세트를 공개하고 액세스를 허용했습니다. 이 데이터 세트는 현재까지 11700을 넘었습니다.
포털을 통해 쉽게 액세스 할 수 있습니다. 공통 메타 데이터 카탈로그를 통해 데이터를 쉽게 검색, 탐색, 연결, 다운로드 및 재사용 할 수 있습니다. 특정 목적을 위해 그렇게 할 수 있습니다. 상업적 또는 비상업적 목적 일 수 있습니다.
대화 형 검색 엔진 (데이터 탭) 및 SPARQL 쿼리 (연결된 데이터 탭)를 통해 메타 데이터 카탈로그를 검색 할 수 있습니다.
이 카탈로그를 사용하면 EU 기관, 기관 및 조직의 여러 웹 사이트에 저장된 데이터에 액세스 할 수 있습니다.
6. FiveThirtyEight
데이터 중심의 저널리즘과 스토리 텔링을위한 훌륭한 사이트입니다.
그것은 정치, 스포츠, 과학, 경제 등 다양한 분야에 대한 다양한 데이터 소스를 제공합니다. 데이터도 다운로드 할 수 있습니다.
데이터에 액세스 할 때 소스와 관련하여 각 데이터 세트에 대한 간략한 설명을 보게됩니다. 또한 그것이 무엇을 의미하고 어떻게 사용하는지 알게 될 것입니다.
이 데이터를 사용자 친화적으로 렌더링하기 위해 가능한 한 CSV 파일과 같은 단순하고 비 독점적 인 형식으로 데이터 세트를 제공합니다. 말할 필요도없이 이러한 형식은 기계뿐만 아니라 사람도 쉽게 액세스하고 처리 할 수 있습니다.
이러한 데이터 세트의 도움으로 자신의 요구 사항과 선호도에 따라 스토리와 시각화를 만들 수 있습니다.
7. 미국 인구 조사국
미국 인구 조사국은 연방 정부의 가장 큰 통계 기관입니다. 미국의 사람, 장소 및 경제에 관한 신뢰할 수있는 사실과 데이터를 저장하고 제공합니다.
인구 조사국은 서비스를 가장 신뢰할 수있는 양질의 데이터 제공 업체로 확장하는 고귀한 사명을 고려합니다.
연방, 주, 지방 또는 부족 정부이든 모두 다양한 목적으로 인구 조사 데이터를 사용합니다. 이러한 정부는이 데이터를 사용하여 새 주택 및 공공 시설의 위치를 결정합니다. 그들은 또한 지역 사회, 주 및 미국의 인구 통계 학적 특성을 조사 할 때이를 활용합니다.
이 데이터는 교통 시스템 및 도로 계획에도 사용됩니다. 할당량을 결정하고 경찰과 소방서를 만들 때이 데이터가 유용합니다. 정부가 선거, 학교, 유틸리티 등의 지역화 된 영역을 만들 때이 데이터를 사용합니다. 인구 정보를 10 년에 한 번 컴파일하는 것이 관행이며이 데이터는 동일한 작업을 수행하는 데 매우 유용합니다.
American Fact Finder, Census Data Explorer 및 Quick Facts와 같은 다양한 도구는 데이터를 검색, 사용자 정의 및 시각화하려는 경우에 유용합니다.
예를 들어, Quick Facts는 모든 주, 카운티, 도시 및 인구가 5000 명 이상인 마을에 대한 통계를 포함합니다.
마찬가지로 American Fact Finder는 인구, 소득 등과 같은 인기있는 사실을 발견하는 데 도움이 될 수 있습니다. 자주 요청되는 정보를 제공합니다.
좋은 점은 Census Data Explorer를 통해 검색하고, 데이터와 상호 작용하고, 인기있는 통계에 대해 알고, 관련 차트를 볼 수 있다는 것입니다. 또한 시각적 도구를 사용하여 대화 형지도 환경에서 데이터를 사용자 지정할 수도 있습니다.
8. Data.gov
Data.gov는 미국 정부의 공개 데이터의보고입니다. 모든 정부 데이터를 무료로 제공하기로 결정한 것은 최근에야 이루어졌습니다.
출시 당시에는 47 개뿐이었습니다. 현재 180,000 개의 데이터 세트가 있습니다.
Data.gov가 훌륭한 리소스 인 이유는 다양한 목적으로 배포 할 수있는 데이터, 도구 및 리소스를 찾을 수 있기 때문입니다. 연구를 수행하고 웹 및 모바일 애플리케이션을 개발하고 데이터 시각화를 설계 할 수도 있습니다.
검색 상자에 키워드를 입력하고 유형, 태그, 형식, 그룹, 조직 유형, 조직 및 범주를 탐색하기 만하면됩니다. 이렇게하면 필요한 데이터 또는 데이터 세트에 쉽게 액세스 할 수 있습니다.
Data.gov는 Data.gov에 표시되는 모든 데이터 세트에 대한 필수 필드 세트 (제목, 설명, 태그, 마지막 업데이트, 게시자, 연락처 이름 등) 인 프로젝트 오픈 데이터 스키마를 따릅니다.
9. DBpedia
아시다시피 Wikipedia는 훌륭한 정보 소스입니다. DBpedia는 Wikipedia가 만든 귀중한 정보에서 구조화 된 콘텐츠를 얻는 것을 목표로합니다.
DBpedia를 사용하면 Wikipedia 리소스의 관계 및 속성을 의미 론적으로 검색하고 탐색 할 수 있습니다. 여기에는 다른 관련 데이터 세트에 대한 링크도 포함됩니다.
DBpedia 데이터 세트에는 약 458 만 개의 항목이 있습니다. 1,445,000 명, 735,000 개의 장소, 123,000 개의 음악 앨범, 87,000 개의 영화, 19,000 개의 비디오 게임, 241,000 개의 조직, 251,000 개의 종, 6,000 개의 질병을 포함하여 422만은 온톨로지로 분류됩니다.
약 125 개 언어로 된 이러한 엔티티에 대한 레이블과 초록이 있습니다. 이미지에 대한 2,520 만 개의 링크가 있습니다. 외부 웹 페이지에 대한 링크는 2,980 만 개입니다.
DBpedia를 사용하기 위해해야 할 일은 엔드 포인트에 대해 SPARQL 쿼리를 작성하거나 해당 덤프를 다운로드하는 것입니다.
DBpedia는 Apple (Siri를 통해), Google (Freebase 및 Google Knowledge Graph를 통해), IBM (Watson을 통해)과 같은 여러 기업, 특히 인공 지능과 관련된 각각의 권위있는 프로젝트에 도움이되었습니다.
10. freeCodeCamp 오픈 데이터
오픈 소스 커뮤니티입니다. 중요한 이유는 코드를 작성하고 비영리 단체 이후에 프로 보노 프로젝트를 구축하고 개발자로 일할 수 있기 때문입니다.
이를 위해 freeCodeCamp.org 커뮤니티는 매달 엄청난 양의 데이터를 제공합니다. 그들은 그것을 오픈 데이터로 바꿨습니다.
이 저장소에서 다양한 것을 찾을 수 있습니다. freeCodeCamp 데이터를 기반으로 데이터 세트, 동일 분석 및 프로젝트 데모를 찾을 수 있습니다. freeCodeCamp 데이터와 관련된 외부 프로젝트에 대한 링크도 찾을 수 있습니다.
염두에두고있는 다양한 프로젝트와 작업에 도움이 될 수 있습니다. 웹 분석, 소셜 미디어 분석, 소셜 네트워크 분석, 교육 분석, 데이터 시각화, 데이터 기반 웹 개발 또는 봇 등이 커뮤니티에서 제공하는 데이터는 매우 유용하고 효과적 일 수 있습니다.
11. Yelp 오픈 데이터 셋
Yelp 데이터 세트는 기본적으로 개인, 교육 및 학업 활동에 사용하기위한 자체 비즈니스, 리뷰 및 사용자 데이터의 하위 집합입니다.
Yelp Open Datasets에는 5,996,996 개의 리뷰, 188,593 개의 비즈니스, 280,991 개의 사진 및 10 개의 대도시 지역이 포함되어 있습니다.
다른 목적으로 사용할 수 있습니다. JSON 파일로 제공되기 때문에 학생들에게 데이터베이스에 대해 가르치는 데 사용할 수 있습니다. 모바일 앱을 설계하는 방법을 이해하면서 NLP를 배우거나 샘플 프로덕션 데이터를 사용하는 데 사용할 수 있습니다.
이 데이터 세트에서는 단일 객체 유형, 한 줄에 하나의 JSON 객체로 구성된 각 파일을 찾을 수 있습니다.
12. 유니세프 데이터 셋
유니세프는 다양한 중요한 문제에 관심을 갖고 있기 때문에 교육, 아동 노동, 아동 장애, 아동 사망률, 산모 사망률, 물 및 위생, 저체중 출산, 산전 관리, 폐렴, 말라리아, 요오드 결핍에 대한 관련 데이터를 수집했습니다. 장애, 여성 생식기 절단 / 절단 및 청소년.
IATI 레지스트리에 게시 된 유니세프의 공개 데이터 세트 : //www.iatiregistry.org/publisher/unicef는 유니세프의 운영 체제 (VISION) 및 기타 데이터 시스템에서 직접 추출되었으며 개별 유니세프 사무소에서 입력 한 내용을 반영합니다.
좋은 점은 이러한 데이터 세트와 관련하여 정기적 인 업데이트가 있다는 것입니다. 보다 포괄적이고 신뢰할 수 있으며 정확한 데이터를 만들기 위해 매달 데이터가 업데이트됩니다.
이 데이터에 자유롭고 쉽게 액세스 할 수 있습니다. 이를 위해이 데이터를 CSV 형식으로 다운로드 할 수 있습니다. 샘플 데이터를 다운로드하기 전에 미리 볼 수도 있습니다.
누구나 유니세프의 데이터 세트를 탐색하고 시각화 할 수 있지만 세 가지 주요 게시자가 있습니다.
UNICEF의 AID TRANSPARENCY PORTAL :이 포털을 사용하면 데이터 세트에 훨씬 더 쉽게 액세스 할 수 있습니다. 또한 유니세프가 활동하는 각 국가에 대한 세부 정보도 포함되어 있습니다.
Publisher d-portal : 현재 베타 버전입니다. 이 포털을 사용하면 IATI 데이터를 탐색 할 수 있습니다.
개발 활동, 예산 등과 관련된 정보를 검색 할 수 있습니다.이 정보를 국가별로 탐색 할 수 있습니다.
게시자의 데이터 플랫폼 :이 플랫폼에서는 IATI 레지스트리를 통해 액세스 한 데이터에 대한 통계, 차트 및 메트릭에 쉽게 액세스 할 수 있습니다. 헤더를 클릭하면 플랫폼에 표시되는 많은 테이블을 정렬 할 수도 있습니다. 또한 시스템에서 읽을 수있는 JSON 형식으로 된 플랫폼에서 많은 데이터 세트를 찾을 수 있습니다.
13. 캐글
Kaggle은 다양한 데이터 세트 게시 형식의 사용을 촉진하기 때문에 훌륭합니다. 그러나 더 좋은 점은 데이터 세트 게시자가 액세스 가능한 비 독점 형식으로 데이터를 공유 할 것을 강력히 권장한다는 것입니다.
이 플랫폼은 개방적이고 액세스 가능한 데이터 형식을 지원합니다. 액세스뿐만 아니라이 데이터로 수행하려는 모든 작업에도 중요합니다. 따라서 Kaggle Dataset은 데이터를 공유하는 동안 권장되는 파일 형식을 명확하게 정의합니다.
Kaggle 데이터 세트의 독특한 점은 단순한 데이터 저장소가 아니라는 것입니다. 각 데이터 세트는 데이터에 대해 토론하고, 공개 코드와 기술을 찾고, 커널에서 자신의 프로젝트를 개념화 할 수있는 커뮤니티를 나타냅니다.
CSV, JSON, SQLite, Archive, Big Query 등은 Kaggle이 지원하는 파일 유형입니다. 오픈 데이터 프로젝트 작업을 시작하기 위해 다양한 리소스를 찾을 수 있습니다.
가장 좋은 점은 Kaggle을 사용하면 데이터 세트를 비공개 또는 공개적으로 게시하고 공유 할 수 있다는 것입니다.
14. LODUM
뮌스터 대학의 오픈 데이터 이니셔티브입니다. 이 이니셔티브에 따라 누구나 기계 판독 가능한 형식으로 대학에 대한 모든 공개 정보에 액세스 할 수 있습니다. 필요에 따라 쉽게 액세스하고 재사용 할 수 있습니다.
이 프로젝트에서는 과학 유물에 대한 공개 데이터와 연결된 데이터로 인코딩 된 데이터를 사용할 수 있습니다.
Linked Data의 도움으로 데이터, 온톨로지 및 다양한 메타 데이터 표준을 공유하고 사용할 수 있습니다. 사실 웹에서 메타 데이터와 데이터 자체를 제공하는 표준이 될 것으로 예상됩니다.
LODUM 팀은 LinkedUniversities.org 및 LinkedScience.org를 공동 시작했습니다.
SPARQL 편집기 또는 R의 SPARQL 패키지를 사용하여 데이터를 분석 할 수 있습니다.
SPARQL 패키지를 사용하면 HTTP를 통해 SPARQL 엔드 포인트에 연결하고 SELECT 쿼리 또는 업데이트 쿼리 (LOAD, INSERT, DELETE)를 수행 할 수 있습니다.
15. UCI 기계 학습 저장소
기계 학습 알고리즘의 경험적 분석을 위해 기계 학습 커뮤니티에서 사용하는 데이터베이스, 도메인 이론 및 데이터 생성기의 포괄적 인 저장소 역할을합니다.
이 저장소에는 현재 기계 학습 커뮤니티에 대한 서비스로 463 개의 데이터 세트가 있습니다.
University of California, Irvine의 기계 학습 및 지능형 시스템 센터는이를 호스팅하고 유지 관리합니다. David Aha는 원래 UC Irvine에서 대학원생으로 만들었습니다.
그 이후로 전 세계의 학생, 교육자 및 연구원은이를 머신 러닝 데이터 세트의 신뢰할 수있는 소스로 사용합니다.
작동 방식은 각 데이터 세트에이를 조사하는 관련 출판물을 포함하여 알려진 모든 세부 정보를 포함하는 고유 한 웹 페이지가 있다는 것입니다. 이러한 데이터 세트는 종종 유용한 CSV 형식 인 ASCII 파일로 다운로드 할 수 있습니다.
데이터 세트의 세부 정보는 정렬 및 검색이 가능한 속성 유형, 인스턴스 수, 속성 수 및 게시 된 연도와 같은 측면으로 요약됩니다.
개방형 데이터 포털 및 검색 엔진 :
매년 수많은 기관에서 발행하는 데이터 세트가 많지만 인식되고 확립되는 데이터 세트는 거의 없습니다.
이러한 데이터 세트가 유용한 리소스로 유지되는 경우가 거의없는 이유는 사람과 조직이 유용하고 사용하기 쉬운 방식으로 데이터를 개발, 관리 및 제공하는 것이 어렵 기 때문입니다.
그러나 사용자가 매우 쉽게 오픈 데이터에 액세스하고 영향을 연구하고 귀중한 통찰력을 얻을 수 있도록 허용하는 몇 가지 중요한 오픈 데이터 포털 및 플랫폼 목록을 아래에서 확인하십시오.
- Google 데이터 세트 검색
- Dataverse
- 오픈 데이터 키트
- Ckan
- 오픈 데이터 모니터
- Plenar.io
- 오픈 데이터 영향 맵
결론
오픈 데이터는 오늘의 순서입니다. 세상은 점차 개방형 시스템으로 이동하기 시작했으며 개방형 데이터는 그와 정확히 일치합니다.
오픈 데이터를 활용하는 기업과 조직은 경쟁 우위를 확보하고 미래를 지배 할 수 있습니다.