Thời gian trôi đi.
Thật sự là gần 20 năm trước
khi tôi muốn hệ thống lại
cách chúng ta sử dụng thông tin,
cách ta làm việc cùng nhau:
tôi đã phát minh ra mạng toàn cầu.
Bây giờ, đã là 20 năm, tại TED,
tôi muốn nhờ sự giúp đỡ từ các bạn
trong việc hệ thống mới.
Quay ngược về năm 1989,
tôi đã viết một bản ghi nhớ về
hệ thống siêu văn bản toàn cầu.
Thật sự thì không có ai làm gì với nó hết.
Nhưng 18 tháng sau - đây là cách
sự đổi mới diễn ra -
18 tháng sau, ông chủ nói tôi
có thể thực hiện nó ở bên ngoài,
như là một loại dự án cho vui,
khởi động loại máy tính mới.
Và do đó ông ấy đã cho tôi thời gian
để mã hóa nó.
Vì thế về cơ bản là tôi phác thảo
HTML nên trông như thế nào:
giao thức siêu văn bản, HTTP;
ý tưởng về URLs,
những cái tên cho những thứ khác
mà bắt nguồn từ HTTP.
Tôi viết bảng mã và để ra chỗ khác.
Tại sao tôi làm vậy?
Cơ bản là thất bại.
Tôi đã thất bại - tôi đã làm việc
như một kĩ sư phần mềm
trong phòng thí nghiệm khổng lồ
và thú vị,
rất nhiều người
từ khắp nơi trên thế giới.
Họ mang theo tất cả
các loại máy tính khác nhau.
Họ có tất cả các kiểu
định dạng dữ liệu khác nhau,
tất cả các kiểu, loại
hệ thống tư liệu.
Cho nên, trong sự đa dạng đó,
nếu tôi muốn tìm ra
cách xây dựng cái gì đó
ngoài chỗ này một chút và chỗ kia một chút
mọi thứ tôi nghiên cứu,
tôi phải kết nối với vài thiết bị mới,
tôi phải học vận hành chương trình mới,
tôi sẽ tìm ra thông tin tôi cần
trong định dang dữ liệu mới.
Và tất cả những thứ đó không tương thích.
Đó chỉ là thất bại.
Thất bại là những tiềm
tiềm năng chưa mở ra.
Thực tế, trong tất cả những cái đĩa này
đều có những tư liệu.
Nên nếu bạn chỉ
tưởng tượng ra tất cả chúng
trở thành một cái gì đó lớn lao,
hệ thống tư liệu ảo trên trời,
ví như là trên Internet,
thế thì cuộc sống sẽ dễ dàng hơn nhiều.
Một khi bạn đã có ý tưởng
thì nó như kiểu trêu ngươi bạn
ngay cả nếu người ta
không đọc ghi chép của bạn --
-- thật ra là, sau khi chết
bản thảo của ông được tìm thấy.
Ông ghi bằng bút chì ở trong góc,
"không rõ ràng, nhưng thú vị"
(Tiếng cười)
Nhưng nói chung là khó -
nó thật sự khó để giải thích
mạng web trông như thế nào.
Khó để giải thích rằng
hồi đó đã rất khó.
Nhưng sau đó - OK, khi TED bắt đầu,
không hề có mạng
vậy nên những thứ như "click"
không hề có nghĩa tương tự.
Tôi có thể cho xem một phần siêu văn bản,
một trang có đường liên kết,
và khi ta bấm vào đường truyền và bing
- một trang siêu văn bản khác mở ra.
Không ấn tượng gì.
Bạn biết đó, ta có các thứ
trong siêu văn bản trong CD_ROMs.
Cái khó là khiến họ tưởng tượng:
vậy, hãy tưởng tượng
đường truyền có thể đi đến
tới hầu hết các tư liệu
có thể tưởng tượng.
Đó là bước nhảy mà rất khó để thực hiện.
Ờ thì, một số người đã làm.
Vậy nên, rất khó để giải thích,
nhưng có một chuyển biến cơ sở.
Và đó là cái làm nó trở nên hay nhất.
Đó là điều thú vị nhất,
không là kỹ thuật,
không là thứ người ta đã làm
mà là xã hội,
tinh thần của mọi người
làm cùng nhau, gửi thư điện tử.
Đó là cái giống như vậy.
Bạn biết không? Nó buồn cười,
nhưng giờ thì nó lại giống vậy.
Tôi yêu cầu, nhiều hay ít,
hãy đưa tư liệu
Tôi nói, "Bạn có thể
đưa các tư liệu lên trang web này không?"
Và họ đã làm.
Cảm ơn.
Đó là một cú huých, đúng không?
Ý tôi là, điều đó khá là thú vị
vì ta khám phá
các thứ trên trang web
thật sự quá tuyệt vời.
Hơn rất nhiều so với tưởng tượng ban đầu
khi đặt địa chỉ web nhỏ ban đầu với nhau
mà chúng ta bắt đầu với.
Bây giờ, tôi muốn bạn
đưa dữ liệu của bạn lên trang mạng.
Hóa ra rằng vẫn có những
tiềm năng khổng lồ chưa được mở khóa.
Vẫn còn là sự thất bại lớn
bởi vì ta không có dữ liệu trên trang mạng
như là dữ liệu.
Ý là sao, "dữ liệu"?
Khác gì nhau - tư liệu, dữ liệu?
Tư liệu bạn đọc, đúng không?
Nhiều hay ít, bạn đọc nó,
bạn có thể theo đường dẫn, thế thôi.
Dữ liệu-bạn có thể làm tất cả với máy tính
Ai đã ở đây hoặc cách khác
xem bài nói của Hans Rosling?
Một trong những người tuyệt với -
vâng nhiều người đã xem nó -
một trong những bài nói tuyệt với của TED.
Hans đưa ra bài thuyết trình
trong đó ông đã chỉ ra, cho những đất nước
khác nhau, trong màu sắc khác nhau -
ông cho thấy mức độ thu nhập trên một trục
ông cho thấy số tử vong trẻ sơ sinh,
và biến đổi theo thời gian
Do đó, ông đã lấy dữ liệu này
và làm bài thuyết trình
mà đã phá hủy
rất nhiều chuyện hoang đường
về kinh tế trong thế giới đang phát triển.
Ông thiết lập một trình chiếu nhỏ như vậy.
Nó có chứa ngầm tất cả các dữ liệu
Dữ liệu là màu nâu, hình hộp
và nhàm chán
và đó là thứ ta nghĩ về nó, đúng không?
Vì dữ liệu không thể tự dùng
một cách tự nhiên
nhưng thực tế, dữ liệu chứa một lượng lớn
những gì xảy ra trong cuộc sống chúng ta
và nó như thế là vì ai đó lấy dữ liệu
và làm cái gì đó với nó.
Trường hợp này, Hans đặt dữ liệu với nhau
ông đã tìm từ tất cả trang mạng và các thứ
của nước Mỹ.
Ông đã đặt chúng với nhau,
kết hợp nó với vài thứ thú vị hơn bản gốc
và sau đó ông đưa nó vào phần mềm này,
mà tôi nghĩ con trai ông đã phát triển nó,
và tạo ra bài thuyết trình tuyệt vời này.
Và Hans đã tạo một điểm nhấn
khi nói, "Nhìn xem, có nhiều dữ liệu
thật sự rất quan trọng".
Và tôi hạnh phúc khi thấy điều đó
tại bữa tiệc tối qua
khi ông ấy vẫn nói, rất mạnh mẽ,
"Có nhiều dữ liệu thật sự rất quan trọng".
Vậy tôi muốn bây giờ
chúng ta hãy nghĩ
không chỉ hai mảnh dữ liệu được kết nối,
hay sáu giống như ông ấy đã làm,
nhưng tôi muốn nghĩ về một thế giới
mà ở đó mọi người đều đưa dữ liệu lên mạng
mọi thứ tưởng tượng ban đầu
đều trên mạng
và sau đó gọi là dữ liệu liên kết.
Kỹ thuật là dữ liệu liên kết,
rất đơn giản.
Nếu bạn muốn đưa cái gì lên mạng
thì có ba quy tắc:
đầu tiên là tên HTTP -
những thứ này bắt đầu với "http:" -
bây giờ chúng tôi dùng chúng
không chỉ cho tư liệu,
chúng tôi dùng cho các thứ tư liệu đề cập.
Chúng tôi dùng cho con người, địa điểm,
chúng tôi dùng nó cho sản phẩm của bạn,
dùng cho các sự kiện.
Tất cả loại khái niệm,
họ có tên bắt đầu với HTTP.
Quy tắc thứ hai, nếu bạn lấy một
trong số các tên HTTP và bạn tra cứu nó
và tôi làm về mạng với nó
và lấy dữ liệu
sử dụng giao thức HTTP từ mạng,
tôi sẽ lấy về một vài dữ liệu
với định dạng chuẩn
là loại dữ liệu có ích
mà vài người muốn biết
về điều đó, về sự kiện đó.
Ai ở sự kiện? Bất cứ gì về người đó,
họ sinh ra ở đâu, những thứ như thế.
Quy tắc hai
tôi lấy về thông tin quan trọng
Quy tắc ba là khi tôi lấy lại thông tin đó
nó không chỉ là chiều cao và cân nặng
và nơi sinh của ai đó,
nó có cả những mối quan hệ.
Dữ liệu là những nối quan hệ.
Thú vị là, dữ liệu là các mối quan hệ.
Người này sinh ở Berlin;
Berlin ở Đức.
Khi có các mối quan hệ,
bất cứ khi nào diễn tả một mối quan hệ
khi đó những thứ khác có liên quan
được đưa ra là
một trong các tên bắt đầu với HTTP
Do đó, tôi có thể tiếp tục tra cứu cái đó.
Vậy tôi tìm một người -
sau đó tôi có thể tìm thành phố sinh ra
sau đó tôi có thể tìm nó thuộc vùng nào,
trong thị trấn nào,
dân số của nó, vân vân.
Do đó tôi có thể duyệt những thứ đó.
Vậy nó thật sự là như thế.
Đó là dữ liệu kết nối.
Một vài năm trước tôi viết một bài báo
tựa đề "Dữ liệu liên kết"
và sớm sau đó, vài thứ bắt đầu xuất hiện.
Ý tưởng về dữ liệu liên kết
mà chúng tôi có rất rất nhiều
về những cái hộp của Hans
và có rất rất nhiều
những thứ được nảy mầm.
Nó không chỉ là toàn bộ
nhiều cái cây khác.
Nó không chỉ là rễ nuôi lớn cái cây,
nhưng với mỗi cái cây, bất kể là gì -
bài thuyết trình, phân tích,
ai đó tìm các mẫu trong dữ liệu -
họ sẽ thấy tất cả các dữ liệu
và họ sẽ thấy nó liên kết với nhau,
và điều thật sự quan trọng về dữ liệu
là càng kết nối nhiều thứ,
nó càng mạnh hơn.
Vậy, dữ liệu liên kết.
Sự lan truyền đã vươn ra ngoài.
Và, cũng khá sớm Chris Bizer
tại trường Đại học Freie ở Berlin
trong số người đầu tiên
đưa lên thứ thú vị,
ông để ý rằng Wikipedia -
các bạn biết Wikipedia,
bách khoa trực tuyến duy nhất
với rất rất nhiều tư liệu thú vị trong đó.
Trong tư liệu, có hình vuông,
hình hộp nhỏ.
Và trong hầu hết các hộp thông tin,
là dữ liệu.
Nên ông ấy viết chương trình lấy dữ liệu,
trích nó từ Wikipedia,
và bỏ vào một phần nhỏ dữ liệu liên kết
trên trang mạng, mà ông gọi là dbpedia.
Dbpedia thể hiện bằng khung màu xanh
ở giữa trình chiếu này
và nếu bạn thật sự tìm kiếm về Berlin,
bạn sẽ thấy rằng có
các vùng thông tin khác
mà cũng có những thứ về Berlin,
và chúng được liên kết với nhau.
Vậy nếu bạn kéo dữ liệu về Berlin
từ Dbpedia,
bạn kết thúc bằng việc kéo cả các thứ khác
Và thứ đang tồn tại bắt đầu phát triển.
Đó cũng lại là cấp cơ sở.
Hãy nghĩ một chút về dữ liệu.
Dữ liệu đến từ thực tế
dưới rất rất nhiều hình thức khác nhau.
Nghĩ về sự đa dạng của trang mạng.
Nó thật sự rất quan trọng
rằng trang mạng cho phép bạn
đưa tất cả loại dữ liệu lên đó.
Nó với dữ liệu,
Tôi có thể nói về mọi loại.
Ta có thể nói về dữ liệu chính phủ,
dữ liệu doanh nghiệp rất quan trọng,
có dữ liệu khoa học, có dữ liệu cá nhân,
có dữ liệu thời tiết, dữ liệu về sự kiện,
có dữ liệu về các bài nói, và có tin tức
và có tất cả các thứ.
Tôi chỉ định đề cập một vài trong số đó
để bạn hiểu được sự đa dạng của nó,
cũng để bạn thấy tiềm năng chưa mở khóa
nhiều như thế nào.
Bắt đầu với dữ liệu chính phủ.
Barack Obama đã nói trong bài diễn văn,
rằng ông ấy -
dữ liệu về chính phủ Mỹ sẽ có trên mạng
dưới định dạng có thể tiếp cận.
Hy vọng họ đưa nó lên như dữ liệu liên kết
Điều đó là quan trọng. Tại sao quan trọng?
Không chỉ vì minh bạch,
minh bạch trong chính phủ là quan trọng
nhưng dữ liệu này -
đây là dữ liêu từ tất cả cơ quan chính phủ
Nghĩ xem dữ liệu đó có giá bao nhiêu,
nghĩ về cuộc sống ở Mỹ như thế nào.
Nó thật ra rất hũu dụng. Nó có giá trị.
Tôi có thể dùng nó trong công ty tôi.
Tôi có thể dùng nó như
đứa trẻ làm bài tập
Vậy ta đang nói về việc tạo ra địa điểm,
cho thế giới tốt hơn
bằng cách tạo ra dữ liệu có sẵn.
Thực tế nếu bạn có trách nhiệm -
nếu bạn biết về vài dữ liệu
trong cơ quan chính phủ, bạn thường thấy
những người đó, họ rất muốn giữ kín nó -
Hans gọi đó là ôm chặt cơ sở dữ liệu.
Bạn ôm cơ sở dữ liệu, bạn không muốn bỏ ra
tới khi bạn tạo một trang mạng đẹp cho nó.
Ừ thì, tôi muốn đề nghị thay vào đó -
vâng, làm một trang mạng đẹp,
tôi là ai mà nói là
đừng làm một trang đẹp?
Hãy làm một trang mạng đẹp,
nhưng đầu tiên
hãy cho chúng tôi dữ liệu không giả tạo,
chúng tôi muốn dữ liệu.
Chúng tôi muốn dữ liệu không giả tạo.
Bây giờ,
chúng ta phải yêu cầu dữ liệu thô.
Và tôi sẽ yêu cầu bạn thực hành, được chứ?
Hãy nói từ "thô"?
Khán giả: Thô.
Hãy nói "dữ liệu"
Khán giả: Dữ liệu.
L: Hãy nói "bây giờ"
Khán giả: Bây giờ!
Được rồi, "dữ liệu thô ngay bây giờ"!
Khán giả: Dữ liệu thô ngay bây giờ!
Thực hiện như vậy. Điều đó là quan trọng
vì bạn không biết có bao nhiêu lý do đâu.
Mọi người tìm cách để giữ dữ liệu của họ
và không đưa nó cho bạn, cho dù bạn
trả tiền cho nó như một người đóng thuế.
Và đó không chỉ ở Mỹ. Mà toàn thế giới.
Và dĩ nhiên không chỉ chính phủ-
mà cũng có cả các doanh nghiệp.
Vì vậy tôi chỉ đề cập
một vài suy nghĩ về dữ liệu.
Bầy giờ chúng ta ở tại TED,
và ta lúc nào cũng tỉnh táo
với những thử thách khổng lồ
trong xã hội loài nguời ngày nay
chữa trị ung thư,
hiểu bộ não cho bệnh Alzheimer,
Hiểu nền kinh tế
để làm cho nó ổn định hơn,
Hiểu cách thế giới hoạt động.
Giải quyết
việc này là nhà khoa học
Họ có nửa ý tưởng trong đầu,
Họ cố giao tiếp những thứ đó
qua mạng.
Nhưng bây giờ có rất nhiều
loại tri thức về loài người
trong các cơ sở dữ liệu,
thường nằm trong máy tính,
và thật ra, là không được chia sẻ.
Thực tế, tôi sẽ chỉ
đi vào một chuyện,
ví dụ, bệnh Alzhelmer.
Sự phát minh ra thuốc - toàn bộ
dữ liệu liên kết sẽ xuất hiện
vì nhà khoa học lĩnh vực này
nhận ra rằng
đây là cách tuyệt vời
để ra khỏi những kho chứa,
vì họ có dữ liệu gen
trong một cơ sở dữ liệu
trong một tòa nhà, và họ có
dữ liệu về chất hữu cơ ở chỗ khác.
Ngày nay, họ đang gắn bó với
- dữ liệu liên kết -
và bây giờ họ có thể hỏi những câu,
mà bạn có thể sẽ không hỏi,
tôi không hỏi - họ hỏi.
Loại protein nào tham gia vào
việc truyền tín hiệu
và cũng liên quan với tế bào
thần kinh hình tháp?
Bạn tiếp nhận thật nhiều
và bạn đưa nó lên Google.
Dĩ nhiên, không có trang mạng nào
trả lời câu hỏi đó
vì không có ai đã trả lời nó trước đây.
Bạn có 223,000 kết quả -
không kết quả nào dùng được
Bạn hỏi dữ liệu liên kết -
đang được đặt cùng nhau
32 kết quả, mỗi một đó là một chất đạm
có các thuộc tính
và bạn có thể nhìn thấy nó.
Sức mạnh để hỏi những câu hỏi đó
như một nhà khoa học -
câu hỏi vượt qua
các quy tắc khác nhau
đó thật sự là
sự thay đổi hoàn toàn.
Điều đó rất rất quan trọng.
Lúc này,
nhà khoa học hoàn toàn lúng túng -
sức mạnh của dữ liệu mà các
nhà khoa học khác thu thập đc đã bị khóa
và ta cần mở khóa nó
để giải quyết những vấn đề khổng lồ.
Bây giờ, nếu tiếp tục thế này, bạn sẽ nghĩ
tất cả dữ liệu đến từ tổ chức khổng lồ
và không có gì liên quan tới bạn.
Nhưng điều đó không đúng.
Thực tế, dữ liệu là về cuộc sống.
Bạn chỉ - đăng nhập vào địa chỉ mạng xã hội,
cái bạn thích,
nói, "Đây là bạn tôi"
Bing! Mối quan hệ. Dữ liệu.
Bạn nói,
"Tấm ảnh này, nó mô tả người này".
Bìng! Đó là dữ liệu.
Dữ liệu, dữ liệu, dữ liệu.
Mỗi lần bạn làm gì đó với mạng xã hội,
trang mạng xã hội lấy dữ liệu và dùng nó
- tái tạo nó
và dùng nó để làm cho
cuộc sống con người thú vị hơn.
Nhưng, khi tới vị trí dữ liệu kết nối khác
và lần này hãy nói về du lịch,
và nói, "Tôi muốn gửi tấm ảnh này
đến mọi người trong nhóm"
bạn không thể vượt qua bức tường,
Nhà Kinh tế viết về nó,
nhiều người bàn tán
sự thất bại to lớn.
Cách đạp đổ các kho chứa
là để đạt đồng bộ
giữa các địa chỉ mạng xã hội.
Ta cần làm vậy với dữ liệu liên kết.
Loại dữ liệu cuối cùng tôi nói đến,
có lẽ thú vị nhất.
Trước khi tôi xuống đây,
tôi đã tìm trên OpenStreetMap
OpenStreetMap là bản đồ,
cũng là Wiki.
Phóng to và cái hình vuông đó
là nhà hát mà ta đang ngồi
Nhà hát Terrace.
Không có tên trên đó.
Tôi vào phần biên tập,
chọn nhà hát,
Tôi có thể thêm cái tên vào bên dưới,
và lưu nó lại.
Và bây giờ nếu bạn vào
OpenStreetMap.org,
Khi tìm nơi này, bạn sẽ thấy
Nhà hát Terrace có tên ở đó
Tôi đã làm điều đó. Là tôi!
Tôi làm thế với bản đồ.
Vừa làm đó!
Tôi đưa nó lên đó. Bạn biết gì không?
Nếu bản đồ phố xá
là về mọi nguời làm bổn phận của họ
và nó tạo ra một nguồn không thể tin được
vì mọi người khác làm việc của họ.
Và đó là những gì về dữ liệu liên kết.
Nó nói về mọi người
đang làm phần của họ
để làm ra một ít,
và tất cả chúng đều kết nối với nhau.
Đó là cách dữ liệu liên kết làm việc.
Bạn làm bổn phận của mình.
Những người khác làm của họ.
Bạn có thể không tự có nhiều dữ liệu
để đưa lên đây
nhưng bạn biết yêu cầu nó.
Và chúng ta sẽ tập luyện điều đó.
Vậy, dữ liệu liên kết - nó khổng lồ.
Tôi chỉ nói một số ít rất nhỏ
trong các thứ
Có dữ liệu ở mỗi khía cạnh cuộc sống,
mỗi khía cạnh của công việc và sở thích,
và nó không chỉ là con số
của nơi có dữ liệu,
mà nó kết nối với nhau.
Và khi bạn kết nối dữ liệu với nhau,
bạn có sức mạnh
theo cách không chỉ xảy ra
với trang mạng, mà còn với tư liệu.
Bạn sẽ có sức mạnh khổng lồ nhờ nó.
Vậy, bây giờ chúng ta
đang ở tại sân khấu
nơi mà ta phải làm điều đó -
những nguời nghĩ đó là ý hay.
Tất cả mọi người - tôi nghĩ
rất nhiều người ở TED làm nhiều thứ
mặc dù không có sự hoàn vốn ngay tức khắc
vì nó sẽ chỉ thật sự chi trả
khi mọi người khác hoàn thành nó -
họ sẽ làm bởi vì
họ là kiểu người làm những thứ
mà chỉ tốt nếu
người khác đã làm nó.
Nên nó được gọi là dữ liệu liên kết
Tôi muốn bạn làm điều đó
Tôi muốn bạn yêu cầu nó.
Và tôi nghĩ nó là ý tường toàn cầu
Cảm ơn.
(Vỗ tay)