
文章插圖
假設你正在做一項需要數百萬個地理標記的推特的研究 ?;蛘咭苍S你是個采訪人員想把2001年到現在芝加哥的謀殺案拍下來 。您需要找到大型時空數據集-但在哪里?
雖然有數百個公開的數據集 , 定位它們可能需要幾個月的搜索 。當找到潛在的來源時,他們很少提供足夠的信息供研究人員決定集合是否實際包含他們需要的那種數據,而不需要下載通常很大的文件并首先對其進行排序 。
【科技資訊:免費的數據集存檔幫助研究人員迅速找到大海撈針】
多虧了加州大學河濱分校(University of California,Riverside)的一位計算機科學家 , 現在找到正確的數據集就像給一個網站書簽一樣容易 , 而且它絕對不值錢 。
Marlan和Rosemary Bourns工程學院的計算機科學助理教授Ahmed Eldawy和他的小組在過去三年里對互聯網上的公共時空數據集進行了梳理,研究了它們的屬性,并在交互式地圖上總結了每組數據的結果,這些地圖顯示了用戶的確切信息 。
Eldawy說:“從事數據科學工作的人需要數據集,但可以花很多時間去尋找它們 。”“我想建立一個他們能輕易找到的檔案 ?!?
稱為UCR時空活動存儲庫,或UCRSTA R,存檔可作為一項服務提供給研究社區 , 以通過交互式探索接口提供對大型時空數據集的方便訪問 。用戶可以搜索和過濾這些數據集,就像為他們的研究而購物一樣,除了一切都是免費的 。
埃爾達維說:“地圖界面將數據可視化,這樣你就可以看到它是否很適合 ?!斑@就像是數據集的目錄 ?!?br /> 在UC R星的核心,地圖為數據集提供了一個交互式的探索性接口 。類似于谷歌地圖或其他網絡地圖,用戶可以放大、縮小和瀏覽,以快速了解數據的分布、覆蓋范圍和準確性 。
一旦選擇數據集 , 將顯示重要的詳細信息 , 如原始主頁、原始下載源的鏈接、以字節為單位的大小、記錄數量、文件格式和其他有用信息 。子集下載功能允許用戶在給定的地理區域內快速下載數據,減少了下載規模..他們還可以在網頁上嵌入他們的定制視圖,或者通過社交媒體共享鏈接,并將其書簽,以便稍后重新訪問 。
UCR STAR包含102個數據集和50億條記錄 。數據集是使用達芬奇映射的,達芬奇是一個開源框架,它建立在Apache Spark的基礎上,Eldawy設計用于處理空間數據 。UCRSTA R網站最好通過桌面瀏覽器訪問,但也有一個有限的移動友好界面 。
- 科技資訊:多達四分之三的讀者認為蘋果應該在下一代iPad上改用USB-C
- 科技資訊:更少的螺旋槳意味著獵鷹雙翼無人機電池壽命更長
- 科技資訊:Shaggy說他放棄了與蕾哈娜的合作
- 科技資訊:如果買電視是為了玩游戲 那該注意些什么呢
- 科技資訊:谷歌錯誤看到視頻發送到錯誤的用戶檔案
- 科技資訊:蘋果iOS 6地圖在3分鐘內就慘敗
- 科技資訊:服務不足地區的林波波零售物業增長
- 科技資訊:Prasa將于2015年推出電動高速列車
- 科技資訊:全電動起亞Soul EV將在日內瓦歐洲首次亮相
- 科技資訊:捷豹路虎的虛擬眼睛看著對自動駕駛汽車的信任
