你的位置:UniLend 中文站 > Bonk中文网 > >尋找良好的資料集
热点资讯
Bonk中文网

尋找良好的資料集

发布日期:2025-01-04 16:47    点击次数:119

瞭解如何使用 Tableau Desktop(或建置範例或概念驗證內容)的好方法是尋找您感興趣的資料集。如果有真正要使用資料回答的問題,分析的步驟會變得更簡單且更具意義。資料集的真實性嘗試尋找非官方、非企業認可的資料集時,有兩個不可避免的事實。您找不到要尋找的目標。請盡量避免對你需要的東西有嚴格的預期。對於指定專案可使用的內容保持彈性和開放的態度。有時所需資料需要收費,請自行判斷是否值得。您必須清除資料。準備好基本的清除和調整(連結在新視窗開啟),以確保資料的結構良好,以便進行分析可能需要引入其他資料集(連結在新視窗開啟)。擁有資料字典或中繼資料可能至關重要。可能需要使用計算。良好資料集的構成為何一個良好的資料集是適合您目的的資料集。只要滿足這項需求,就是好的資料集。但是,有一些注意事項可幫助您清除可能不太適用您目的的資料集。整體而言,尋找滿足以下條件的資料集:包含您需要的元素是分解資料至少有一兩個維度和一兩個度量有良好的中繼資料或資料字典可使用(不是專屬格式、過於雜亂,或過於繁瑣)1.良好的資料集具有您所需的元素如果要查找資料集以建置特定視覺化效果或展示特定功能,請確保資料集具有所需的欄位類型。例如,地圖是不錯的視覺效果,但需要地理資料。基本示範通常涉及向下切入日期,因此資料至少需要一個日期欄位(而且需要比年度更精細的項目,以便顯示向下切入)。並非所有資料集都需要所有這些元素,瞭解您所需的內容,不要浪費時間在缺少關鍵元素的資料集。用於分析的常見元素:日期地理資料階層式資料「相關」度量:量級或正負值的顯著變化某些功能或視覺效果類型可能需要資料的特定特性,例如: 叢集預測趨勢線使用者篩選器空間計算特定計算子彈圖控制圖2.良好的資料集是分解(原始)資料如果過度彙總資料,對分析於事無補。例如,如果您要查看使用 Google 搜尋「Pumpkin Spice」(南瓜香料)的使用者趨勢,但是有年度資料,則只能查看非常高階的概觀。理想情況下,您希望取得每日資料,因此當 Starbucks(星巴克)開始提供 #PSL 時,您會看到巨大的峰值。怎樣才算是分解,因分析而異。請注意,由於隱私或實用性,某些資料集永遠不會是最為精細。例如,您可能找不到包含瘧疾病例逐案報告的資料集,因此,依區域劃分的每月總計可能足夠精細。3.良好的資料集具有維度和度量許多視覺效果類型需要維度和度量如果只有維度,則主要僅限於計數、計算百分比,或使用「表計數」欄位。如果只有度量,則無法依任何項目劃分值。您可以完全分解資料,也可以使用整體的 SUM 或 AVG 等。這並非表示只有維度的資料集沒有用處。人口統計資料是大量維度資料的範例,有關人口統計的許多分析都是計數或以百分比為基礎。但是對於分析性較強的豐富資料集,您至少需要幾個維度和度量。4.良好的資料集具有中繼資料或資料字典只有在瞭解資料是什麼時,資料集才有幫助。在尋找優質資料時,最令人沮喪的莫過於開啟如下所示的檔案:4 或 12 的來源是什麼意思?OTU0-OTU4 欄位有哪些資訊?良好的資料集是妥善標記的欄位和成員或資料字典,因此您可以自行重新標記資料。想想 Superstore,可以很明顯地知道欄位及其值是什麼,例如「Category」(類別)及其成員「Technology」(技術)、「Furniture」(傢俱)和「Office Supplies」(辦公用品)。或者,對於上圖中的微生物資料集,有一個資料字典(連結在新視窗開啟)說明每個「來源」(4 是排泄物,12 是胃),以及每個 OTU 的分類(OTU3 是桿菌屬的細菌)。資料字典也可以稱為中繼資料、指標、變數定義、術語表或任意數量的其他內容。在一天結束時,資料字典會提供有關欄名稱和欄中成員的資訊。可以透過幾種方式將該資訊帶入資料來源或視覺效果,包括:重新命名欄,以便更容易理解(這可以在資料集本身或 Tableau 中完成)。重新命名欄位成員的別名(這可以在資料集本身或 Tableau 中完成)。建立計算以新增資料字典資訊。對 Tableau 中的欄位新增註解(註解不會顯示在已發布的視覺效果上,只會顯示在製作環境中)。使用資料字典做為另一個資料來源,並合併兩個資料來源。遺失資料字典會使資料集變得毫無用處。如果要將資料集加入書簽,請同時將資料字典也加入書簽。如果您要下載,請下載兩者,並將其放在相同位置。5.好的資料集是可以派上用場的資料集只要您能夠瞭解資料集,而且該資料集具有您所需的資訊,即使是小型資料集也可以對分析產生巨大作用。較小的資料集也易於儲存、共用和發布,而且可能執行成效良好。同樣地,即使您找到了滿足您需求的「完美」資料集,也需要花費大量的精力進行清除,畢竟這不是完美的。知道何時捨棄過於混雜的資料集非常重要。例如,此資料集來自關於相對字母頻率的 Wikipedia 文章。開始為 84 列和 16 欄(樞紐分析為 1,245 列和 3 欄)。Excel 檔案是 16KB。但是,透過一些群組、集合、計算,以及其他操作,可進行可靠的分析和有趣的視覺效果。按一下影像可下載工作簿。 重新標記您的資料找到良好的資料集之後,通常需要重新標記該資料集。重新標記資料對於建立範本或概念驗證的假資料,或使資料更具可讀性很有幫助。「重新命名」欄位會變更欄位在 Tableau 的呈現方式,例如,將「銷售額」重新命名為「管道銷售額」,或將「州」重新命名為「省」。重新建立別名會變更欄位成員的顯示方式,例如,將「國家/地區」欄位中的值重新建立別名,以便 CHN 變成 China,RUS 變成 Russia。離散維度欄位中的值稱為成員。只能為成員重新建立別名。考慮溫度的度量欄位。如果不變更資料本身,則不能更改 54°F 的值。但是,在「國家/地區」欄位中,為成員「CHN」重新建立別名「China」是相同的資訊,只是用另一種方式進行標記。重新命名和重新建立別名意味著幾乎相同的事情。Tableau 中的慣例是為欄位命名,為成員建立別名。有關詳情,請參閱在「資料」窗格中組織和自訂欄位以及在檢視中建立別名以重新命名成員。附註:重新命名或重新建立別名只會變更在 Tableau Desktop 中的顯示方式;不會將任何變更寫回至基礎資料。重新標記以製作假資料重新標記現有資料集是讓範例或概念驗證內容更具吸引力的好方法。使用簡單的資料集(如 Superstore)來建置所需的內容(特定的圖表類型、顯示某些功能等)重新命名相關欄位、變更工具提示,否則變更文字方面以掩蓋資料實際表示的內容。重要資訊:只有在明顯是假資訊時才這麼做。如果人們不認為它是真實資料,並嘗試使用它進行分析時,請務必小心。例如,使用愚蠢的名稱或毫無意義的欄位名稱,例如,顏色或動物。重新建立別名讓資料更易於使用將資料儲存為數值而非字串值會更加有效,但數值編碼會使資料更難理解。這一點對於小型資料集而言,可能不會影響效能,因此設定優先順序能夠輕鬆瞭解資料。重新建立別名的缺點是您無法再存取這些數值(使得排序、指派色彩漸層等操作變得更加困難)。請考慮複製該欄位,並為副本重新建立別名。另外,在 Tableau 中進行計算可能是保留原始資訊的好方法,同時也使其更容易理解。使用 CASE 函數重新建立別名計算對於重新建立別名而言,可能是非常強大的功能。例如,CASE 函數實際上允許您以下列方式表示:「當此欄位的值為 A,請給我 X。當值為 B,請給我 Y」。這裡的 CASE 函數會查看龍捲風資料集的「藤田級數」(F-scale),並提供與每個數值相關聯的寫入描述:CASE [F-scale]WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."END現在,我們可以在視覺效果中選擇使用原始的「藤田級數」欄位 (0-5),或「藤田級數破壞描述」欄位。查找資料集時的秘訣附註:嘗試確保您可以回答出「資料集的列(又稱記錄)代表什麼?」如果您無法清楚地回答這個問題,可能無法充分瞭解資料,以致無法使用它,或者資料結構可能很差,無法進行分析。持續追蹤資料來自何處。透過資料本身隨時更新資料字典資訊。如果您需要內容保持日久彌新的狀態,請避免使用陳舊的資料。查找:可更新的資料(庫存、天氣、定期發布的報告等)恆定資料(各種動物的平均品質不會逐年變化)您可以藉由手動變更為歷史或未來日期,防止資料以後不會過時試著用 Google 簡單地搜尋您要查找的內容,您可能會大吃一驚。如果資料集的準備工作太多,不要害怕放棄。查找資料的地方您可以在哪裡查找資料?尋找資料集的地方可能很多。可透過一些選項著手瞭解相關資訊。請注意,資料集的真實性確實適用於這些站台,您現在可能找不到要思考的內容,而且很可能需要做一些清除工作才能備妥資料以進行分析。免責聲明:儘管我們盡最大努力確保外部網站的連結保持正確、最新並相關,但 Tableau 對於外部提供商所維護的頁面的準確性或新鮮度不擔負任何責任。此處列出的網站不表示認可任何內容或組織。請與外部網站聯絡來獲取其內容相關問題的答案。Tableau Public(連結在新視窗開啟):Tableau Public 是適用於 Tableau 易記資料集的驚豔資源。搜尋與您感興趣的主題相關聯的工作簿、瀏覽以獲得靈感,然後下載工作簿以存取資料。或查看精心策劃的範例資料(連結在新視窗開啟)。Wikipedia 表(連結在新視窗開啟):藉由以下方式從 Wikipedia 表中取得資料:複製並貼到試算表、直接複製並貼到 Tableau,或使用 Google sheets 和 IMPORTHTML 函數(連結在新視窗開啟)以建立 Google 資料試算表。Google Dataset Search(連結在新視窗開啟): "A search engine to unite the fragmented world of online datasets."Data is Plural(連結在新視窗開啟):訂閱包含資料集的每週電子報,或瀏覽封存(連結在新視窗開啟)。Makeover Monday(連結在新視窗開啟): “Join us every Monday to work with a given data set and create better, more effective visualizations and help us make information more accessible.”您可以看到其他人使用相同資料集所做的事情、開始進行分析或提供靈感。在 Twitter 使用 #makeovermonday(連結在新視窗開啟) 來參與。其他網站Tableau Web 資料連接器(連結在新視窗開啟)Data.world(連結在新視窗開啟) 及其 WDC for Tableau(連結在新視窗開啟)Github Open Data(連結在新視窗開啟)Kaggle(連結在新視窗開啟)datahub.io(連結在新視窗開啟)r/datasets(連結在新視窗開啟)WHO(連結在新視窗開啟)Data.UN.org(連結在新視窗開啟)WorldBank(連結在新視窗開啟)data.gov(連結在新視窗開啟)、data.gov.au(連結在新視窗開啟)、data.gov.uk(連結在新視窗開啟) 等。Airbnb(連結在新視窗開啟)Yelp(連結在新視窗開啟)Zillow(連結在新視窗開啟)

上一篇:陕西养老保险怎么查询 陕西省养老保险如何查询
下一篇:MOLI万站,正式上线