四大數據分析陷阱amp;如何避免它們
四大數據分析陷阱amp;如何避免他們對數據的誤解,甚至會誤導我們**很好的人。看看數字營銷四個常見的數據分析陷阱,以及一些批判性思考和避免這些陷阱的妙招。
數字營銷是值得驕傲的數據驅動領域。然而,正如SEO所說,我們經常使用不完整或有問題的數據,**終得出錯誤的結論,我們試圖證明我們的論點或量化我們的問題和機會。
在本文中,我將概述我們行業中四個常見的數據分析陷阱以及如何避免它們。
1.下結論
今年早些時候,我對品牌知名度進行了排名因子研究,并發出以下警告:
ldquo;hellip;hellip; 域名授權(或品牌搜索量或任何其他內容)與排名正相關的事實可能表明以下任何或所有情況:
鏈接導致網站排名良好
排名正當理由網站獲取鏈接
大約第三個因素(如網站的聲譽或年齡)導致網站獲得鏈接和排名在同一時間。
我~
不過,我想更深入地研究這個問題,并為您提供一個分析這些框架的框架,因為還有很多框架。以石寺**近的研究為例,你可以在前10篇或蘭德微博中看到這篇很好的文章,也可以討論SEMRush**近的直達交通研究。我并不是在批評這兩項研究,但我想提請大家注意我們是如何解釋它們的。
首先,我們會有一點點的確認偏差——我們都太渴望大喊ldquo;相關性和因果關系之間的差異rdquo;當我們看到successful網站的關鍵字時,也認同當我們看到研報時,我們認為是有效的還是做同樣的事情,比如鏈接。
第二,我們不能批判性地分析潛在的機制。選擇不僅僅是因果關系或巧合。
在根據相關性得出結論之前,您必須考慮以下可能性:
確切地
逆向因果
共同原因
線性度
廣泛適用性
如果這些都說不通的話,那就很公平了——它們都是行話。舉個例子
我警告你不要吃奶酪,因為你可能會死在你的床單上,我必須檢查它是否有以下內容:
完全巧合-有沒有可能這么多的數據集進行了比較,其中一些必然是相似的 為什么,這正是Tyler Vigen所做的!是的,有可能。
相反因果關系mdashmdash;有沒有可能我們走錯了方向 比如,也許你的親人,哀悼與你床單有關的死亡,吃了很多奶酪來安慰自己 這似乎不太可能,所以讓我們暫且不談吧。不,不可能。
共同因果關系——這兩個因素背后有沒有第三個因素 也許增加你的財富會讓你更健康(這樣你就不會死于營養不良),也會讓你吃得更多奶酪。這似乎是合理的。是的,有可能。
線性-我們比較兩種線性趨勢 線性趨勢是一個穩定的增長率或下降率。隨時間近似線性的任何兩個統計數據都具有良好的相關性。在上圖中,我們的統計數據呈直線上升趨勢。如果你在不同的尺度上繪制它們,它們看起來可能完全不相關,就像這樣,但是因為它們都有一個穩定的速率,它們仍然是很好的相關。是的,似乎有可能。
廣泛適用性-這種關系是否可能只存在于某些利基場景中,或者至少不存在于我的利基場景中 例如,奶酪,對某些人來說,這足以產生這種關聯,因為很少有床單卷入死亡 是的,似乎有可能。
所以我們有四個ldquo;是rdquo;答案和五個測試之一ldquo;否rdquo;回答。
如果你的例子沒有得到五分之五的檢查ldquo;否rdquo;你不能說這項研究確定了奶酪消費排名因素或致命的副作用。
類似的過程應該應用于案例研究,這是另一種形式的相關性mdashmdash;你所改變的關系,以及一些好的(或壞的)。發生。例如,詢問:
我是否排除了其他因素(如外部需求、季節性、競爭對手失誤)
我是通過做我想做的事情來增加流量,還是同時意外地改善了其他因素
這是由于特定客戶/項目的特殊情況造成的嗎
2.缺失
如果我告訴你我今天的流量是每周20%,你會怎么說 恭喜你
如果去年這個時候增長了20%呢
如果我告訴你20年來一直上漲20%,直到**近呢
有趣的是,一個小環境可以完全改變這一點。這是另一個案例研究的問題和他們邪惡的倒雙胞胎,交通下降分析。
如果我們真的想知道某件事是令人驚訝的,是積極的還是消極的,我們需要將它與我們的預期進行比較,然后計算出我們的預期偏差是多少ldquo;正常rdquo;。如果這聽起來像是統計數據,那是因為這是統計數據——事實上,我在2015年就寫過衡量變化的統計方法。
但是,如果你想偷懶,一個好的經驗法則是收縮和增加前幾年。如果有人向你展示可疑的放大數據,你可能需要使用少量的鹽。
3相信我們的工具
你會根據你的競爭對手操縱的數字做出數百萬美元的商業決策嗎 好吧,你有機會。這個數字可以在谷歌分析中找到。我在其他地方對此進行了廣泛討論,但大多數分析平臺都存在一些主要問題:
他們很容易操縱外部世界
他們是如何分組談話的
他們對AD阻滯劑有多脆弱
它們在樣本中的表現,它們的明顯程度
例如,谷歌ApI V3可以分析大量的樣本數據,如果流量超過一定量(~500000在日期范圍內),您知道嗎 我也沒有,直到我們遇到它,同時建造蒸餾ODN。
類似的問題在很多情況下都存在ldquo;搜索分析rdquo;在工具中。我的同事Sam Nemzer為此寫了一堆報告——你知道排名**高的跟蹤平臺是完全不同的排名 或者關鍵詞就是谷歌(所以像SEMRush這樣的工具和統計數據也不是等價的,可能沒有大量的參考資料
了解我們使用的工具的優點和缺點是很重要的,這樣我們至少可以知道它們何時是準確的(例如,他們的見解引導你朝著正確的方向),如果不是完全準確的話。我在這里真正可以推薦的是,他的SEO(或任何其他數字渠道)必須意味著理解你的測量平臺的機制,這就是為什么所有新的開端都學習如何在蒸餾結束時分析審計。
根問題**常見的解決方案之一是合并多個數據源,但是hellip;
4.合并數據源
將有許多平臺ldquo;失敗(未提供)rdquo;聚合兩個或多個數據:
分析
搜索控制臺
關鍵詞廣告
排名跟蹤
這里的問題是,首先,這些平臺沒有相同的定義,第二,具有諷刺意味的是,經常打破他們。
我們先來處理定義,例如mdashmdash;讓我們看看帶有頻道的登錄頁:
在搜索控制臺中,這些數據以單擊的形式報告,當合并多個維度(如關鍵字和頁面)或過濾器時,它們可能會受到嚴重和不可見的采樣的攻擊。
在谷歌分析中,這些報告使用的是**后一次間接點擊,這意味著你的有機流量包括一系列直接會話、加班、恢復中間會話等,而這些會話不進入暗流量、廣告封殺代理等。
在AdWords中,大多數報表使用AdWords單擊并轉換以定義不同的報表。此外,如上所述,關鍵字volume是捆綁的。
排名如上所述,跟蹤是特定于位置且不一致的。
好吧,雖然它可能不準確,但考慮到這些限制,你至少可以得到一些有用的數據。但是,關于ldquo(未提供)rdquohellip;
大多數登錄頁獲得的流量不止一個關鍵詞。其中一些關鍵詞的翻譯效果可能比其他關鍵詞更好,尤其是當它們帶有品牌時,這意味著即使是****的點擊模式也幫不了你。那么你怎么知道哪個關鍵詞是有價值的呢
**好的答案是從這些關鍵詞AdWords數據中概括出來,但您不太可能擁有關鍵詞和web數據的所有這些組合來進行分析。本質上,報告工具非常大膽地假設給定頁面的所有關鍵字轉換都是相同的。有些人比其他人更透明。
再次強調,并不是這些工具一文不值,而是需要仔細理解它們。唯一能夠可靠地填補ldquo產生的空白的方法;不可用rdquo;將花費大量的付費搜索,以獲得體面的量,轉換率,跳出率是估計所有關鍵字,即使這樣,你沒有固定的不一致的定義問題。
獎勵:平均評分
我看得太多了。有三個問題
您是否更關心十個非常低容量的查詢(10個月或更少)的損失,而不是一個高容量的查詢(百萬以上) 如果答案不是ldquo;是的,我絕對更關心十個低容量查詢rdquo;,所以這個指標不適合你,你應該考慮一個基于點擊率估計的可見性度量。
在你開始排名100個你不知道的關鍵詞排名之前,這會讓你不安嗎 如果答案不是ldquo;是的,我討厭新的關鍵字排名rdquo;,所以這個指標不適合你mdashmdash;因為它會降低你的平均值排名。當然,您可以使用所有非排名關鍵字作為位置100,正如某些工具所允許的那樣,但是在2個平均排名位置的下降真的是表明每50個登錄頁中就有一個已被索引的**佳方式嗎 另外,使用可見性度量。
你喜歡和你的競爭對手比較你的表現嗎 如果答案不是ldquo;不,當然不是rdquo;,那么這個指標不適合你mdashmdash;你的競爭對手可能有更多或更少的品牌關鍵詞或長尾排名,這將導致比較偏見。同樣,使用可見性度量。
結論是你會發現這很有用。總結的主要結論是:批判性地分析相關研究和案例研究,看看你是否能將它們解釋為巧合,如反向因果關系,作為聯合因果關系,通過引用第三個相關因素,或生態位適用性。
不要在沒有上下文的情況下看流量變化——你會預測這段時間和誤差有多大
記住,我們使用的工具有局限性,看看它們如何影響它們顯示的數字ldquo;這個數字是如何產生的ldquo;這是一個重要的部分,這個數字是什么意思rdquo;ldquo;
如果**終合并了來自多個工具的數據,請記住找出它們之間的關系mdashmdash;將此信息視為方向而不是精度。
http://www.dgzxsm168.com/jianzhanzhishi/523.html 四大數據分析陷阱amp;如何避免它們