.comment-link {margin-left:.6em;} <$BlogRSDUrl$>

Thursday, July 07, 2005


Readings on BABIP 


由於王建民的關係,BABIP 忽然成為台灣當紅的棒球數據。剛好昨天的 Baseball Prospectus 也有一篇 Mailbag 裡面討論到這個話題,所以我趁這個機會把幾篇重要文獻做個整理。

BABIP 並不是最早出現的名詞,提出這個概念的 Voros McCracken (目前應該還在 Red Sox 的 front office 做數據統計的東西) 他的那篇著名文獻的主題是 Defensive Independence Pitching Stats。在那篇文章裡他並沒有創造出來 BABIP 這個名詞,而只是用 $H 這個符號來代替。在這篇文章他破題是從 1999 年 Aaron Sele 和 Jose Rosado 兩個人的表現來談如何評估投手的表現,那一年這兩個人的成績是:
Aaron Sele: 18W-9L, 4.79ERA, 205IP, 244H, 21HR, 70 BB, 3 IBB, 186 SO, 12 HBP, 920 BFP
Jose Rosada: 10W-14L, 3.85ERA, 208IP, 197H, 24HR, 72 BB, 1 IBB, 141 SO, 5 HBP, 882 BFP
誰比較好?

初學看棒球數據的會先看勝負記錄,Aaron Sele 比較好。看得多一點的知道勝負記錄受到很多跟投手無關的東西影響,今年 Roger Clemens 在球季開始時是怎麼被他的隊友活整就是很好的例子,投手投再好如果隊友不得分也沒用,所以下一步就是學會看 ERA,上面的數據是 Jose Rosada 較好。

McCracken 的結論是 Sele 是這兩個人之中較好的投手,而這個立論跟勝負無關。從這裡他引出了 DIPS 的觀念以及 BABIP 這個數據。

他在這篇改變所有 stathead 觀念的文章中,研究方式並不算非常嚴謹,因為他的樣本數取的並不是太多。這並不影響這篇文章的地位,學術研究最難的地方在於提出新觀念,這是大家提到 Asset Pricing 的 factor model 時總會最先想到 Fama and French 這兩個人一系列的文章的緣故。算了,財務討論就此打住,舉例的目的是要幫助大家了解東西,不是讓人越看越迷糊。McCracken 在那篇文章中比較 1998 和 1999 年投球局數都超過 162 局的六十個投手在這兩年中 BABIP 變化情形,結果發現這個數據的變化相當大,前一年在最佳前十名的投手次一年有可能落到最差的前十名。他同時比較下面四組數據
$BB=BB/((IP*3)+H+BB)
$SO=SO/((IP*3)+H)
$HR=HR/((IP*3)+H-SO)
$H=(H-HR)/((IP*3)+H-SO-HR)
前後兩年的相關係數,結果是:
$BB=.681
$SO=.792
$HR=.505
$H =.153
這個數據讓人懷疑 $H,也就是我們所說的 BABIP,並不是投手的能力。如果這個數據是投手能力的話,前一年表現出色的投手次年仍然會好,相關係數應該會接近 1 而不是 0。如果相關係數是 0 的話表示兩個事件是獨立的,也就是說這並不是投手能力。

在那篇文章中他舉的例子是 Kevin Millwood 和 Greg Maddux。Millwood 在 1998 年落在 BABIP 最高的十名投手之內,但是 1999 年他卻是在最低的那一組之中,分別是 0.304 和 0.231。

Maddux 剛好相反,1998 年他在最低的那一組之中,1999 年卻在最高的那一組十個人裡面,0.255 和 0.317。

我們從 ERA 來看,Millwood 在 1998 年 ERA 是 4.08,次年一下子降到 2.68;而 Maddux 則從 1998 年的 2.22 暴升到 1999 年的 3.57。BABIP 對於『成績』的影響很大,但是這個數據並不能說明投手的能力,否則我們應該要看到在不同年份之間有不錯的相關。換句話說,我們如果用 ERA 來看投手的『能力』也會有相當大的誤差。Maddux 是未來第一次票選就會進名人堂的投手,在那之後他還有好幾年的好表現。Millwood 在那一年之後只有 2002 年的 ERA 在 4.00 以下,Phillies 花了兩年的時間來等那個 ace 水準的 Millwood 沒有等到,今年他在 Indians 倒是到目前為止還有相當好的表現,能夠維持多久我們慢慢看。

McCracken 稍後有另外一篇文章 DEFENSE INDEPENDENT PITCHING STATS Part Two: DIPS and its correlation with ERA for the following year 將這個觀念延伸下去繼續討論,請自己接下去閱讀。

在第一篇文章中還提到了在 1999 BABIP 最差的一組十人中包括了 Pedro Martinez,他那一年球被打出去後只要沒有出全壘打牆,成為安打的比例是 0.316,比 Millwood 1998 的 BABIP 還稍微高一些。如果不健忘的話,大家應該記得 Pedro Martinez 在 1999 及 2000 的表現是近代投手最能宰制打者的連續兩個球季,他也連續兩年拿到 Cy Young 獎。為什麼 Millwood 的 BABIP 高達 0.304 就讓他成為 ERA 4.08 的投手,而 Pedro Martinez 0.316 的 BABIP 仍然讓他拿到 Cy Young 獎?這個問題引發了一連串『到底什麼是投手能力』的討論。

Diamond Mind Baseball 網站有一篇由 Tom Tippett 執筆的很長的文章 (我用 letter size 列印印了 29 頁) Can Pitchers Prevent Hits on Balls in Play?, 從許多不同的角度來檢視 McCracken 的『投手無法控制 BABIP 的假設』以及討論一些公認為成功的投手為何成功。他的結論在那篇文章的最後面。他並不完全接受 McCracken 的假設,不過他的確發現 BABIP 並不像 BB/9 和 SO/9 對於投手的生涯表現影響來的更大。Pedro Martinez 在 1999 年的表現正好可以拿來作為例子。他那一年的 BABIP 雖然高,但是他在 213.3 局的投球中只被打出 160 隻安打,加上他送出去的 37 個四壞球,WHIP 還不到 1,非常精彩的表現。他之所以能夠在 BABIP 那麼高的情況下只被打出 160 隻安打的理由很簡單,對方打者打不到他的球。那一年他送出去了 313 個三振,SO/9 高達 13.20,好到有點噁心的地步。Yankees 和 Red Sox 球迷應該都不會忘記 9/10/1999 這場球。

McCracken 的這個點子也得到了 Bill James 的背書。雖然仍然有些細節值得檢討,不過 Bill James 認可了這個突破性的點子。在他的 The New Bill James Historical Baseball Abstract 裡面花了三頁左右討論這個觀念,在 P.885 的地方。

sabermetrics 的重鎮 Baseball Prospectus 也有一些相關討論,Voros McCracken 在 01/23/2001 自己寫了一篇 Pitching and Defense 討論這個觀念,Keith Woolner 在 01/29/2001 也寫了一篇 Counterpoint: Pitching and Defense 作為補充。McCracken 那篇文章只是先前作品的延伸解釋和補充,Woolner 用了更多的樣本點來檢視這個假設,提出了部份不同見解,認為好投手在『整個生涯』裡面的確可能有較低的 BABIP,但是他同時也提出單一球季這個數字的變化太大不易預測。Woolner 在這篇文章中也提出防守在這個觀念之下的價值。

Keith Woolner 在昨天的 mailbag 回答了一位 71 歲的老先生對於上面提到這篇 Counterpoint 文章的疑問,如果不耐煩看我上面列出來的幾篇文章,看看這一段討論也可以了。

這些文章是理論發展過程中對於觀念影響比較大的東西。最近幾年在許多 stathead 的努力下,又開發出不少新的東西出來,不過這些新內容只是在 McCracken 的架構下試圖更準確的評估投手的能力,尤其是 DIPS (連結來自 Replacement Level Yankees Weblog) 的估算。這些新的發展我就不在這裡贅述了,Hardball TimesBaseball Think Factory 有不少相關討論,這裡的兩個連結只是個起頭,有興趣的人順著找下去這個暑假就結束了。:p

Comments:
除了防守之外 不曉得有沒有人做過球場對於BABIP影響的研究?
 
如果BABIP必須用到大樣本的"整個生涯"才能看出一個投手能力的話,那麼它對現階段預測的實用價值似乎就不高了.

另外,我看不太懂那個數據公式中,分母 "IP*3"的用意是什麼??
 
有一點好奇,既然BABIP是打者將球擊出的形成安打的比率,用BABIP來評估投手難道不應該考慮到SO/9及BB/9嗎?

我的意思是若投手一直保送或三振使得球一直不被打出去,那只談BABIP好像不具太大意義...
不知道若一起分析的話會不會對投手的表現有更好的解讀,至少以極端例子看,像1999的Petro(高BABIP,但超高SO/9)或今年的Wang(低SO/9,但低BABIP),比較容易解釋.

不知道有沒有人做這樣的分析?
 
max,

把 BIP (Balls in Play) 和 SO、BB、HR 分開的用意就是在於將與防守無關以及與防守有關的部分分開來看,這是一個劃時代的突破。一位投手可以獨力不斷三振或保送,但對於被打進場內的球最終產生什麼結果,他的控制能力是很有限的。
 
omega,
如果BABIP必須用到大樣本的"整個生涯"才能看出一個投手能力的話,那麼它對現階段預測的實用價值似乎就不高了.

DIPS 理論正是在說打進場內的球並非投手可控制的能力啊!年復一年之間的變動大 (相關係數小),但過高或過低的 BABIP 經過長時間會 regress to the mean。
 
ayu,

關於球場對 BABIP 影響的研究應該是有的,海拔就是一項因素,在 Coors Field 被擊入場內的球,形成安打的機會比其他地方大。
 
omega,
另外,我看不太懂那個數據公式中,分母 "IP*3"的用意是什麼??

IP*3是投手面對的打者中出局的人數啊!整個分母是粗估投手面對的總打者數。當然了,這忽略了 double play 以及 caught stealing、pickoff 等特殊情況。
 
相關係數是 0 的話並不表示兩個事件是獨立的,接近了,但還不是。

若這理論正確,會如 tradewind 所說:過高或過低的 BABIP 經過長時間會 regress to the mean。但若只是前十跟後十會互調,相關係數是 0 等,那只說了這對很多選手來說,這不是個能力。是不是沒有一個投手有這種能力?目前的論述並沒有涵蓋到。
 
Melky 升上大聯盟了
 
To Bubble,

關於 rho=0 的意義在這裡簡單的看就好,不必太認真了。:p

McCracken 最早的研究樣本點較小,不過後續的研究則不然。文中提到 Diamond Mind Baseball 和 Keith Woolner 那兩篇文章,他們在研究方法上就比較嚴謹。在實證上還有一點困難,樣本點實在不多。像
Jim Kaat 這種投廿幾年的投手太少,很多人只投個三五年就下台一鞠躬了。將投球局數限制在 162 局,1998 和 1999 同時出現的只有 60 個人,如果時間拉長個幾年,恐怕很快會掉到個位數。

在樣本點小的情況下,會不會有例外?我想會的。目前的研究是用有限樣本做出對全體的通論,所以當然會有例外。至於這個例外的原因到底真正是『實力』還是只是『運氣』,恐怕並不是容易分辨的事情。

換句話說,現在的做法是盡量取大一點的樣本來估計 BABIP 到底是否是投手能力,然後將結果假設為通則。違反這個通則的,在找到其他解釋原因前將其歸類為運氣。
 
http://www.minorleaguebaseball.com/app/news/article.jsp?ymd=20050707&content_id=14606&vkey=news_milb&fext=.jsp

Cabrera 被promote上大聯盟了.有點誇張,6/28才剛上3A,不到各禮拜就往上拉了..洋基測試Cabrera 能耐的意圖會不會太明顯了??還是急著想測試Cabrera有多少交易價值?
 
To max,

BABIP 不是用來評估投手能力的。Voros McCracken 的看法是那不是投手的能力。後續研究雖然不百分之百同意這個觀點,不過也一致承認投手並不像傳統的看法對於球被打出去後是否成為安打有很大的控制能力。

我在 blog 裡面評估投手時常常只放 SO/9、BB/9 和 HR/9,H/9 有時候放,有時候不放。談未來表現時,H/9 意義比較小,因為這個數字和 BABIP 關係較密切。不過談投手『已經』做出來的事情,當然還是可以看看他被打出多少安打。

評估的到底是球員已經有的表現還是未來可能會有的表現是兩回事情。談 BABIP 不是投手能力一事主要是用於評估未來表現。一個今年表現不好主要是因為 BABIP 高的投手可能只是運氣差,所以明年也許他不會在春訓時又撞死一隻黑貓。但是今年他的確就是表現不好,不能說運氣差表現不好就要算是好。
 
我無聊利用 Baseball Propectus 上的數據做了一點小小的統計.

假設ERA (不論運氣好壞)是評估投手對球隊貢獻最重要的指標, 然後利用ERA對BABIP作圖.

首先是今年到目前為止, 在BP 列出的 523名投手中惕除 ERA 超過 10 的投手(約有40名)後, ERA 和 BABIP 的相關係數為 0.436

然後統計2000-2005 年, VORP 排名在前30名的投手中, 其ERA 和 BABIP 的相關係數,分別如下:
2000: 0.380
2001: 0.021
2002: 0.025
2003: -0.012
2004: 0.288
2005: 0.451

其中ERA 大部份落在 2-4 之間, BABIP 落在0.2-0.35 之間.

對我來說, 這些結果表示在一些討論區中, 認為當王建民 BABIP 拉高後, ERA 會隨之提高的說法完全沒有根據. 當一個投手 BABIP拉高之後, 如果還能保有較低的 ERA 表示, 表示投手在打者上壘仍然有其它的方法阻其回壘得分, 對 Pedro 來說是 SO9, 對王建民來說也許是 DP%/NETDP. (王的 NETDP 排在 47), 而好的投手似乎能夠BABIP 拉高的同時, 降低其對ERA的傷害的能力, 對王來說, 這都需要時間來證明.

說王的 BABIP 低是幸運也許有可能是對的.
但是說因為他的 BABIP 低, 所以他該有的 ERA 應該比現在更高顯然缺乏任何的證據.
 
To Moneyball,

他們應該是要測試 Melky Cabrera,show case 一個球員沒有必要拉的這麼快。

之前聽說 Steinbrenner 甚至想把他從 AA 直接拉到大聯盟。我不確定這個說法的正確性,相當瘋狂就是了。

他能成功最好,如果不行的話,希望他不至於被大聯盟投手給毀了。CC Sabathia 大概可以把他當宵夜吃掉,還不會把帽子給吐出來。幸好這一次碰不上他。
 
To polyimidie,

你那樣看是 cross section 研究,我們討論同一個投手不能那樣看。在你那樣的計算裡面是假設把所有投手都視為其他屬性相同,只看 BABIP 和 ERA 的關係。1999 年 Millwood 和 Martinez 就是很好的例子,他們的 BABIP 幾乎相同,但是 ERA 相差很大,後者還拿到 Cy Young 獎。

除非你能找到理由說投手在 BABIP 提高後其他的屬性 (如 SO/9、BB/9、HR/9) 這些東西也會相對應改變以抵消 BABIP 上升的負面影響,否則你的結論是不對的。你需要 time series 的樣本,cross section 在這裡不適用。我在文章裡引的那篇 Diamond Mind Baseball 的文章也有一些不同成功投手的不同模式的討論。

大部分討論區裡認為王建民 BABIP 如果上升後 ERA 會更難看的這個推論並不離譜。
 
如果投手沒有"控制Balls in Play是否會形成安打"的能力,就是打者或防守者有這種能力。這點大家都有共識。所以面對一些短期的變異數據,用長時間大量數據成績來矯正他偏高或偏低的BABIP值。

除此之外,還可以用該隊的DEF_EFF(Defensive Efficiency)分析個人短期的BABIP數據,也是個可以提供解釋短期BABIP值偏高或偏低的一個辦法。其他沒辦法用這個東西去解釋的,只有用Luck or bad luck去形容了。
 
This comment has been removed by a blog administrator.
 
To CCLu:

如果不是要測試Cabrera的交易價直,或者,我們可以說Cashman真要實現他之前說的,洋基目前的洞傾向於先從內部解決???

需要等到CC嗎??搞不好明天就先被Millwood生吞活剝了吧?? XD
 
To 蘅蕪君,

BP 的 BABIP 比較嚴謹,考慮一些不同狀況,跟 $H 那個公式不同。

Woolner 的名字已經更正過來,謝謝。
 
To 蘅蕪君,

BABIP 盡量不要看短期的小樣本資料。我們雖然知道防守會有影響,可是樣本不大的情況下不適合這樣分析。

舉例來說,Kevin Brown 和 王建民有一樣的防守陣容在背後,但是他們的 BABIP 相差很大。樣本小的時候從 BABIP 讀不出多少多西來,我們只能說長期下來這個數字會 "regress to the mean",但是長期可能是兩年甚至三年的事情。投手是可以在一整年之內有很好或是很壞的運氣的。
 
To Moneyball,

我舉 Sabathia 的原因不是他投球的本事,而是他的體型和胃容量。

I think he can eat Melky for dinner, literally.

Cashman 應該不會這樣 rush 新人,也許是來自高層的指示。當然也有可能是他合約快要到期了,想要做點瘋狂的事情,成功是他的功勞,不成功他也拍拍屁股走人了,別的球團也不會用一個 rookie 來評估他的能力。到底是哪一種情況我目前沒有足夠訊息判斷。
 
Melky防守比WomacK好,又可以讓51番專心打DH。然後考慮到今年超級不爽的Boss...,Cashman和Torre有讓他先打9場AAA的能耐,恐怕已經很了不起了。XD
 
我不是很明白你舉的 Millwood 和 Martinez 的例子, 因為我原本想說的就是 ERA 其實和 BABIP 無關??
即使是針對個別投手來看, 也很難看出BABIP 和他們ERA之間有非常明顯的相關性.

以Pedro 為例:
SO/9 HR/9 ERA BABIP
2004 9.41 1.08 3.9 0.299
2003 9.93 0.34 2.22 0.297

BABIP 2003~2004
SO/9 小升, HR/9 大降, 使得 ERA(2003) 下降.

2001 12.57 0.39 2.39 0.310
2000 11.78 0.71 1.74 0.238

2001 的 BABIP 大升, 但SO/9 小升, HR/9 大降, 使得 ERA 僅小幅上升..

王建民的IP太少, 不管是他過低的 SO/9 或是 BABIP 都需要把時間拉長來看才有意義.

因為短局數還可以找到更極端的例子:
Scott Munter (25IP)
SO/9 2.52
BABIP 0.287
HR/9 0
但是 ERA 只有 2.16

SO/9比王低, BABIP 比王高, 雖然他的 HR/9 是0, 但是即使在王之前一段時間還沒打出 HR 之前, 他的 ERA 也不曾掉到 3以下.

反過來說, 如果王的 BABIP regress to the mean, 但是他仍然能夠控制他的ERA 在4左右時, 也許我們可以推測他具有某些能力解決BABIP上升所帶來的麻煩, 並且對他的 career 有更樂觀一點的期待.
 
to polyimidie

如果你的論述(而不是統計結果)成真,換言之你的主張就是認為在同樣AB下,同個投手被打的安打數增加(也就是BABIP上升)與他的ERA之間沒有相關性。這是一個蠻詭異的論點。

實際上你的統計可能所驗證的是,即使投手在BABIP上升後,投手仍然可以透過其他方式降低他的ERA。
方法有可能是增加三振(考量他的小聯盟數據,這點似乎不是王建民的長項),減少保送(他已經做的不錯),不讓球變成全壘打(目前他是0.07 6/76.2,這點我不知道聯盟平均是多少,但是似乎是水準左右?),這些投手能夠控制的方式都是減少AB或者是在AB不變的情況下減少損害,但王建民這些項目上似乎較難進步。但是你所提到DP%/NETDP(很抱歉我不懂這個),假使是指他能製造的DP能力,考量到BABIP所意指的投手對於被打出去而不出牆的球的控制力不高的情況下,其實這項指標的價值也是不高的。

而你所取的個案的問題在於,影響ERA的因素很多,所以要驗證BABIP對於ERA的關連性相當低的情況下,你應該控制其他有可能影響ERA的變數,例如HR/9、BB/9、SO/9等。在這些變數完全一致的情況下,投手的BABIP提高但是與ERA的關連性低,又或者是如CCLu大所提的你能夠證明BABIP提高後其他能力也可以相對提高,而使BABIP提高不至於對ERA產生傷害,如此才能作一個有效的驗證。
 
請問:

1.bill james的書"The New Bill James Historical Baseball Abstract"是全新的內容,還是把以前的版本重新加資料?

2."baseball prospectus 2005"裡面是什麼內容? 是把網站的文章全部收錄, 還是一些統計資料而已? 另外一點是BP2005會把它的網站統計資料的公式公布嗎?
 
結果倒是Millwood被Yanks當點心吞掉。
話說回來,Millwood偶爾的好表現,很容易讓人產生他今年的3勝7敗是運氣不好的錯覺。
但對紅襪、洋基和金鶯的表現,開始讓我覺得他這種戰績是罪有應得。
不如趁他ERA破四之前先賣掉再說吧。
 
To 問題:

1. 那是大規模的修訂。
2. BP 2005 跟之前的一樣,球員成績、評語和一些文章。那些文章跟網站上的不重疊。他們沒有把詳細的公式公佈,只在文章裡討論方法論。我沒有寫e-mail跟他們要過公式,不過我想他們應該會給。那些程式寫在文章裡可能太過複雜無趣了。
 
To Fitzwilliam,

我從來沒有弄懂 Shapiro 這種 GM 怎麼會去賭 Millwood。不過他還是有他的本事,這個合約的條件還真是奇怪。印象中沒有看過別的球員上DL要扣S/B的。
 
To polyimidie,

Many uncontrolled variables in your 'Statistics', the results can't conclude your hypothesis. There are some traps about any-two-variables regression analysis.

Also, cherry-picking is not Statistics.
 
Here is the question on the other side of McCracken's concept:

Do hitters have control of BABIP? If yes, what's the relationship between BA(excludes long balls) and hitters' real batting for average ability?
 
我的想法很簡單,也很反科學,
不知道有沒有人反對,
同樣的球路、速度,
紅中球比貼好球帶邊緣的球容易打成安打?
如果沒人反對,
那麼投手就對BABIP有控制力,
討論結束。
 
To yufa,

我完全不贊成你的看法。卯起來投紅中球的投手根本不會在 MLB 生存下去,這種說法沒有意義。
 
你扭曲了我的原意,
再怎麼不想投紅中球,
不小心還是會投出來,
而每位投手投出紅中球的機率應該不是完全憑運氣決定,
如果紅中球比較容易被打出安打,
就表示投手對於BABIP還是有影響力。
 
還是不對,每個投手都有控球不穩的時候,當那種情況在投手能力之外,就不能說他們對 BABIP 有控制力或影響力。

down in the middle 當然比在邊邊角角上的容易打出安打,但是所有的投手都會盡量往邊邊角角上投,Randy Johnson 也不例外。不過邊邊角角上的球可能會製造更多的三振或是形成界外,真正被打出去之後形成安打的比例相對來講就不會差太多。
 
容不容易失控,我想也算是投手的能力之一,不應該就排除在投手能力之外。

讀了一些。我發現那理論的共識應該是投手對 BABIP 的控制力不大,而不是 BABIP 不是投手的能力。BABIP 應該還是有投手的能力因素在,但是運氣的比例可能遠大過能力。研究也顯示有些投手的數據的確是明顯地非隨機而已。

對於 regression to mean 的說法,我無法認同。或許對多數投手,的確會成立。但也有些投手或多或少有控制成為安打的能力。看到王的 BABIP 偏低,正確的態度是:這可能只是運氣成份,不一定是實力。而不是說他的 BABIP 必然會 regression to mean。
 
To bubble,

你的前兩段是無法檢證的。從理論上來說看起來有點道理,可是在實證上看起來這兩段話會是彼此矛盾的。如果運氣的比例遠大於能力,那『能力』本身就無法估計而沒有意義了。

最後一段,如果不會 regress to the mean,那就不是運氣,而是實力了。我前面留言提到並不一定一年之內就會有這種變化,好運氣維持一年不是不可能的事情。
 
不會 regress to the mean,因為是不有 the mean,是不知道的事。“實力”能不能容易估計出是一回事,有沒有又是另一回事。若投手對 BABIP 只是“較”無控制力,那表示這數據並不是純運氣。

Diamond Mind Baseball 那篇一些結論是這樣的:

1. Pitchers have more influence over in-play hit rates than McCracken suggested. In fact, some pitchers (like Charlie Hough and Jamie Moyer) owe much of their careers to the ability to excel in this respect.

3. The low correlation coefficients for in-play batting average suggest that there's a lot more room for random variation in these outcomes than in the defense-independent outcomes. I believe this follows quite naturally from the physics of the game. When a round bat meets a round ball at upwards of 90 miles per hour, and when that ball has laces and some sort of spin, miniscule differences in the nature of that impact can make the difference between a hit and an out. In other words, there's quite a bit of luck involved.
(而不是全都是運氣)

5. The fact that there's room for random variation doesn't necessarily mean a pitcher doesn't have any influence over the outcomes. It just means that his year-to-year performances can vary randomly around value other than zero, a value that reflects his skills.

The bottom line, though, is that I am convinced that pitchers do influence in-play outcomes to a significant degree. There's a reason why Charlie Hough and Jamie Moyer and Phil Niekro and Tom Glavine and Bud Black have had successful careers despite mediocre strikeout rates. There's a reason why the top strikeout pitchers have also suppressed in-play hits at a good rate. Using power or control or deception or a knuckleball, pitchers can keep hitters off balance and induce more than their share of routine grounders, popups, and lazy fly balls.
(有些能力是可以影響 BABIP 的)
 
To Bubble,

由於我這篇只是簡單的文獻回顧,不但省略掉一些比較新的發展(如文末列的那幾個連結),同時我也把自己的意見給省略了。

我自己並不是完全同意 DMB 這篇文章的研究方式。他沒有能夠找出一個固定模式來,說明哪一種投手可以『控制』BABIP 來,所以我們可以說他找到一些aberration,但是這個貢獻相當有限。他既無法徹底推翻 McCracken 的研究,也無法提出有價值的新貢獻。就像是有些突破性的文章在 American Economic Review 或是 Journal of Finance 發表之後,總是會有一些博士班學生把點子拿來延伸作為自己的博士論文,通常沒有太大意義(我自己就有一章是這樣混出來的)。

McCracken 的假設可以用下面這個式子來說明:

BABIP_it = a + e_it

BABIP 是投手實際表現,i 是投手的 index,把所有人用數字編號,t 是不同時間。a 是假設有一個所有人都一樣的平均值,e_t 是兩者之間的誤差。如果 McCracken 的理論成立,e_it 會是一個 mean = 0 的 random variable,也許是常態分配,我們可以在常態分配的前提下假設 variance = sigma^2。雖然樣本點來自不同時間,我們假設 e_it 的分配不因時間而改變。

DMB 那篇文章要做出來有價值的貢獻,光是證明 a 不是個常數,而是因人而異應該換成 a_i 是不夠的。他應該要說明的是 a_i 是什麼。

回到你前面的問題。如果不同投手的 a_i 相差很小,但是 e_it 的 variance 差別很大,在統計時就不太容易看出 a_i 到底差在哪裡。舉例來說,如果兩個投手的實際 BABIP 可以從 .260 到 .310 擺動,那麼他們如果因為能力造成的 BABIP 相差只有 0.05,在統計上就不太可能看出來。

其實寫到這裡似乎看到一個可以做的題目了,只可惜當碩士論文太簡單,以後教大學部時拿來做統計作業好了。XD
 
McCracken 並沒有假設您寫的 a 是常數。他只是說:BABIP 不像其它的指數那麼跟投手本身能力有關。他要用一個數據是非常跟投手本身能力有關的,因此排除了 BABIP。但這並不代表 BABIP 跟投手本身能力完全無關。

So what have we done? We've taken individual pitcher stats and we've used only the ones that are not affected by defense and have a definite relationship to pitching ability. Hits allowed is not one of these statistics and so we don't use it.

那篇文章的論證,只能說明 a + e_it 中,a 佔的比例不是那麼大,似乎沒有提到 a 是固定的(或許我漏看?還請指教)。因此,我們不該過份解讀。

DMB 的文章,至少提出了不少例子,那些投手生涯的 Year-by-year Net IPAvg 是有規律性的。這可以讓大家稍微感覺:a 不是每個人都一樣的。即使如 Maddux 跟 Pedro,若看他們整個生涯,剛好 1999 都是特別例外的。而已有共識這是個被運氣影響很大的數據(但沒有說是純運氣),所以有時候差很多,並不意外。

McCracken 那篇,提出前所未有的觀念,當然是最重要的。DMB 那篇舉出很多例子,雖然他沒有真的去做統計分析(很難。McCracken 做的是 BABIP 不像其它數據在 year-by-year 下,那麼相關。這相對容易太多。),但那些例子,可以指出一些方向(McCracken 沒提到的),讓大家有些感覺,也是蠻有意義的。

其實,我覺得 DMB 的那篇,他說
Pitchers have more influence over in-play hit rates than McCracken suggested.
我覺得,McCracken 並沒有說投手對 BABIP 有多大影響,只是影響不如其它數據。兩篇文章其實沒什麼衝突。
 
To Bubble,

我不知道你的本業是什麼,我是學經濟的,所以用我習慣的方法論出發。

在分析一個問題時,第一步是建立模型,也就是把實際世界簡化,然後來檢驗這個模型。由於 BABIP 不管怎麼變都不會是 mean = 0 的變數,所以我們一定需要一個 constant a。

接下來有幾個問題可以問:
1. a 是否因人而異,這一點是 BABIP 會不會受到投手能力影響可以測試的。
2. e_t 的 variance 是否因為不同投手而有所改變。
3. 如果 1 的結論是 a 是因人而異,必須問的問題是什麼原因造成這樣的結果。同樣我們也必須問 2 這個問題。

寫到這裡有個問題很明顯的浮現上來:樣本點。我們有沒有足夠的樣本點來檢驗上面的假設還是必須保留某些假設,是這個問題能否得到更進一步討論的一個重要關鍵。很遺憾的,我想這個問題不太能夠在不做一些較強假設的情況下來做較嚴謹的討論。

McCracken 最初的假設是『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』,這是比較簡化的說法,所以我們應該先檢驗這個。DMB 固然有不同意見,不過 McCracken 和 Woolner 也有他們自己的不同看法在我引的 BP 文章裡面。目前比較確定的共識是 knuckleballer 有較明顯的控制 BABIP 的能力,其他人的還不能找到理由。

我們還必須考慮樣本點的選取,DMB 裡面選的幾個樣本點生涯都還沒有結束,裡面有文章寫出來之後表現很好的 (Clemens、Johnson),也有比他們年輕但是生涯走下坡的 (Moyer、Glavine),這是 DMB 的問題之一。

這個問題如果用嚴謹的方式討論下去,很有可能會淪為 data mining。不過以目前這個理論的可能影響力來講,即使做 data mining 也有其實用價值。
 
我應該算是學數學的。

之前有些 a 是不是常數的句子,可能沒有寫得很清楚。我說 a 不像是常數,指的是,會因人而異。

我受到的訓練是,當我沒辦法確定一件事時,建構的模型要越自由越好。因此,沒確定 a 是跟人無關的變數前,我會先假定它不是。我不確定 McCracken 是否有意圖要去 claim a is a constant。但至少從他的文章中,我並沒有看到他對此做任何統計檢定,因此我不認為他能 claim 這個敘述(如果他有這個意圖)。DMB 的文章,舉了些例子,有點像是要讓 a=constant 為 null hypothesis,然後試著要推翻它。但他也沒有實際去做這樣的工作就是了,只從一些例子試圖為 a 不是常數這件事拉分數。

總之,我的理念是,沒有被驗證的東西,必須用保守的態度對待。有幾分證據,再講幾分的話。McCracken 提的證據是 BABIP year -by-year 的相關係數較低,數據變動性大(可以從前幾名掉到後幾名)。這些只夠說明 a 佔的比重不夠大,至於是不是不會因人而異的常數,數據上還沒看出來(或許真的有,但目前的研究並沒看出來)。
 
To Bubble,

不知道你所學的是否通常都會有比較準確,像是物理定律一樣的公式。

我的學習經驗裡充滿了 R^2 只有 10% 左右的東西,所以我們的出發點是瞎子摸象,摸到什麼算什麼。棒球裡面很多統計迴歸跑起來已經有 90% 以上的 R^2,所以成為我在學術上遭遇挫折時候的避難所。XD

如果我要處理這個問題,我會先來作之前提過 a 是常數的那個式子,看看 a 本身 variance 有多大(不過由於 a 可能沒有理論值,所以沒有 t value 可以算),然後更重要的是看 error term 的分配。

由於我們通常都用年資料,而超過十年生涯以上的球員人數不多,這裡統計並不好做。做 panel data 樣本可能不具代表性 (生涯夠長的都是在大聯盟頂尖的投手,有 selection bias 的問題)。但是如果把所有投手超過一定局數的投手年放在同一個 pool 裡面,我們不能夠看 McCracken 那樣子的比較。這裡是兩難的局面。

考慮到這些困難,但是我們如果又不打算放棄這個問題的話,比較便利的方式是先假設球員的 a 是相同的,亦即 BABIP 是『完全』靠運氣來決定,然後再找其他因子看看是否會影響 a ,如不同球員的 G/A、SO/9 或者 LD% 這些數據是否能夠解釋不同的 a。一個有實用價值的研究必須說明到底什麼東西影響 a,只是說 a 不一樣是不夠的。當然那也可以成為一篇 paper,不過價值不會高。財務上的 factor model 不管背後有多少理論依據,實務上操作時的原則就是這樣子進行的。

我們這些業餘研究者在面對問題時很容易從自己的訓練出發,我看球員數據時就有點像在看股票數據(更糟糕的是看股票數據時我想的也會是球員成績)。
 
我學過的主要是理論的數理統計。

您說的實務上操作方法都沒什麼問題。若目的是要 fit 一個現象,模型當然能越簡單越好。若 fit 地不好,再去加變數或什麼的。在一些假設下,建構的模型可以 fit 數據 fit 地相當好,那是件令人高興的事。之後可以用這個模型來預測,解釋一些事。但重點是,不能因為 fit 地很好,就用這來推論模型的假設為真。只能說在這些假設下,模型可以用來近似實際發生的現象。

McCracken 他要的是一個統計量來展現 defense independent pitching stats。他假設『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』,而建構一個他任何只跟投手本身能力有關的統計量(這不表示,他沒用到的,就不是投手的能力,而是他用到的,比較肯定是投手的能力)。這都完全沒問題,而他也很小心,沒有回頭去說:『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』。

現實的世界實在是太複雜,有太多的變因。能用簡單的模型來解釋,當然是一件好事。但不能據此回過頭來說是證明了假設。有些時候,不同的模型都可以相當程度地解釋現象,但它們的假設可能是衝突的。瞎子摸象是無可奈何的事,也是在無可奈何的情況下,探求真理的正確態度。但重點是,瞎子自己要認知,自己得到的可能只是部份的現象,若是進一步去說整件事,可能是危險的。

統計是個很有威力的工具,但它有它的侷限。不清楚其侷限,則一些結論會變得危險可怕。有時候會聽人在說,都是在玩弄數字遊戲啦。我認為的是,統計不會騙人,騙人的是解讀統計的人。
 
其實我有個想法,可以試著檢定 a 是常數的假設。McCracken 做了 1998 和 1999 兩年,BABIP 的相關係數。我們可以試著做相鄰兩年 BABIP 的相關係數,做個廿年。若是相關係數是分怖在 -0.2 到 0.2 之間,那我不能說什麼。但我預期看到的是,相關係數都是正的,甚至都是大於 0.1。若真如此,連續廿年的相關係數都大於 0.1 的數據,大概就能提供足夠的證據去做統計檢定而推翻 a 是常數的假設。

我現在沒有時間,若有網友有興趣,可以試試看。不然,過些時候,我會自己來試試。
 
我倒是認為,投手其實是具有有限的控制BABIP能力的。之所以研究會出現控制力很低這種結果是因為他們用大聯盟選手當作統計的材料。
上得了大聯盟還能弄出足夠樣本來研究的投手,我們可以相信他們每個都有接近投手控制BABIP上限的能力。

當一個聯盟投手這能力都是90分起跳的時候,其實這個東西的鑑別力本來就會很低。
 
我沒有要推翻 McCraken 的理論,或認為那模型是沒有意義的事,只是單純對於現在有些人認為會 regress to mean 的看法無法認同。而我之前提的,也只是想推翻那說法。這不影響 DIPS 模型的成功。模型的假說可以簡單化而略跟事實有出入,反正本來就只是在近似。但我不能接受的是,現在卻被解釋成那假設命題是真的。

outlier 的 detect 在統計上也有一些方法。像 knuckleballer 這類的 outlier,先將之排除再做統計檢定,也不算不常見的方法。
 
To Bubble,

不同人對於同樣的事情可能有同樣的結論,但是是從不同角度來看的。

在 BABIP 這件事情上,我覺得你把學術名詞論述跟一般通論沒有適當分開。什麼樣的討論是嚴謹的,必須認真看待,什麼樣的討論是比較『業餘』的,不需要把每一個字都認真來檢討,在 sabermetrics 討論裡要很小心。

mean reverting 在這裡適不適用?多半不會,因為我們並不知道 mean 在哪裡,也不知道是不是存在一個唯一的 mean。regress to the mean 不需要就字面上來看它的嚴謹定義 (I mean don't take it literally),很多講這話的人腦子裡想的並不是統計檢定,而只是像王建民這種接近 outlier 的成績必然無法維持而已。

目前研究都是以一個球季做樣本,我們也不知道到底這些 outlier 可以維持多久,會否在一個球季之內有劇烈變化。就以所見數據來看,在一個球季之內只要樣本夠了應該也有一定的範圍,不會太離譜。

節錄 BP 6/10 的 Prospectus Notebook:

Martinez's .201 BABIP is likely unsustainable; with most players, it hovers around .300.

這段落是由 John Erhardt 執筆,他不是我比較熟的 BP 作家,對他的水準我不是很清楚。他的談法很簡單,他用 likely unsustainable,這種說法是留下一些統計上誤差的空間。附帶一提,今天比賽之前他的 BABIP 已經上升到 .237 了。我一直在文章裡講我相信王建民這種偏低的 BABIP 不可能永遠維持下去,不過我也很謹慎的沒有說什麼時候會拉上來。目前的研究提出來的都是生涯水準,不是一個球季之內到最後會回歸到一個固定水準。

目前的研究的確沒有成功的檢定出 a_i = a 這個 null hypothesis 是否為真。但是我們已經達到的成果是 BABIP 這個數字的 variance 很大,而且可能遠大於不同投手之間的 a_i 的差距。在這種情況下,除非要做嚴謹的統計檢定,一直強調 a_i 的不同對於一般不嚴謹的討論並沒有幫助。

如果你要討論這些語彙的嚴謹定義,我的建議是你要用更嚴謹的方式來討論。我對你的發言的印象是在這些理論上的東西大多是採 "cynical" 的態度,這對於理論發展是沒有幫助的。在沒有人拿出統計數字來之前,大部分人的態度是『我聽以前的球員這麼說』、『我自己的經驗是這樣』。很多的主張並沒有與時俱進,這點我們回頭看過去的歷史就很清楚。學術研究常常只是建築在沙灘上的城堡,基礎並不穩固,所以需要不停的挑戰,但是那些城堡總是比沙灘上的沙要好一些。

對於 BABIP 以及 DIPS 的理論背後所需要的統計基礎很多人並不完全了解,可是這些似懂非懂的應用所造成的結論跟真的了解的人做出來的不會有太大差別,我對你的挑剔雖然可以了解,但是並不認為在一般性的討論上有價值,因為你最後並無法推翻他們的結論,而這中間的過程是大部分的人所不關心而且無法了解的。
 
我不知道您所謂推翻“他們”的理論,是指 McCraken,或是引伸成“regress to the mean”的人。我無意推翻前者。能不能推翻後者,我還不知道,但我至少現在就能說,他們的說法沒有理論基礎。當不確定有沒有 the mean 前,宣稱它存在,這不是嚴不嚴謹的問題,而是對與錯的問題。

likely unsustainable 是無可挑剔的正確說法。必然會 regress to the mean 則不是。前者保有可能是投手能力的空間,只是有更大的可能是運氣。

或許我是挑剔。不嚴謹的東西,我容允它有模糊的空間。但對於對與錯的東西,我寧願選擇挑剔。
 
To Bubble,

一開始的對話我還覺得很有意思,寫到這裡我已經感覺相當挫折了。

我這一行的方法論在許多地方跟 sabermetrics 有相似之處,只是嚴謹度多少有差(但是 American Economic Review 也收過棒球為主題的文章)。

你現在的談法已經太過挑剔了。這樣說吧,即使每個投手生涯 BABIP 有差別(這個差別能夠在統計上呈現顯著差異的可能不大),在每個樣本的的 variance 遠高過這個差異的情況下,那些不夠嚴謹的用語根本就不重要。如果這是投稿的文章或是在 seminar 上面出現,只會被要求修改,不是會被打回去的原因。(當然,目前這些研究的嚴謹程度還不登大雅之堂,不會在正式學術場合出現)。

我在台灣念碩士班以及剛來念博士班的時候,大學時念電機的心態還多少存在,總是在追尋一個接近完美的『真理』。博士班做了一些東西之後知道什麼事情可能做到,什麼事情不行。

mean reverting 或 regress to the mean 其實簡單來講就是這個數據長期會往 mean 集中。至於這個 mean 是個人的還是群體的其實並不重要。

至於你對這個 mean 的質疑更是沒有必要的。一個 random variable 如果你假設它沒有 mean 的話,那我們就不用接下去談了。BABIP 這種東西在 0 和 1 之間,不可能不存在 mean,最多只是球員與球員之間不同。歷史經驗告訴我們這個數字在同樣 MLB 這個層級的投打對決有一定的範圍,這樣就夠了。

同樣的歷史經驗告訴我們球員對這個數字控制能力很差,即使 dominating 如 Pedro Martinez 或是 contral freak Greg Maddux 亦是如此。我翻了一下這幾年的資料,Roger Clemens 和 Randy Johnson 也不例外。這幾個人在投手屬性上南轅北轍,最相同的地方是他們都會進名人堂。你當然可以說不接受少數幾個樣本點所造成的結論,我完全同意。McCracken 那樣的樣本點也稍嫌薄弱,我在 literature survey 裡面也這麼說了。但是你如果要提出能夠推翻王建民這樣水準的 BABIP 在生涯逐漸拉長的情況下會有很大的擺動而使生涯水準朝向 BABIP 接近的說法,必須要做出什麼樣的實證結論?

你必須要找出一類投手可以控制他們的 BABIP 低於其他所有的投手,而且他們的 variance 不能比他們的 BABIP 跟其他投手的差異大太多。95% significance level 的話,就是不能差到 1.96 個標準差。

以目前看到的數字來看,不需要下去跑我就可以告訴你這不是辦法了。
 
您的倒數第二段,是個充份的方法,但不是個必要的方法。要推翻一個假設不一定只有一個方法,你說的是一個,但不代表沒有其它的方法。

以投手對 BABIP 無控制力為 Null Hypothesis。若此為真,那我們看到的 year-by-year 相關係數應該是零。因為實作上,數據的變異,相關係數不會剛好是零。單看一年 0.153 或許可以說它是接近零。但若連看廿年,每個數據都比零大上一些,我們就可以估計,當理論值是零,但連續廿年看到大於某個數的機率是多少。當這個機率很小時,我們就可以在某個 significance level reject Null Hypothesis.

大數法則讓我們知道,在某些條件下,會 regress to mean。這當然沒問題。但這個 mean 是個人的,還是整體的,那就關係到投手對 BABIP 是不是有控制力。投手對此統計量控制力小,這應該是共識。而像 Pedro 和 Maddux 雖然也一樣對此沒有很大的控制力,但若看他們目前每年的成績,我會說控制力小,但的確看得出他們是比一般投手有控制力。

關於”挑剔”的部份,或許我的表達能力不佳,始終沒能讓您清楚知道我“挑剔”的原因。那部份既然已經變得有點雞同鴨講,也讓您覺得無趣,我就不再多做敘述。
 
I remember several months ago, BP has articles using Delta-H to defind extreme high and low BABIP pitchers through their careers. They found out some changeup masters have significant lower Delta-H than average. Maybe it's interesting to analysis the variances within their careers and between others.

Anyone has opinion on my hitter BABIP argument?
 
http://athletics.scout.com/2/376672.html
這裡提到zito從2000-03四年的babip平均為.255
去年比較差,.299 (今年MLB平均為.302)
今年又降回 .269

與其說是運氣,我倒比較傾向於,
與三振相比,讓打者 in-play 出局是比較 tricky 的工作,
也就是球路上一些比較細微的改變就可能對babip產生影響,
(例如揮空棒時差個一公分還是三振,但是in-play時差半公分可能就是出局與安打的差別了)
所以投手生涯中k值往往較穩定,
而babip就可能比較不穩定。

將Babip值完全歸類為運氣實在太過簡化事實,
也許是美式投球以三振為主,
所以不會去研究比較細微的變化吧。
 
Post a Comment


Links to this post:

Create a Link

This page is powered by Blogger. Isn't yours?

Page visited since 1/28/04
Hit Counters
Ad: Bionicle
Listed on BlogShares