.comment-link {margin-left:.6em;} <$BlogRSDUrl$>

Saturday, September 08, 2007


Forecast and Expectation 


在切入正題以前,我有些事情想要交代一下。

1. 數據分析運用大量的統計,背後有很多機率分配的觀念做為論述的基礎,是沒有必要也沒有可能一一說明的。如果可能的話,我希望對棒球數據分析有興趣的人最好都對機率分配、統計、計量、甚至時間序列分析有一定的了解,這樣比較容易對話。沒有辦法的話,也請知道這些分析是建築在什麼樣的方法論上。你不必喜歡這種討論方式,看棒球也可以很輕鬆的看。不過要討論的話請了解別人使用的語言,雞同鴨講不是對話的方式。對於數據分析沒有興趣的人不必在乎 stathead 講什麼,大可以從文學的角度來親近棒球,那也是一條有意思的途徑。

2. 當我在描述一件事情的時候,請不要努力的尋找言外之意,因為通常沒有。在分析事情的時候,我習慣有話直說,不拐彎抹角。以上一篇來說,我覺得從手上的資料來看 Ian Kennedy 應該不是超過三號投手的料,就是說我不認為他有一、二號投手的天賦。這並不是負面評價,Andy Pettitte 在去 Houston 之前也一直被認為不是超過三號投手的料。他到今年第十三年在大聯盟,累積收入已經超過 $90M。只要他點頭明年再為 Yankees 投一年,這個數字就輕鬆破 $100M。什麼是一、二號投手?BP 的 Nate Silver 前幾天在用他的 QERA 分析有可能進入季後賽的球隊的 rotation 時(需要訂閱才能閱覽全文),他用 QERA 這個數字的範圍給了定義。一般我們談一號投手時,比較常用的說法是真正具有影響力、有宰制球賽能力的投手。這個定義通常比一個球隊的 ace 還要嚴格一些。三十隻球隊未必加起來有三十個被認為有一號投手實力的球員。就從 Silver 的定義和他計算出來的 QERA 來看,他列出來的各隊有一號和二號實力的是 (球隊順序依照 Silver 的排名順序):

1. Red Sox:
Beckett (No.1)
Matsuzaka (No.2)
Schilling (No.2)

2. Padres:
Peavy (No.1)
Maddux (No.2)

3. Indians:
Sabathia (No.1)
Carmona (No.2)

4. Yankees:
Hughes (No.2) (大聯盟樣本不夠所以加計小聯盟成績轉換,也可以說一個都沒有)

5. Angels
Lackey (No.2)
Escobar (No.2)

6. Tigers:
Bonderman (No.1)
Verlander (No.2)

7. Brewers:
Bush (No.2)
Gallardo (No.2) (跟 Hughes 情況相同)

8. Braves:
Smoltz (No.1)
Hudson (No.2)

9. Dodgers:
Lowe (No.1)

10. Cubs:
Hill (No.2)

11. Mets:
None

12. Mariners:
Hernandez (No.1)

13. Phillies:
Hamels (No.1)

14. Diamondbacks:
Webb (No.1)

15. Cardinals:
None

16. Rockies:
Francis (No.2)

就這樣而已。QERA 並不見得是個好指標,不過這裡借來說明到底一、二號投手是什麼倒是不錯的例子。十六隻球隊裡面,列為一、二號投手的就只有 22 人而已。剩下十幾隻球隊沒有什麼機會進入季後賽,rotation 的平均水準只會比上面這 16 隻更差。由於這個數據太簡單,沒有針對球場做調整,以致於有些人可能還被高估了。這裡我就不點名,看一下幾個投手球場的名單自己判斷。QERA 不是我發明的數據,我也只借 Silver 的定義來說到底一、二號投手是什麼,無意在這裡評論誰應該是一、二號投手,誰不應該是。對於名單有問題的話請直接跟 Nate Silver 連絡,我不能替他回答任何問題。

不過從上面這個名單可以看出來做為三號投手一點也不是丟臉的事情。一、二號投手通常是我們說的 impact player,能成為一個 impact player 需要的東西很多,天賦、健康、頭腦一樣都不能缺。Josh Beckett 在球季初被許多人從一號投手名單上拿掉的原因不是他的天賦不夠,而是他的健康以及去年莫名其妙成為全壘打製造機。今年這些都沒有出問題,而且他的 BB/9 還被壓到生涯新低點,這使得他重新建立了他的一號投手的地位以及成為今年 CYA 的熱門候選人。

我現在在寫作時儘量避開王建民,這也是一個原因。當我去年說他不如 Johan Santana 時,我的意思就是他沒有 Santana 好。不必因為我把這兩個人放在一起比就說王建民也是那個等級,反過來也不用以為我說王建民不如 Santana 就是說王一文不值。當我說 A 不如 B 時,我的意思就是 A 不如 B。至於我對 A 的評價如何,除非 B 剛好是非常糟糕的球員,否則從兩個人之間的比較是不能夠讀出我對 A 的真正評價的。

1. Re-Assessment of the Wild Card Race
當我第一次談 M's 今年的表現時,由於他們實際戰績超過由得失分預期的原因不能簡單的用運氣來說明,所以我對他們接下來的發展不敢判斷。事實上,在那次討論之後一段時間,不說那是運氣看起來是很聰明的講法,因為他們仍然維持在 wild card 首位蠻長一段時間。

不過 M's 最近要說是好運用完了也好,說是厄運罩頭也罷,看起來忽然間從和 Tigers 及 Yankees 這三隻球隊的競逐中要退出了似的。

我今年夏天雖然在數字上不看好 Yankees 的機會,但是一直猶豫著是否該那麼早就宣判他們出局的主要原因是他們有 talents。不管是受傷、運氣或是任何原因,只要 talents 在,而他們表現不如預期的話,是還有翻身的可能。M's 的情況稍有不同,我們雖然不知道他們先前戰績超過預期的成績是什麼原因,但是一但陷入目前的情況,要靠他們手上的 talents 打敗厄運不是那麼容易的事情。我不會說一個落後三場勝差的球隊在球季還有 24 場要打的情況下已經出局,但是他們的機會的確不好。Yankees 在實際戰績仍然落後時就已經比 M's 和 Tigers 要為 BP 的 Playoff Odds 所看好,現在只有更佔優勢一些。

2. Joba Chamberlain Can Do No Wrong
我不太喜歡 Chamberlain 在球場上揮動拳頭的動作,只要稍微再誇張一些,就有 "show up" 對手的批評會出來。Derek Lowe 當年還在 Red Sox 時就於 2003 ALDS 動作誇張了點而在 Oakland 被罵的一塌糊塗 (不只是羞辱到對手,那時還被評為動作不雅)。紐約的球迷應該都還記得 John Rocker,他被 Yankees 和 Mets 的球迷討厭可是在他被雜誌訪問以前就有的事情。

不過 Joba 不會遇到這些麻煩。他的美洲原住民身分、他的老爸、他平常的談吐、奮鬥的過程以及他的體型,都讓他能夠躲掉很多負面的批評。更不用提他在場上的好表現。

3. AL MVP Race Is Almost Over
除非 Ordonez 能夠帶領 Tigers 在 Wild Card race 贏過 Yankees,這個獎應該是 A-Rod 的囊中物。事實上,若非 "most valuable" 的定義有其模糊地帶,A-Rod 現在已經贏了。

4. AL Cy Young Race Is Still Open
半個月前我會把這個獎給 Bedard,不過現在看來他未必在今年還會出賽,這個獎給 C.C. Sabathia, Johan Santana, Kelvim Escobar, Dan Harem, Mark Buehrle, Fausto Carmona, Josh Beckett, John Lackey 從 VORP 來看都差不多。看起來機會最好的應該還是 Beckett,他除了個人數據外還有勝投這個傳統數字支持。不過即使以 VORP 來估計目前並不在前十名的王建民,都有可能因為勝投數領先而得到不少票,所以 Cy Young Award 到底會落在誰手上大概要到球季最後一星期或最後三天才會明朗,不像 MVP 一樣現在就能看出不是 A-Rod 大概就是 Ordonez。

Comments:
Just wondering what do u think about that Joba can't pitch two days in the row and all of his pitch limit things... ... do u really think they will following this rule in postseason??? when the game on the line???

Just wondering to see ur P.O.V... ....
 
Clay Buchholz should also be an early rotation guy.
 
是的~如同C大所言!
這兩年我一直不認為小王有拿CY的機會!
當然並不代表他未來沒有,只是這兩年的表現不可能超越Santana跟Josh!
我想並不是我愛國心不強,只是對於我熱愛的棒球就是如此!心裡當然希望王建民過些年成熟後可以拿CY Reward!
不管MVP是不是A-Rod
但至少可以確定的是,他今年如果能率領Yankees進軍Playoff..他的棒子應該會比前些年來的好一些吧?!
謝謝C大的資料!
 
版主引用silver的文章讓我了解NO1,2號投手的分析讓我很感興趣,雖然您提到無意為silver回答問題,但是我感興趣的是名單中的兩個人而並不是質疑這個排名。

其中Tiger的Bonderman去年季後賽時對洋基那場投的確實很好,location和控球都很棒,然而前一陣子連續對Wang那兩場,控球都很離譜、最後節奏也亂掉了,為何他算是No.1的投手?(我覺得Velander比他好多了)

而YANKEE的Hughes因樣本不夠還能排上N0.2,Wang有將近3年的穩定15wins/per year,竟然連no.2都排不上?

以上是我感到疑問的地方,畢竟版主您詳讀silver的分析,若有空時,能說說您的看法嗎?thaks.
 
CCLU,

Yup..... I don't think many people realize how lucrative it is to be a guy who gives you 200ip and 4 to 4.5 era every year...... Heck, just look at the massive contract that Gil Meche got last winter.

As for the Cy, right now I am inclined to say that Josh Beckett will win it. I think he will get extra votes for being an ace on a team with a very strong record.

And hahaha... yup... that list is a bit controversial..... like Bonderman over Verlander, Sheets, KAzmir and Zambrano being excluded..... well? I guess that's not up to you to answer... I will look-up Silver's original article and take a look.

Cheers,

Wilson
 
to ice:

你去Baseball Prospectus搜尋Bonderman和Verlander的PECOTA數據,可能會比較明白Silver為什麼會做這樣的評價。
 
To ice,
CCLU 文章中寫的很清楚, 文章裡也給連結, 你去查詢 QERA 公式就知道原因了

http://www.baseballprospectus.com/glossary/index.php?search=QERA
 
水手從外卡領先到現在落後, 中間的連敗如果與運氣有關, 那或許還可以說水手現在仍有機會.

但水手連敗的原因很清楚, 至少40%歸因於打線, 40%歸因於教練. 打線還可以期待他們睡了幾覺之後突然想起七月前是怎麼揮棒的, 教練的問題卻不可能在一個月內修正過來. 我不認為水手還有任何機會.
 
Dear Dr. Lu:
很感謝您在這個部落格介紹Sabermetrics,讓台灣的棒球迷從此觀賞球賽進入更精緻講究的層次。至少就我個人而言,閱讀您的部落格是我認識 VORP, win share 的開始。使用大量的數據分析建立分析指標,或許讓論述看起來更有依據,然而我一直有個疑問,也許可以和您討論,若您有空的話。

* 如何驗證(validate)這些指標比較好用?
透過大量的數據分析,統計學家得以建立評估表現的指標,然而回溯性(retrospective)的數據研究所建立起來的推論,是否經得起前瞻性(progressive)的驗證?比方說,Woolner無疑地透過大量的數據建立了VORP的公式, 我相信(說相信是因為我的確沒有完整地閱讀公式推導的說明)他有很好的理由使用run average 而不是 earned run average來評估一位投手的能力。然而我們能不能更存疑(skeptical)一點呢,該怎麼證明VORP比ERA 更能評估一位投手的表現或能力?有人跟我說ERA受“失誤記錄“的影響太大,而VORP評估的是一位投手相對於全聯盟的平均水準,比較不受個別隊伍的影響。這聽起來比較像是名詞解釋而不是證明。我需要的證明比較像是,利用這些指標,比方說ERA和VORP對一大群樣本(這些樣本不能是用來發展某些指標所使用的樣本,簡單地說validation必須在不同的樣本上做)作推估後,再來比較這兩者推論能力的強弱。這樣的驗證方法有一個很重要但可能做不到的前提:必須有一致的比較標準(gold standard),否則甲說ERA比較好,乙說VORP比較好,在我看來,至多是各自表述罷了。
比方說,您在文中提到的QERA使用strikeout rate, walk rate and GO/FO ratio 這三種指標來建立這個公式,光是為什麼是這三個數據而不需要包含被安打率,被全壘打率或其他指標來預測季後賽rotation本身就很值得懷疑,更不用說這三者彼此的權值比重啦,(2.69, 3.88…等等), 數據來源是否該只算一季啦 …等等問題。我想說的是,去年Silver 提出了這個公式(九月的時候),有沒有誰利用這個公式真的來分析去年的playoff?這個QERA若要真的被接受是好用的指標,總該有人把未來十年的play off rotation 拿來當樣本作分析,看這樣的QERA預測出什麼東西,和其他的指標(從ERA, Avg, K/9, BB/9, K/BB, 到VORP等等)相較如何。利用回溯性資料建立的模型式是很容易自圓其說的,但如果沒有前瞻性的驗證,我們無法知道這些新的指標真的比較好。
在某些地方常遇到所謂的“專業“球迷,很容易便丟個sabermetrics新發展的名詞來佐證自己的論述,對於那些持“傳統數據分析“(ERA, Avg, SLG…)的球迷便訕笑有加。坦白說,從您舉的QERA的例子,我還真的不確定QERA比ERA好在哪?
 
謝謝Cy和jsj,我去查了一下他們的PECOTA,我把我了解的數據引上來,(主要比的是Velander和Bonderman,Wang是插花的)
Bonderman可以只看06年就好,而Velander和Wang在06才是完整的一年(data由上而下依序是Bonderman,Velander和Wang)。

-- Equivalents --
Year Tm Lg W L G GS IP H BB SO HR GB% WHIP ERA H9 BB9 K9 HR9 VORP
2004 DET MJ 11 13 33 32 184.0 168 73 168 24 50% 1.31 4.89 7.8 3.2 7.5 1.0 26.3
2005 DET MJ 14 13 29 29 189.0 199 57 145 21 48% 1.35 4.57 9.2 2.7 6.7 0.9 19.8
2006 DET MJ 14 8 34 34 214.0 214 64 202 18 51% 1.30 4.08 9.0 2.5 8.0 0.7 39.8
---------------------------------------------------------------------------------
2006 DET MJ 17 9 30 30 186.0 187 60 124 21 43% 1.33 3.63 9.0 2.8 5.7 0.9 47.5
---------------------------------------------------------------------------------
2006 NYA MJ 19 6 34 33 218.0 233 52 76 12 64% 1.31 3.63 9.2 2.0 2.9 0.4 54.6

Velander和Bonderman的比較方面,Velander只有在K9,BB9和WHIP輸給Bonderman,而WHIP=1.33跟1.30的影響我覺得是一樣的,因為
1.33*3=3.99不會=4,至於1.35就麻煩了。vorp值Velander反而比較高。(我前面寫的覺得Velander比Bonderman好,只是個人感覺,毫無科學根據的)

再看看Velander和Wang的比較,Wang的每一項數據幾乎都比Velander好,只有K9除外。
當然比較一年是沒有意義的,頂多只能說06年的表現三人當中Wang是最好的。

還有,我沒有去代QERA =(2.69+K%*(-3.4)+BB%*3.88+GB%*(-0.66))^2 這個公式,因為超出我能力範圍了。
寫這麼多,其實只是想知道大家對我提出的疑問的想法。
 
To Aloha,

"但水手連敗的原因很清楚, 至少40%歸因於打線, 40%歸因於教練. 打線還可以期待他們睡了幾覺之後突然想起七月前是怎麼揮棒的, 教練的問題卻不可能在一個月內修正過來. 我不認為水手還有任何機會..."
小弟算是Ichiro的球迷(當然在我心中Nomo還是排第一啦),加上NHK不是轉播洋基就是水手,所以看了不少水手的比賽.純就感受而言, 今年的水手的投手問題比打擊大多了,就數據而言差距沒那麼大,但pitching也遜於batting. 簡單數據ranking 請見http://sports.espn.go.com/mlb/clubhouse?id=12
我也不敢說教練佔了40%這麼多,畢竟Hargrove死撐那麼久之後也(因為一朗)下臺了,要說教練團跟managers最不好的一點,我覺得的是投手的補強不夠積極,有點聽天由命, 隨波逐流的味道.
 
我倒覺得Lowe 可以是No.1這點比較有趣
而Wang卻連no.2都排不上

不管從去年或從今年表現來看
Wang跟Lowe都在伯仲之間 (只在SO上有較明顯差異)
如果再考慮到美聯和國聯的差異及球場差異
怎麼想Wang都該比Lowe好才是

我想各類數據只要牽扯到SO
Wang其實可以不用被計算進去
因為他的表現真的可以說是統計之外的異數
一個不用SO一樣可以有好表現的投手
怪哉!
 
我想以股票研究心得分享一下想法,用程式去帶入過去股價變化時,常會有這個變數真的是股價變動的因素嗎(?)的疑慮,一堆會計數據與產業原物料數據、天氣、人口成長率...到底應佔比重如何,都是一再嘗試用過去股價去跑跑看準確率如何?
所以聯想到棒球投手部分,或許針對個別投手所擅長球路而產生的一堆現有數據做分析時,應分別考量而非用同一種標準,也許才能真正找出對球隊特性能有最大貢獻的投手,這樣對投手也能凸顯出真正的價值。
股價分析研究,若無法通過過去市場考驗,根本沒價值,每個市場都有其特性,不會一體適用一個程式,但在棒球中似乎司空見慣。
但在考慮勝投數最高的投手通常贏得賽揚獎這方面,倒是與股價分析程式必需打敗過去市場考驗一樣,清楚為何而研究數據!!
 
to shaw,

今年的水手是打強於投的球隊, 毫無問題, 但他們不也以這樣的隊型打了超過3/4季而居外卡領先? 我說的打線40%教練40%是指最近這三個星期的完全崩毀, 這三星期裡, 他們的打線完全不能跟五到八月比, 這是他們不能維持八月前的好成積的原因, 跟投手無關. 而新教練教練則顯然對戰況的認知非常有問題, 無法在比數接近時以優勢牛棚來凍結比數, 放任重要比賽中的一分落後變成五分落後. 這一點原教練Hargrove做得非常好, 也是前3/4季水手可以打得很好的原因, 新教練並沒做到這一點. 打線不發揮, 教練無法運用原有的牛棚優勢, 再加上原本就不好的先發投手, 造成這三星期水手的meltdown.

這裡不是水手blog, 點到就好, 對這話題有興趣的話, Lookout Landing, USSMariner都有不錯討論, 最差, PTT也可以參考.
 
做個小更正,前瞻性(prospective)之前的英文打錯字了,真不應該
 
我看的出來CCLu大大一直努力要避開王建民的爭議, 但我認為這是不可能的.
的確有很多的王迷們不懂統計, 但他們的發言可不是毫無價值的.
因為他們的質疑直指一個問題--為這個版最大的爭議是引用了太多前提有問題的統計為論述基準, 因此削弱了可信度.
比方說NL沒有DH, 因此SO/9和ERA都變漂亮. 但是以前有些人在comment中引用ERA意圖來說服大家某人是和王建民同等表現的投手.
請問不同聯盟怎麼比?
而對戰對手的水準也沒有反映在數據裡. AL東的競爭程度和NL西是不同的, 當賽程讓你更容易讓你遇到好手時, 你的數據當然變差.
我相信CCLu大都知道這些問題, 但您並沒有糾正這些引用錯誤數據的人.
而且在您引用BP的觀點時, 那種態度太像是引用"經典", 而不是帶有批判的評論.
如果某些無用而不準的公式被這樣引用, 讀者就會認為那是這個Blog要promote的觀點, 因此就傷害這個Blog的可信度.
事實上CCLu大大並不是個只看統計數據的人, 偶爾我們也會看到"尾勁"之類的直觀說法, 這次也看您提到了球場大小,
但當您引用那些問題多多的公式時, 大家可能都會忘記您也是個會直接看球賽的人, 而以為您也是那種隨意拼公式的stathead.

前提錯誤的數據推論和沒有任何數據的斷言, 其實根本沒有誰好誰壞的問題, 因為那一樣都沒有說服力.
我們不應該用某些人沒有提到數據來貶低他們發言的價值. 前提錯誤的數據推論並沒有更高的價值, 它還有更強的誤導可能性.
我認為這個Blog是一個中文棒球統計的經典, 如果它讓人覺得不可信, 對讀者和Blogger都不是好事.
所以我希望這類爭議能往健康的方向走, 當數據可以在直覺批評中還保有一定可信度, 那才是成功.
所以我認為對直覺批判的價值應該要給予一些尊重而不是完全拒絕, 畢竟他們也是數據價值的最終評斷之一.

我看不懂Joba的體型怎麼了? 是可愛嗎?
 
For ssd

私人Blog就算是在逐漸轉變成新媒體的今日, 仍然有其隱私性存在. 不論是誰都沒必要為了他人而去更改自己的觀點.

會看這個版的大聯盟前輩很多, 也很少看到有誰上來發表的意見會誤解大家在引用一些數據時的本意. 當然你如果要說的是PTT的觀眾們那無可厚非,
那邊只看一場球就可以罵球評不專業的網友太多了. 不需要去顧及那些人的感受以及感想.

關於你說的數據可信度, 只要是統計數字就有不可信的部分. 王的確是爭議性人物, 用他的數據來攻擊很多傳統數據的內涵會是很奇怪的做法.
如果他不是台灣人, 我想很多球迷看到他的數據跟勝場比以後只會一笑置之; 甚至跟著一些專欄作家一樣批評他"沒有三振能力的投手總有一天會sink".
我們能反駁這些觀點的人嗎? 不能, 因為沒有人有水晶球可以看到王退休前到底能投幾年? 他又會是背著什麼生涯成績退休?
他絕對有機會是一個以奇怪方式宰制大聯盟打者到最後進名人堂的大投手, 但是未來的事誰又知道呢.
三年前他首次踏上洋基投手丘時, 不僅Torre不知道他到底能投出什麼料, 連他自己都不可能知道三年後他會是三年內勝場數前幾名的競爭者.

stathead的看法永遠也不會是絕對正確的, 因為評論的依據是歷史數據.
但是你能推翻他的可信度嗎? 也不能, 因為大部分的球員的確是與前幾個球季的表現成正相關. 有人會進步, 有人會衰退, 但是大方向來看painvano case真的是少之又少.

重直觀的球迷們是很可愛的. 不過當有太多"球員"或是"球隊"迷聽到有人用數據去攻擊到自己喜愛的隊伍或是球員就惱羞成怒時, 排除與這些人討論基本上會是最好的做法.
因為兩邊唯一的交集就是無止盡的爭論. 王建民就是現在最好的例子, 更別提他的stats又怪的讓人非爭不可.

這問題不只是台灣有, 可以去看看YANKEES官網的鄉民是怎麼吵的.

最後, 這個Blog已經是中文棒球統計經典? 好沉重的評論.
 
三振數的重要性是被高估了
我知道一些數據派作者,一部份球迷,很看重一位投手三振能力,但過於強調其重要性的結果,往往不能很正確的去評估一位投手整體的能力與投球內容。

這些論述的一個盲點在於>>
你也許可以用統計學的方法,綜合包含以前球員的各項數據,而得到一個結論:高三振率的投手有更多的機會在大聯盟生存的更久,或有更好的表現,這些我都可以理解。
但是說要以三振能力為主,來評估一位投手的能力,我覺得是過頭了,投手其他各項數據都很重要,只要最終能壓低失分,黑貓白貓都是好貓,不是嗎?

PS
所以那個QERA大家看看就好,既然那位作者引用了這項數據來代表自己的一些看法,當然這也代表了他自己的看法,大家知道即可。

至於ERA的重要性無法涵蓋,優先於投手勝敗場數的原因主要在於,先發投手的ERA一般來說本來就很難跟後援投手一起比較,其所賦予的責任也不同,要不然每場比賽每位投手都上來坄一局就好,ERA大家都漂亮一點。
所以,先發投手投的好的時候,不只是要投五局,六局,七局,八局,甚至是完投,其目的只有一個,就是要拿勝投,而不是個人ERA成績。
這也是為何美國作者學者票選先發投手時跟球迷之間的想法會產生一些落差的原因,題外話,球迷也愛看三振。這一部份的論述,我早先的一篇文章有提到過。
 
to ssd:

『『我相信CCLu大都知道這些問題, 但您並沒有糾正這些引用錯誤數據的人.
而且在您引用BP的觀點時, 那種態度太像是引用"經典", 而不是帶有批判的評論.

如果某些無用而不準的公式被這樣引用, 讀者就會認為那是這個Blog要promote的觀點, 因此就傷害這個Blog的可信度.
事實上CCLu大大並不是個只看統計數據的人, 偶爾我們也會看到"尾勁"之類的直觀說法, 這次也看您提到了球場大小,
但當您引用那些問題多多的公式時, 大家可能都會忘記您也是個會直接看球賽的人, 而以為您也是那種隨意拼公式的stathead.』』

1. BP應該有談到不同聯盟強度的調整,應該也有解釋這些差異該怎麼看。同時他們應該也有提到這些工具或數據本身的限制。有問題應該也是可以寫信給他們。

2. cclu在2003年開始寫這個blog時,曾在第一篇這樣寫道:『我對棒球的興趣主要在三方面:Yankees、Baseball business和sabermetrics。這個blog將包括我在這幾方面看到的文章的整理,以及我自己的感想。』

如果仔細想一下,就知道這段話裡面隱含的意義是:這個Blog的內容其實是cclu自己對於各種資訊的整理,也許他會有一些不同的看法,也許他也會對某些東西做一些解釋,但是他並不打算做「基礎教學」的工作;換言之,這個Blog是假設閱讀的人對於stathead的知識具有一定的程度的瞭解,可以看懂作者所使用的文字、工具(例如數據引用)、符號....

我想這是很多"作家"、"寫手"、"Bloger"在動筆之前會有的「預期」。
(否則自己還要再每一件事都重頭教一遍、交代起....問題是作者並沒有這個義務啊。)

就好像財務報表的概念一樣。財務報表一樣是假設閱讀的人本身具有一定的會計知識能看懂財務報表所要表達的東西。

『『我認為這個Blog是一個中文棒球統計的經典, 如果它讓人覺得不可信, 對讀者和Blogger都不是好事.
所以我希望這類爭議能往健康的方向走, 當數據可以在直覺批評中還保有一定可信度, 那才是成功. 』』

這個想法很不錯:p

不過這要看cclu本身想要「對誰」訴諸他的觀點、想要做到什麼程度了。如果要做到『『』』內所形容的程度,那將是個蠻費力的工程,畢竟有些人是怎麼說都沒有用的;再說,這個Blog也不具備商業的性質,講白了點cclu所擁有的也只是這個blog而已,他並沒有要從這個Blog中得到什麼實質的東西。

所以cclu在我們留下comments的這篇文章中也說了,他希望閱讀者本身具有一定的程度,如果沒有辦法也就不勉強。

當然啦,寫blog的是cclu,他要怎麼做其實我們也不能置喙什麼。

哈,以上是我個人的看法,不代表cclu的立場。
 
關於王建民, 過去數據派的看法如果歸納成一句話, 就是: "沒三振力的投手不會一直成功下去". 這句話我是相信的. 不過, 數據派可從來沒說: "沒三振力的投手不可能長出三振力來."

王建民的K/9:
2005: 3.64
2006: 3.14
2007: 4.53

現在的王建民已不再是那個三振率低到令人髮指的投手, 他的三振力跟去年比, 成長了將近五成!!

因此, 就算王建民未來繼續有幾個成功的球季, 當初不看好他的數據派也不算是說錯什麼. 畢竟他們說的是, "如果王的三振力持續低落下去...", 而不是 "王的三振力會持續低落下去..."

那些因為王建民過去兩季的表現而貶低三振的價值的球迷 (我沒說是誰), 不妨去告訴今年的王建民: "你三振那麼多打者幹嘛, 三振不重要啦."
 
今天MLB的CY奖预测已经把WANG和BECKETT列为头两名的竞争者了,Sabathia 反而是落后他们两。比较有意思的是,认为LACKY和ESCOBAR会相互抵消,没有什么希望。 

这周末的比赛应该比较重要,BECKETT如果赢了,应该能够稳拿CY。WANG如果赢了,应该就是头号CANDIDATE了,毕竟他的ERA太高,需要胜投比第2名高出2场以上才能让投票人忘记ERA。

不过好几篇文章都提到了,去年的胜投王对他今年还是有帮助的,也许VOTER就是逐渐认可了WANG的风格就是很少K/9。
 
前一篇已經把我的觀點說的很明白, 其實是沒有什麼新東西要說的.
不過因為是第一次在CCLu大大的Comment中發言, 還是要禮貌地來回應一下.
借前兩樓的大大的觀點, Wang的K/9可以長出來.
誰說今年直覺看球的王迷明年不會對棒球統計發生興趣呢?

如果是一個Yankee Fan, 那如何能永遠不提到這個今年貢獻度數一數二的投手呢?
難道只為了他是個統計例外, 讓很多公式和理論很輕易被找到反證?
如果Wang註定要在Yankee待上好幾年, 這種問題短期內是不會消失的.
更別提他剛好是個台灣人, 而這是個中文Blog.
這是沒辦法一直IBB的.

這個Blog可以讓我看到很多統計派的觀點, 雖然我也不是照單全收的(for ex. QERA), 但我覺得拜訪這個Blog是有很大收穫的.
畢竟如果能以小部份修正去得到一定的正相關, 多一個工具去瞭解球員有何不好?
我覺得只要多一點對統計限制的說明, 或者只是一些語氣肯定度的調整, 就可以改善很多直覺看球的人對那些公式可信度的質疑.
只要他們能感受到拜訪這個Blog是愉悅的或有很大收穫的, 他們就會進而接納一部份棒球統計的觀點.
Blog is for share. 得到更多讀者的感謝和喜愛應該和商業與否無關吧!

至少, 這樣應該比三不五時來個混戰要省力一點吧!

另外, 我越來越懷疑Hughes會是Yankees這堆新投手中未來成就最好的, 雖然他還年輕.
我不知道是什麼數據在支持大家對Hughes的信心. 他的MLB統計, 球速和球路看來好像都不是那麼出色.
有誰可以評論一下嗎?
 
提出我的淺見。

看看Brandon Webb與Johan Santana,如果兩人都是今年準備要上大聯盟的菜鳥,我不認為有超過5成的人認為前景一片光明,甚至Santana前2年完全不讓人興奮。

對我而言,數據有多少看多少,Hughes的小聯盟成績漂亮,明顯比下王建民,加上外界的各種評價(即便有時scouting reports會有浮誇的情況),當然我會認為Hughes未來一片光明。當初不認為王建民會發光發亮的人(至少我就是),看的就是他的小聯盟成績以及傷病史?現在以區區小樣本懷疑Hughes的未來性,同樣不是對Hughes的不公平?

即便以前的想法、預測、分析,與未來有所出入,但這就是我認為數據有趣的地方,也還好我不是靠此維生,否則再多的頭也斷不完。我不知道CCLu兄有沒有想要讓這裡成為經典Yankees blog,至少He writes his mind,這就是blogger的究極精神所在。
 
This comment has been removed by the author.
 
1.
cclu並沒有一直不談王建民吧,你去搜尋看看就知道了,前幾個月才剛談過一次。

就我身為一個讀者的瞭解,cclu通常都是收集到「夠多、足以讓他形成結論」的東西,才談論一件事情,在沒有足夠的證據之前,他會採取比較保守的看法。

至於避談王建民的原因,基本上,討論「王建民」是很有可能會讓場面失控的,因為一不小心就可能會讓喜歡王建民的人不高興,很多時候還會因為定義上的問題吵個沒完、流為情緒的發洩(ptt上就是這樣,很多人post文章只是因為覺得不爽,覺得提出不同看法的人傷害了自己的情感),前一兩年在這裡也發生過這種問題,只是當時討論的對象不是王建民、也不像ptt上那樣誇張而已。(沒記錯的話是Jeter該不該打1棒、A-Rod和Ortiz誰該拿MVP)

ptt上也有很多文章,也不乏較深的數據探討,但那些文章的討論最後變成什麼?相信你也看在眼裡。

另外,沒有人說直覺看球的球迷不會對數據產生興趣,但為何是cclu要來做這個工作呢?

我覺得你的說法看起來有種「希望
某某人可以跳出來主持正義」味道,但事實上,要怎麼做、想做到多少,完全是看cclu自己怎麼想。cclu並沒有「照顧到每一種讀者,滿足每個人的各種疑問」的"義務"吧(至少目前是這樣)。至於球迷,我覺得會想要學的人自然會想辦法自己先做些什麼,而不是只希望別人能先照自己想要的方式來做(例如口氣和緩一點、討論氣氛溫馨一點...之類的東西)。而三不五時的混戰,那也是ptt上面的事情,跟這裡其實沒什麼直接的關係吧。

這是我的感想。


2.
對於Hughes的期待完全來自他的小聯盟成績表現:

2005~2006
http://tinyurl.com/37wylu
總合是21勝7負,2.13 ERA,在237 1/3局內僅被敲出150隻安打,216次三振與125個保送。

根據以前在小聯盟的數據,他的fastball現場測速可以到達96英哩,mid 90投了不少,他的變化球也很會跑,而這顆變化球並不是他原先擅長的slider,是他進了小聯盟之後才練出來的(洋基小聯盟系統禁止他投 slider),而這些都是他未滿20歲就發生的事情。而他年年被各大主要評估系統列為洋基第一號投手新秀、甚至是全小聯盟排名最前面的幾個投手新秀之一....就不用說了。

你可以去youtobe找找他在小聯盟的其它影片以及他今年初在大聯盟的影片。

他上大聯盟以後比較奇怪的現象是他的fastball沒有大家期待的那樣快,常常只有90出頭的表現。(不過最近這一場比之前快,可以去查gameday。)

不過別忘了,球員上MLB後都需要有一段適應/調整的時間,他今年又突然因為腳傷、腿傷錯過3個月的球季,要評估他得看來年(何況一切順利的話,他本來應該要明年才出現的)。
 
美國1970年代政治學科的研究方式曾出現傳統學派與行為學派(就是數據學派或芝加哥學派)的爭論。沒有人能證明他的數據能100 percent精準反映現在人文現象,更別說是預測未來。數據的採樣方式會隨著時事改變而不斷調整以求精準,若這十幾年王建民仍能有這麼成功的表現,那麼十年後數據學派的看法就會跟現在不一樣。

不過政治學與棒球有一個很大的不同在於政治學是學術化的科學,而棒球比賽基本上是大眾化娛樂運動,以科學的方式來談論棒球基本上就與它的本質格格不入,因此我也不看好sabermetrics未來能在棒球界有多大的發展。
 
樓上的說法未免太以管窺豹, 棒球展現在觀眾面前的確實是一種娛樂, 但是:

1. 娛樂與科學分析並不互斥. 有些人可以在數字中悠然自得而拿科學當娛樂的一種 (像我就是).

2. 更重要的是, 觀眾看到的球場上的棒球娛樂只是棒球的一半而已, 另一半是則是數億美金的商業. 如果戰績可以影響一個球隊的收益, 如果Sabermetrics可以幫助球隊改善戰績, 為何它會沒發展? 看看紅襪聘了誰當顧問?

就算有一天100.00%的棒球觀眾都是對數據嗤之以鼻的娛樂派好了, 至少有一個數據他們不會不看, 那就是勝敗紀錄, 這關係著他們支持的球隊與城市有沒有季後賽可打, 有沒有冠軍杯可拿, 這可是與棒球的娛樂性大大有關. 只要球隊勝敗能影響收益, Sabermetrics就一定會有發展, 能否發展到每隊的GM都信奉之? 我不敢說. 但要像您這樣只從娛樂觀點就說不看好Sabermetric, 就怕連算命仙都不敢這麼說.
 
小小淺見。

個人對棒球統計與數據分析相當有興趣,自然不會錯過去了解 Sabermetrics 的機會。我無意對這個領域在未來棒球商業上的發展提出看法,因為我個人認為這領域還有很多值得研究的空間。
話說回來,我一直覺得娛樂派與數據派的爭論是不需要的,我深信當取樣方式與相關研究成熟後,其實是很有機會拉近兩端的看法。但目前的衝突其實常出現在有部份研究數據的專家,在遇到某些暫時違反其預期的例子時,還是"不吝"下很強烈的結論來加強其研究結果的自信。David Gassko在The Hardball Times上去年底那篇文章對Wang下的結論,就是一個很實際的例子,我想大家都看過了。

不過,我覺得CCLu已經盡量避免,我喜歡這個blog.
 
To cy
Hughes在小聯盟的數據, 從官網連過去就有了, BP的沒有比較多.
我以前就看過Hughes的3A數據, 印象就是沒有低的多誇張,
再仔細看發現只有WHIP明顯比Ian Kennedy和Jeff Karsten好, 其他就差不多或小輸.
就這樣幾場沒有多嚇人的表現, 實在沒辦法讓人斷定他有ACE或No.2的未來.
(至少沒有人會這樣認定Jeff Karsten吧!)
只能說他的確該上MLB而已.

如果連你也只能引用這樣的數據, 那很明顯大家對他的看好是基於scouting report和年齡而非數據.
但scouting report有多可靠?

球速的確是我對他最大的質疑. 他在MLB投這種直球球速是控球型投手而非power ACE的.
連王建民的sinker都會到97mile, 他這種直球球速實在不像ACE candidate.
當初大家都把他說成是power ACE. Is it hype?
他受傷了嗎? 他的球速可以隨著幾年內加重幾磅而回來嗎?
有哪些好投手年輕時球速也這樣掉過的?

當然我沒有貶低Maddux之類控球型投手的意思.
只是在Hughes上MLB之前, 我真的沒有意料到Hughes的未來是比較可能像Moose而非Beckett. (若說曲球)
如果Hughes真的能保持/增強控球並增加變化球種類的話.

現階段我對Joba和Ohlendorf的期待遠大於Hughes, 我覺得他們才會是surprise.
除了年齡, Hughes真的沒有太讓我覺得有特殊之處, 明年他就頂掉Pettitte的二號, 可能嗎?
當然很多好投手都要幾年才會成熟.
只是如果Hughes的球速若維持這樣, 恐怕大家的期待有很高的比例要落空.
畢竟控球的長青樹是比火球男更稀有的.

講到這個, 王建民一但遇到不撿低球的主審就亂了, 唉! 誰說王建民的成功是建立在不容易被連續安打而失分呢? 恐怕主審和他當天球的跑法(直橫)才是重點吧!
 
Phil Hughes 20歲屠殺AA, 21歲宰制AAA.
Karstens到了23歲還沒辦法殺AAA.
這就是兩人最大的差別吧.

如果去翻First Inning的資料,會發現Hughes在每年每個小聯盟層級都繳出了超過25%以上的K/PA以及很穩定7.5%以下的BB/PA,他在小聯盟的成績是一路的屠殺.
Karstens唯一一次比較接近這個表現的是2006年在AA的成績,那年他23歲(比Hughes屠殺AA時多了3歲),而且是他在AA的第二年了(Hughes沒有在同一個層級待超過一整年過).
光從數字來看,Hughes仍然會被認為潛力較為出色的選手.
 
Post a Comment


This page is powered by Blogger. Isn't yours?

Page visited since 1/28/04
Hit Counters
Ad: Bionicle
Listed on BlogShares