.comment-link {margin-left:.6em;} <$BlogRSDUrl$>

Thursday, August 30, 2007


A Few Quick Cuts 


最近沒有空寫 blog,所以這麼久才更新一次。接下來情況大概也差不多,所以我打算改變一下寫作的方法,用比較經濟的文字來寫,不去詳細解釋我為什麼會有這些看法。同時我大概也不會有時間回覆 comments 了。

1. Pennant race is over

兩三個星期前我對 Red Sox 球迷是這麼說的,在這個 sweep 之後看法仍然相同。除非 Red Sox 徹底崩潰,否則他們可以輕鬆的拿下 AL East。一個球隊徹底崩潰的機會有多高?大概不會超過 1%。BP 的 playoff odds 給 Yankees 不到 4% 的機會追過 Sox,那其中有不少是要 Yankees 也有好到幾乎超過他們實力的表現才行。

2. Wild Card is for real

Yankees 結束了最困難的賽程,接下來他們要面對的對手比起跟他們同時競爭 wild card 的 Tigers 及 M's 並不特別難纏。下星期對 M's 的 series 他們最起碼要贏一場,只要不被 sweep,Yankees 就有很好的機會進入季後賽。當然,這是建築在這兩隻球隊其他比賽面對對手有正常的表現。Tigers 進入季後賽最好的機會還是打敗 Tribe,不是 wild card。

3. Ian Kennedy is not a savior

那些把 Kennedy 比做年輕 Mike Mussina 的評論太過頭了。這隻球隊難得有這麼一群優秀的投手新秀,並不代表這些新人都會有名人堂生涯。BP 的 Kevin Goldstein 在 8/30/07 一篇討論 Ian Kennedy 的文章裡提供了下面的球探報告:

1. He's smallish (6'0 or 5'11).
2. Best pitch is a power changeup, which features heavy, late movement, and rates somewhere around a 60 on the 20-80 scouting scale.
3. He throws a 2- and 4-seam fastball, which rarely touches 90 mph.
4. Average curveball.
5. Good, maybe great control and command.

Mike Mussina 年輕的時候可以投出 low 90s,如果需要的話可以到 mid-90,不過那不是他解決打者的方式。Moose 有更多的球種及更好的品質。換句話說,Kennedy 縱然有些跟 Moose 類似的地方,從球探報告來看,他不是 Moose。由於他只有一年的小聯盟數據,我們很難從數字看出來他究竟有多好。不過跟 Moose 比較,他升上大聯盟並沒有快多少,數據也不會比較漂亮。在得到更多資料讓我改變現在的看法之前,我仍然不認為 Kennedy 是超過三號投手的料,而 Moose 是 90 年代前幾名的投手。

4. Moose might have fallen off the cliff already

這個年紀的投手是可以忽然失去投球的本事的。1980 Luis Tiant 是最近被提到比較多的例子,我自己其實覺得更像 1999 下半年到 2000 年的 David Cone。他也許還剩下一些局數,不過不要拿錢去賭。除非剩下一個月 Moose 忽然發現青春之泉,能讓他找回一些過去的球速和控球,以及變化球的幅度,否則 Cashman 在考慮明年的 rotation 時最好要有備案,不要認為 Moose 一定可以勝任。

Comments:
唉呀!真是望穿秋水呀!
等了半個月,終於等到新的文章了。
 
Exactly!
Though I don't want to add any pressure to CCLu, I still have to say, it's really good to see any new update!

True, that Mussina looks like collapsed already from his last three starts, but I believe he'll find his way to pitch again.

Besides, Joba really is some kid!
It'll be even better if he can keep his 0 ER record to October, ha.
 
Did you see Chamberlain today?

WTF. that was bizarre. Rick Ankiel disease?

take care,

Wilson
 
我也有同樣的想法,還好這場球不是ALCS.
Joba 應該也比當時的Ankiel心理成熟一些.
 
Wildcard race is half over too. The Ms are done. This is not because of the current standing and the rest of the schedule for the Ms. This is because the idiocy of the management is not likely to change any time soon.

Torre sucks? Look at who are in Seattle.
 
我倒覺得貴版主也不必太早下定論,數據只能顯示過去,不能準確預測球員未來的狀況,我如果沒記錯的話記得當初貴版主不也對Wang, Cano都不看好?
 
Right now, the Yankees don't need Kennedy to dominate, they only need him to be what the pundits thought he was. 4th/5th starter.

Mike Mussina is the best case for Kennedy. but something like Jon Garland doesn't seem too much of a stretch. reliablably decent in most year with a couple of great years. and seriously, the size thing only really matter when your drafting very very raw pitchers. it doesn't make a damn difference by the time they actually progress into the high minors. unless your saying you would take Mark Hendrickson and Jon Rauch over oh.... Roy Oswalt or Tim Lincecum or Billy Wagner or even Hong Chi Kuo (injury aside)
 
To Alex,
"我倒覺得貴版主也不必太早下定論,數據只能顯示過去,不能準確預測球員未來的狀況,"

??? What are your points? Without referencing the database, how can you make the prediciton? Ask fortuneteller, or gambler?

"我如果沒記錯的話記得當初貴版主不也對Wang, Cano都不看好"? Again, you misinterpret the
essence. Our forecast could be wrong, but our argument should be solid. I think that is one point Professor Lu spares no pain to educate.
 
To Shaw:

but prospect database is a lot like reading a fortuneteller. because there are so much variable and so little consistent sample. that unless one guy is utterly dominant all the way through with abosalutely no weakness in his game or utterly crap, it's really hard to give a true read without resorting to some luck and guessing.

There are just so many example of good players that had so many people questioning them going in due to a variety of issues. stats included that if you don't have some faith in your own kids to pan out your better off just not bothering with a farm in the first place. because almost no prospect will ever come without question or struggles.
 
To Shaw,
"??? What are your points? Without referencing the database, how can you make the prediciton? Ask fortuneteller, or gambler?"

所以我才說不必那麼早下定論,看個一兩場再說也不遲,不必在一個新秀還沒上大聯盟之前就用他的數據否定他未來的發展性,尤其是Torre已經願意給他機會上場,我記得當初Torre一開始對王印象深刻的時候是在春訓看到他的sinking fastball而不是看到一堆小聯盟的數據,我想這就有點類似股票老師跟專業經理人有時看待一個公司發展性會有不同的意見一樣

"Again, you misinterpret the
essence. Our forecast could be wrong, but our argument should be solid. I think that is one point Professor Lu spares no pain to educate."

當然,預測會有錯誤我同意,argument should be solid我也同意,但是我比較無法認同的一點在於只用數據否定一個球員的進步空間,尤其是在該隊總教練願意給機會但還沒有上場的時候,我會舉出Wang跟Cano的例子是一方面他們兩位進步的幅度很大,一方面也是對之前貴版主以前對他們不看好的言論印象深刻(如果我沒記錯的話,如果記錯,我願意道歉)
 
>數據只能顯示過去,不能準確預測球員未來的狀況

我同意 Alex Chang 所言, 因為這些統計的方法(或稱技術)根本沒有預測的能力.
 
to 丹尼爾,

說"根本沒有"太過頭了,許多人會覺得沒有預測能力是因為他們不曉得怎麼利用這些數據。不過我個人是同意小聯盟球員未來的發展不見得能從數據上看的出來。

btw, 以 Wang 和 Cano 的 case 來說,看看 Wang 三振能力的進步和 Cano 選球能力的成長,我不認為當初預測上有太大的問題;因為就當初這兩位球員所顯示出的 peripherals,很難長期維持住現在這些好評,但現在確會讓人比較有信心一些。
 
To ideo
>說"根本沒有"太過頭了,許多人會覺得沒有預測能力是因為他們不曉得怎麼利用這些數據。

很抱歉!
我不是故意要爭論此點, 但純粹就這些統計的方法來說, 真的沒有預測的能力. 它只能知道過去的表現如何而已, 如果有預測的能力我想玩股票的人應該很高興才對.

假設這些統計方法真的有預測的能力, 可以告訴我解釋能力(或預測準確度)及誤差值嗎? 好像沒有吧!
 
這些達人的鮮明印象豐富了我的人生.傅達仁以戲謔的方式呈現棒球,張昭雄以口條枯燥但自下苦工算數據的方式來預測棒球,屠德言在封閉的時代裡鮮活地口述了MLB的殿堂,曾文誠半路出家地竟然建立了 (我不算太喜歡)的中職名球評風格,袁定文首先在電視播報上引進美式術語,NHK等的日式技術剖析令我驚奇...而幾年來網路上CCLu美式數據分析的鏗鏘評論則在台灣令人耳目一新.
學校教授及美國公司告訴我,你要試著大膽去"探討分析"數據背後的意義, 告訴我"你的意見",如果你的結論是泛泛常識, 或是lost in the bush的空論, 那不要浪費彼此聽說的寶貴時間.
統計國中國小的成績來預測發展是毫無意義的,因為不保證考上好大學???美國研究所看GPA及學校來挑學生弊大於利,因為許多平凡成績的學生以後竟然得到Nobel prizes???
我可能上不到Lu大的課了,但你的學生應該是會有收穫的,不是你敎的每件事一直都對,而是學生多少會學到果敢而謹慎地說出自己的想法,這是台灣學生相對缺乏的. 莽撞嗎?自負嗎?獨斷嗎?危險嗎?或許多少有一點,但職場經驗讓我覺得這種aggressive show 益成顯學.
PS:記憶中Lu大對Wang及Cano的評論沒有看好/看壞那麼單純,不過這不是我想說的主題就是了.
 
CCLU 到了今年都還在說"Cano 不是洋基應該有的長期2B" 當然當他說的時候是5'6月的時候, 五月的Cano真的很糟糕. 但是這有因為一個月的糟糕而否定了過去一年多很棒的嫌疑.

btw. Mike Mussina's first career start.


7.2 IP, 1ER 4H 4BB 1K 1HR

I don't think Kennedy is Moose, but i think the 4th/5th starter label gets too ridiculas. espically in the modern day where if a guy can actually put up what we traditionally thought as backend starter numbers consistently year in and year out they are probably a top 30-40 SP in the AL during that span.
 
correction, I meant top 20-25 SP, since it's only in the AL.
 
這篇的留言讓我看的一頭霧水....

>>數據只能顯示過去...(後略)
怪了,我讀「Ian Kennedy is not a savior」那段時是先看到「球探報告」四個字耶,這東西基本上來講不完全算是數據喔...(甚至在某些情境下是「數據」的對立面)

再來是讀到「他只有一年的小聯盟數據,我們很難從數字看出來他究竟有多好」,這不就是更反映出來對於這種小樣本的時候,需要比較大樣本的數據分析會比較不適合嗎?

不會是因為一句「...數據也不會比較漂亮...」就讓Alex Chang網友等人誤以為那段是在用數據去評比甚至論斷一名新秀吧?

至少,我對於那段的解讀不是那樣,而且就文字上來看差很多。

===

至於其他關於數據派等等的發言,因為我才看了幾本BP以及Bill James的書而已,還不敢說什麼。

那幾位鐵口直斷數據沒有預測能力的人,想必是看過許多資料與書籍之後才敢這麼講吧。

至少應該不會是光聽台灣球評的轉播就做出這樣的結論吧?
 
"統計國中國小的成績來預測發展是毫無意義的,因為不保證考上好大學???美國研究所看GPA及學校來挑學生弊大於利,因為許多平凡成績的學生以後竟然得到Nobel prizes???"

統計國中國小的成績來預測發展當然是毫無意義啊,太多人國中國小成績不怎麼樣卻考上好的大學,美國研究所有更多例子因為在大學時做過很有value的projects的經驗而被錄取,因為這些經驗顯示出一個人真正的能力跟潛力,我自己就是受益者

"不是你敎的每件事一直都對,而是學生多少會學到果敢而謹慎地說出自己的想法,這是台灣學生相對缺乏的. 莽撞嗎?自負嗎?獨斷嗎?危險嗎?或許多少有一點,但職場經驗讓我覺得這種aggressive show 益成顯學."

這點我同意,但是同時應該也有教你資料要蒐集"盡量"完全再下結論吧,你的職場經驗我倒是頗好奇的,如果單從數據(成績單,學歷),又何必面試?我看履歷的時候,我第一眼看的可不是學歷或是成績單,而是看他在學校或是在以前的公司做的是什麼,再來才是看學歷

"以 Wang 和 Cano 的 case 來說,看看 Wang 三振能力的進步和 Cano 選球能力的成長,我不認為當初預測上有太大的問題;因為就當初這兩位球員所顯示出的 peripherals,很難長期維持住現在這些好評,但現在確會讓人比較有信心一些。"

這就是我要說的一個球員的進步是可以改變數據,甚至讓數據派的人改變信心,當初的數據是不能看出這些進步的,但是教練們或許可以現場從一個球員的打擊技巧和動作,投手球種的特質看出未來的潛力
 
平凡如我在今天以前沒看過Ian Kennedy 投過一場球,看過以後也沒辦法完全肯定他幾年後的發展,天曉得他是不是日後會學得某種必殺球.但如果今天我要寫一個類似blog的業餘短評公諸大眾,Lu大的"身高,球種,球速,球質,Moose的基準"等對新秀的分析算是言之有物,論有所本. 我如果要提出一些不同的意見(challenges)的話會嚐試就現有的所見所聞提出一兩個爭點(版友應該都有這些能力,只是可能沒發文). 類似"數據只能顯示過去,不能準確預測未來","這些統計的方法(或稱技術)根本沒有預測的能力","too ridiculas... consistently year in and year out..", "需要比較大樣本的數據分析 (等到樣本夠大了還需預測嗎, 那應該是終論了)"等的詰問可能過於空虛.以此標準的話老美那些熱鬧的forecast都可免了.
 
To Shaw,

Exactly!當然可免,所以我個人的習慣是以看數據分析的角度來欣賞貴版主對一個球員的分析,從中我學到很多我本來不知道的統計標準,或是從中知道說啊原來這球員表現差的原因是這樣啊等等

但是,每當我看到文章中預測的字句時,譬如說,只能當個4,5號先發啦,對該選手前景有限啦之類的話時,內心總是有些不以為然,因為我個人一直對小聯盟球員奮鬥的精神非常欽佩,當然,我也知道個人的部落格本來就是自由揮灑,我無資格干預,所以我的comment也只是個人情感的表達以及我對數據的看法罷了
 
to alex chang

我覺得cclu大的預測,如果是沒有使用數據頭所做出來的解釋,而單評個人情感的表達的看法,那我"可能"會同意你所做的comment...但是並不是如此...

相同的,如果你沒有使用數據而表達情感和看法,所做的comment是更無意義的....

簡單的講,任何預測的基礎改變都會使預測結果改變,這我認為是一種共識,是不值得做這樣的comment的...
 
先呼應一下shaw所提到的「你要試著大膽去"探討分析"數據背後的意義, 告訴我"你的意見",如果你的結論是泛泛常識, 或是lost in the bush的空論, 那不要浪費彼此聽說的寶貴時間.」這段話的重點在於你要敢於提出你的判斷,而不是因為你認為結果和評估可能不一致,就什麼都不說、什麼都不做。


理論上每個人應該都知道只用某一種工具/方法去解釋或預測未來是可能會有偏差的,問題在於,你不應該純粹以結果來看待一套工具事前的評估,畢竟評估方法都是先有一套前提假設的,它依據的是過去所發生的事實;當情況在未來產生改變時,結果當然有可能會和事前預期的不一樣。


因此我個人不太喜歡這種"單純只依數據來做評價"的說法,事情的結果是人人都看得到的,問題是有多少人真正懂得一個評估方法背後的精神、假設、還有它的限制?


如果不清楚一套工具或評價方法背後的邏輯,那何以能夠說「這個東西」沒有用呢?


事情不會憑空發生。
而很多改變也都是"後來"才發生的。


如果不是依據數據,那你如何能夠說明未來一定會變得更好?你敢於每一次都因為這樣而做出決定或給予較高的評價嗎?如果不行、或者說你只是不喜歡別人這樣子做,那我會認為你只是坐在那裡看未來會發生什麼事而已,而這不會比較高明。


因此事情永遠是這個樣子:當你站在事前的角度,當你一旦就是要做一個決定或給予一個評論時,你要依據什麼東西?你會純粹依照「人都是會成長」、「或許他可能會怎樣」之類的觀點來決定事情,還是儘量根據一些其它可以衡量的東西做出決定?


總之,數據有其限制,同樣其它的評估方法(例如來自球探或教練的觀察)一樣也會有限制。人人都知道事情的結果和評估可能不同,重點是你要依據什麼東西才做決定。
 
「由於他只有一年的小聯盟數據,我們很難從數字看出來他究竟有多好。」

我看不懂為什麼以這句話為前提的一個段落會有人抨擊說只用數據預測新秀很不準
 
其實數據預測, 也可以把cy兄所說的「人都是會成長」、「或許他可能會怎樣」的因素考慮進去, 這就是PECOTA系統. 依據球員年齡, 過往在各層級的表現, 以及歷史上眾多類型相似的球員在類似年齡產生的成長, 是可以描繪出球員可能的成長曲線. 所以, 其實連這一層面都是包含在數據分析裡面的.

問題是, 數據預測(如PECOTA)是有誤差區間的, 一個球員有50%以上的可能會怎樣, 爆發的機率又怎樣, 等等, 是有範圍與機率分布的. 很多不懂數據的人並不知道這一點, 一看到預測(譬如分佈的中位數值)與實際不同, 就說數據不可靠, 其實這些人是不瞭解數據而已.

Blogger如CCLu, 在依數據(譬如參考PECOTA系統)對球員做出判斷時, 通常只會對預測內容做出概略性的描述, 而不會把整套PECOTA搬上來, 這就造成部份讀者只看到片面, 然後就下結論說數據預測不準.

數據從未宣稱自己萬能, 但數據的能與不能, 卻不被普遍瞭解. 中文網路世界中, 10個抱怨數據的, 其實是因為不瞭解數據而已.
 
去算算每年有多少年輕到不行, 在學生層級又看起來有潛力到不行的小朋友進到小聯盟系統, 然後在算算最後升上大聯盟的人數.

你就會知道「人都是會成長」、「或許他可能會怎樣」這兩句話基本上會成立的機率小到你自己都想去忽視它.
 
Post a Comment


This page is powered by Blogger. Isn't yours?

Page visited since 1/28/04
Hit Counters
Ad: Bionicle
Listed on BlogShares