<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>資料礦工小站</title>
	<atom:link href="http://datamining.com.tw/wordpress/?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://datamining.com.tw/wordpress</link>
	<description>我挖！我挖！我哇！哇！哇！</description>
	<lastBuildDate>Sat, 10 Apr 2010 04:47:37 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>打不倒的勇者 &#8230; 詩一篇 &#8230;</title>
		<link>http://datamining.com.tw/wordpress/?p=72</link>
		<comments>http://datamining.com.tw/wordpress/?p=72#comments</comments>
		<pubDate>Sat, 30 Jan 2010 17:30:03 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Misc.]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=72</guid>
		<description><![CDATA[Invictus by William Ernest Henley (英國詩人) Out of the night that covers me, Black as the pit from pole to pole; I thank whatever gods may be For my unconquerable soul. In the fell clutch of circumstance, I have not winced, nor cried aloud. Under the bludgeonings of chance, My head is bloody, but unbowed. [...]]]></description>
			<content:encoded><![CDATA[<p>Invictus<br />
by William Ernest Henley (英國詩人)</p>
<p>Out of the night that covers me,<br />
Black as the pit from pole to pole;<br />
I thank whatever gods may be<br />
For my unconquerable soul.</p>
<p>In the fell clutch of circumstance,<br />
I have not winced, nor cried aloud.<br />
Under the bludgeonings of chance,<br />
My head is bloody, but unbowed.</p>
<p>Beyond this place of wrath and tears<br />
Looms but the Horror of the shade;<br />
And yet the menace of the years<br />
Finds, and shall find me, unafraid.</p>
<p>It matters not how strait the gate,<br />
How charged with punishments the scroll:<br />
I am the master of my fate.<br />
I am the captain of my soul.</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=72</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>轉貼：SAS 與 IBM/SPSS 加入 R Solution 了 &#8230;</title>
		<link>http://datamining.com.tw/wordpress/?p=70</link>
		<comments>http://datamining.com.tw/wordpress/?p=70#comments</comments>
		<pubDate>Sat, 30 Jan 2010 03:36:04 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[News]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=70</guid>
		<description><![CDATA[資料來源：InfoWorld Learning: 1. SPSS 好像從 17 開始支援 R 的, 至於 SAS &#8211; 有一陣子沒有關心 &#8230; 所以就不確知了 &#8230; 2. 支援 R &#8230; 除了可以放心大膽使用這些商業套件處理一些較基本的 stat 工作外，當碰到不可解的 issue 時，還可以透過 R 自行尋求解決之道 &#8230; 對 analyst 來說，確實是一大福音 &#8230; Regards, George &#8230;]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a target="_blank" href="http://www.infoworld.com/d/open-source/sas-and-ibmspss-rise-open-source-r-opportunity-519">InfoWorld</a></p>
<p>Learning:</p>
<p>1. SPSS 好像從 17 開始支援 R 的, 至於 SAS &#8211; 有一陣子沒有關心 &#8230; 所以就不確知了 &#8230;<br />
2. 支援 R &#8230; 除了可以放心大膽使用這些商業套件處理一些較基本的 stat 工作外，當碰到不可解的 issue 時，還可以透過 R 自行尋求解決之道 &#8230; 對 analyst 來說，確實是一大福音 &#8230;</p>
<p>Regards, George &#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=70</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>轉貼：Clarabridge 與 Kapow&#8217;s Technology 結盟 &#8230;</title>
		<link>http://datamining.com.tw/wordpress/?p=68</link>
		<comments>http://datamining.com.tw/wordpress/?p=68#comments</comments>
		<pubDate>Sat, 30 Jan 2010 03:29:45 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[News]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=68</guid>
		<description><![CDATA[資料來源：eContent Magazine www.clarabridge.com : 1. Provides brand-oriented monitoring of numerous social media services and other forms of online discussion. 2. Allowing companies to analyze customer sentiment and impact in real time 3. Derive useful market knowledge, improve customer care, and handle risk management and quality assurance. www.kapowtech.com : 1. Provides technology for accessing, enriching, and [...]]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a href="http://www.econtentmag.com/Articles/News/News-Item/Clarabridge-Augments-Data-Mining-with-Kapowe28099s-Web-Technology-60869.htm" target="_blank">eContent Magazine</a></p>
<p><span id="ctl00_ContentPlaceHolder1_Body2"></span><a href="http://www.clarabridge.com/" target="_blank">www.clarabridge.com</a> :</p>
<p>1. Provides brand-oriented monitoring of numerous social media services and other forms of online discussion.<br />
2. Allowing companies to analyze customer sentiment and impact in real time<br />
3. Derive useful market knowledge, improve customer care, and handle risk management and quality assurance.</p>
<p><span id="ctl00_ContentPlaceHolder1_Body2"><a href="http://www.kapowtech.com/" target="_blank">www.kapowtech.com</a> :</p>
<p>1. P</span>rovides technology for accessing, enriching, and serving real-time, noise-free web data.<br />
2. Enables business and technical people to create innovative business applications.</p>
<p>Learning:</p>
<p>1. Analysis Algorithm 固然是 Mining 中較有趣的一環 &#8230; however, 處理 data 的 dirty job 依然是 garbage 要轉換成黃金必要前提 &#8230; 特別是在 web 當道、log 氾濫成災的當前 &#8230;<br />
2. 爾後的 business 當會分工愈趨精細, 要談 solution &#8230; 需要知道的東西勢必越來越多了 &#8230;</p>
<p>Regards, George &#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=68</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>轉貼：騰訊鮮爲人知的重武器4 &#8211; 秘密武器“數據挖掘”</title>
		<link>http://datamining.com.tw/wordpress/?p=66</link>
		<comments>http://datamining.com.tw/wordpress/?p=66#comments</comments>
		<pubDate>Fri, 16 Oct 2009 02:34:21 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[News]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=66</guid>
		<description><![CDATA[資料來源：網易 主題：【騰訊鮮爲人知的重武器4】秘密武器“數據挖掘” 在深圳跟一些業內人士聊天，他們甚至認爲，騰訊一個最具門檻性的核心競爭力是“數據挖掘”。數據挖掘不是一個新詞，比如微軟、戴爾，他們都是真正的高手，甚至有一條數字管理神經。數據挖掘的真正含義是，他們就像水質檢測儀，面對一個數億記的消費群，誰能把握消費之水的流動，誰就掌握了規則。 ———————————————————————————————— 像馬化騰一樣關注産品的互聯網CEO還有不少，比如丁磊和史玉柱，他們也是著名的用戶體驗派。但是，馬化騰用戶體驗戰略的冰山下面，還隱藏著一個不爲人知的巨大基座。 這一冰山基座就是數據挖掘系統，就是從大量數據中獲取有效的、新穎的、潜在可用的、最終可理解的信息，以輔佐公司戰略的數字神經系統。這是一個真正的重武器，即使整個中國互聯網，真正擁有這一系統的公司也極少，只有那些具備平臺級優勢的公司才擁有——騰訊、百度、阿裏巴巴、盛大。 五年前開始，馬化騰開始要求各條業務綫的主管每天給他發送一封反映業務指標數字的郵件，內容包括包月用戶是多少？增加了多少？减少了多少？跟上個周同日比，或者說是跟上個月同日比？分別升跌了多少？有什麽异動？“這個是需要每天都去關注的東西，如果說你做管理者不去看這些東西的話，很久才看一下，中間會錯掉很多東西，或者說你反應速度會慢很多。”馬化騰說。 不僅自己看數字，馬化騰也要求每一個高管、部門負責人、甚至産品經理也要對數字保持密切關注。 去年底，馬化騰開始把數字經營的理念引入到騰訊門戶網站的運營管理中，“原來廣告就有點粗放，往往都是季度末才開始沖業績，找代理，今年開始就每天都有一封信，上面有廣告資源的消耗，黃金位置消耗了多少等。爲什麽會這樣？過去他們還沒有建立這樣的體系，今年我們就開始要求他們每天要看，所有的網絡媒體、廣告銷售部門的領導班子，每人一封信都會看到這個數字，培養這種數字運營的感覺，很重要的。大家就不會人浮于事，到最後找各種理由來推托。有什麽事應該早知道，要多問。希望靠這種思路能够把我們每一塊業務都帶起來。” 數據是每一家互聯網公司安身立命的基礎之一，不過像騰訊這樣長期堅持以數據爲導向的公司幷不多。1999年，騰訊剛剛成立不久，當時天使投資人劉曉松决定向騰訊注資的一個主要原因就是因爲他發現，“當時雖然他們的公司還很小,但已經有用戶運營的理念,後臺對于用戶的每一個動作都有記錄和分析。” 在成爲用戶最多的互聯網公司後，騰訊所掌握的用戶數據量日益豐富，挖掘這些數據成爲騰訊後來在多元業務擴展時屢試不爽的重武器。有分析人士甚至說，“數據挖掘”才是騰訊最具門檻性質的技術。在中國，騰訊絕對是數據挖掘的高手，但是和微軟這類國際强者比起來，仍是起步階段。 數據挖掘的更深層部分是騰訊在IDC(互聯網數據中心)上的積累，比如高速上傳、大容量郵件傳輸的後臺及基礎技術支持。“我們每一天用戶上傳的照片數，可能就是中國一個其他的互聯網公司一個月的數據量。”2007年，騰訊成立了騰訊研究院，研究院共有六大研究方向，數據挖掘正是其中之一，“以用戶爲中心，如果你對用戶什麽都不瞭解，那是空話。”鄭全戰說。 “用戶一嘗試，用一兩秒鐘就退出來了，這說明這個可能沒做好，而不是他不想用。或者他連光顧都不光顧，沒這個需求。這是通過我們後臺都可以看出來。我們也有對競爭産品相同功能的一些監測，這樣的話我們可以有個比較，比如一個功能用戶（在競爭産品上）停留了二十分鐘，我們這邊只有五分鐘，那說明我們的性能有問題。”鄭全戰介紹。 數據挖掘還有一個特種部隊，T4專家組。T4就是專家工程師，在騰訊的技術職業路徑裏，一共6級，從T1（工程師）到T6（首席科學家），T4是一個中流砥柱般的存在，必須做過億次級的用戶量級才能當選，目前不到50人。一旦遇到重大的産品難題，由T4組成的特別小組就會加入，他們億次級用戶量級的經驗將發揮作用。 對用戶的數據挖掘後來在騰訊網絡游戲的崛起中也發揮了大作用。騰訊從2003年開始運營網絡游戲，曾遭遇挫折，直到2008年，騰訊才在多個細分市場找到了合適的韓國游戲作品，在代理韓國游戲的過程中，騰訊提出來要介入所代理游戲的研發，例如對《穿越火綫》中子彈射出後的彈道設置，騰訊根據對用戶的挖掘數據認爲，韓方原本設計的逼真效果對中國用戶幷不合適，用戶對騰訊設計出的“比較爽快的，節奏快的，鮮明的”的彈道設計更加興奮。最後的結果表明，騰訊是對的。 騰訊强大的數據挖掘和産品能力僅有的幾次失效出現在搜索和電子商務。搜索的技術門檻頗高，“搜索的研發需要時間。”馬化騰說。 “那是最難了。”馬化騰承認騰訊拍拍網在C2C領域的處境困難。“C2C是有很强的網絡效應，不是你單方面做好系統就行了，還要買家、賣家都要一起成長，如果是賣家不多，買家自己不來；買家不來，那賣家也不願意在裏面花精力去伺候你，淘寶應該說是占了很大的先發優勢。” 對數據的挖掘不僅可以用來進行用戶研究，還大大提升了騰訊的運營效率。早期，騰訊曾經過度使用群發廣告來推廣産品，這樣的大規模推送廣告不僅“大部分是浪費掉的，而且還引起很多人的反感”。這兩年，騰訊開始進行推廣資源的控制。 比如，公司分配給業務單位的群發數保持恒定，同時公司的戰略發展部門派出一個小組來專門管控群發廣告的效率，這個小組會先給業務部門做測試，比如業務部門要發幾千萬條廣告，就會被要求先發幾萬條試一下，一旦發現效果不好，必須進行修改，或者是更換廣告發送的用戶群，如果廣告後發送的點擊率和用戶滿意度下降，下個月分配給這個業務的推廣預算就會被扣除，反之，如果效率高，這個産品就會得到更多的營銷資源獎勵。這一模式逼迫得業務部門對用戶數據挖掘得更加精細後才會進行廣告群發。“要靠這個獎懲來控制營銷的資源”。 這一制度執行的結果是，“起碼把四分之三的水分擠掉了，只有以前四分之一的推廣量，但是效果其實沒有變化太大。”馬化騰說。 - End - Regards,]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a target="_blank" href="http://www.google.com/url?sa=X&amp;q=http://jincuodao88.blog.163.com/blog/static/18494343200991545813395/%3FfromTech&amp;ct=ga&amp;cd=cqLRoV97Cz8&amp;usg=AFQjCNHvfcBFtMj0Q54Co8BA4B-uILupEQ">網易</a></p>
<p>主題：【騰訊鮮爲人知的重武器4】秘密武器“數據挖掘”</p>
<p>在深圳跟一些業內人士聊天，他們甚至認爲，騰訊一個最具門檻性的核心競爭力是“數據挖掘”。數據挖掘不是一個新詞，比如微軟、戴爾，他們都是真正的高手，甚至有一條數字管理神經。數據挖掘的真正含義是，他們就像水質檢測儀，面對一個數億記的消費群，誰能把握消費之水的流動，誰就掌握了規則。</p>
<p>————————————————————————————————</p>
<p>像馬化騰一樣關注産品的互聯網CEO還有不少，比如丁磊和史玉柱，他們也是著名的用戶體驗派。但是，馬化騰用戶體驗戰略的冰山下面，還隱藏著一個不爲人知的巨大基座。</p>
<p>這一冰山基座就是數據挖掘系統，就是從大量數據中獲取有效的、新穎的、潜在可用的、最終可理解的信息，以輔佐公司戰略的數字神經系統。這是一個真正的重武器，即使整個中國互聯網，真正擁有這一系統的公司也極少，只有那些具備平臺級優勢的公司才擁有——騰訊、百度、阿裏巴巴、盛大。</p>
<p>五年前開始，馬化騰開始要求各條業務綫的主管每天給他發送一封反映業務指標數字的郵件，內容包括包月用戶是多少？增加了多少？减少了多少？跟上個周同日比，或者說是跟上個月同日比？分別升跌了多少？有什麽异動？“這個是需要每天都去關注的東西，如果說你做管理者不去看這些東西的話，很久才看一下，中間會錯掉很多東西，或者說你反應速度會慢很多。”馬化騰說。</p>
<p>不僅自己看數字，馬化騰也要求每一個高管、部門負責人、甚至産品經理也要對數字保持密切關注。</p>
<p>去年底，馬化騰開始把數字經營的理念引入到騰訊門戶網站的運營管理中，“原來廣告就有點粗放，往往都是季度末才開始沖業績，找代理，今年開始就每天都有一封信，上面有廣告資源的消耗，黃金位置消耗了多少等。爲什麽會這樣？過去他們還沒有建立這樣的體系，今年我們就開始要求他們每天要看，所有的網絡媒體、廣告銷售部門的領導班子，每人一封信都會看到這個數字，培養這種數字運營的感覺，很重要的。大家就不會人浮于事，到最後找各種理由來推托。有什麽事應該早知道，要多問。希望靠這種思路能够把我們每一塊業務都帶起來。”</p>
<p>數據是每一家互聯網公司安身立命的基礎之一，不過像騰訊這樣長期堅持以數據爲導向的公司幷不多。1999年，騰訊剛剛成立不久，當時天使投資人劉曉松决定向騰訊注資的一個主要原因就是因爲他發現，“當時雖然他們的公司還很小,但已經有用戶運營的理念,後臺對于用戶的每一個動作都有記錄和分析。”</p>
<p>在成爲用戶最多的互聯網公司後，騰訊所掌握的用戶數據量日益豐富，挖掘這些數據成爲騰訊後來在多元業務擴展時屢試不爽的重武器。有分析人士甚至說，“數據挖掘”才是騰訊最具門檻性質的技術。在中國，騰訊絕對是數據挖掘的高手，但是和微軟這類國際强者比起來，仍是起步階段。</p>
<p>數據挖掘的更深層部分是騰訊在IDC(互聯網數據中心)上的積累，比如高速上傳、大容量郵件傳輸的後臺及基礎技術支持。“我們每一天用戶上傳的照片數，可能就是中國一個其他的互聯網公司一個月的數據量。”<br />2007年，騰訊成立了騰訊研究院，研究院共有六大研究方向，數據挖掘正是其中之一，“以用戶爲中心，如果你對用戶什麽都不瞭解，那是空話。”鄭全戰說。</p>
<p>“用戶一嘗試，用一兩秒鐘就退出來了，這說明這個可能沒做好，而不是他不想用。或者他連光顧都不光顧，沒這個需求。這是通過我們後臺都可以看出來。我們也有對競爭産品相同功能的一些監測，這樣的話我們可以有個比較，比如一個功能用戶（在競爭産品上）停留了二十分鐘，我們這邊只有五分鐘，那說明我們的性能有問題。”鄭全戰介紹。</p>
<p>數據挖掘還有一個特種部隊，T4專家組。T4就是專家工程師，在騰訊的技術職業路徑裏，一共6級，從T1（工程師）到T6（首席科學家），T4是一個中流砥柱般的存在，必須做過億次級的用戶量級才能當選，目前不到50人。一旦遇到重大的産品難題，由T4組成的特別小組就會加入，他們億次級用戶量級的經驗將發揮作用。</p>
<p>對用戶的數據挖掘後來在騰訊網絡游戲的崛起中也發揮了大作用。騰訊從2003年開始運營網絡游戲，曾遭遇挫折，直到2008年，騰訊才在多個細分市場找到了合適的韓國游戲作品，在代理韓國游戲的過程中，騰訊提出來要介入所代理游戲的研發，例如對《穿越火綫》中子彈射出後的彈道設置，騰訊根據對用戶的挖掘數據認爲，韓方原本設計的逼真效果對中國用戶幷不合適，用戶對騰訊設計出的“比較爽快的，節奏快的，鮮明的”的彈道設計更加興奮。最後的結果表明，騰訊是對的。</p>
<p>騰訊强大的數據挖掘和産品能力僅有的幾次失效出現在搜索和電子商務。搜索的技術門檻頗高，“搜索的研發需要時間。”馬化騰說。</p>
<p>“那是最難了。”馬化騰承認騰訊拍拍網在C2C領域的處境困難。“C2C是有很强的網絡效應，不是你單方面做好系統就行了，還要買家、賣家都要一起成長，如果是賣家不多，買家自己不來；買家不來，那賣家也不願意在裏面花精力去伺候你，淘寶應該說是占了很大的先發優勢。”</p>
<p>對數據的挖掘不僅可以用來進行用戶研究，還大大提升了騰訊的運營效率。早期，騰訊曾經過度使用群發廣告來推廣産品，這樣的大規模推送廣告不僅“大部分是浪費掉的，而且還引起很多人的反感”。這兩年，騰訊開始進行推廣資源的控制。</p>
<p>比如，公司分配給業務單位的群發數保持恒定，同時公司的戰略發展部門派出一個小組來專門管控群發廣告的效率，這個小組會先給業務部門做測試，比如業務部門要發幾千萬條廣告，就會被要求先發幾萬條試一下，一旦發現效果不好，必須進行修改，或者是更換廣告發送的用戶群，如果廣告後發送的點擊率和用戶滿意度下降，下個月分配給這個業務的推廣預算就會被扣除，反之，如果效率高，這個産品就會得到更多的營銷資源獎勵。這一模式逼迫得業務部門對用戶數據挖掘得更加精細後才會進行廣告群發。“要靠這個獎懲來控制營銷的資源”。</p>
<p>這一制度執行的結果是，“起碼把四分之三的水分擠掉了，只有以前四分之一的推廣量，但是效果其實沒有變化太大。”馬化騰說。</p>
<p>- End -</p>
<p>Regards,</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=66</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>工作：阿里巴巴博士後</title>
		<link>http://datamining.com.tw/wordpress/?p=62</link>
		<comments>http://datamining.com.tw/wordpress/?p=62#comments</comments>
		<pubDate>Thu, 08 Oct 2009 00:15:09 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Jobs]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=62</guid>
		<description><![CDATA[資料來源：優訊-中國網 china.com.cn/info時間： 2009-10-07責任編輯: 香頌 公司行業： IT服務（系統/數據/維護）/多領域經營公司類型： 合資公司規模： 10000人以上職位類別：計算機軟、硬件/互聯網/IT工作地點：北京 正在加載更多城市 發布日期：2009-10-03工作經驗：不限 最低學歷：博士管理經驗：否 工作性質：全職招聘人數：1人 職位描述/要求： 崗位描述： 研究大規模數據存儲及幷行計算系統的自反饋機制，通過對系統運行日志及監控數據的自動化分析，對大規模數據存儲及幷行計算系統在安全性，可靠性和性能方面進行改進，對系統的運行狀態加以展現、預警以及進行邏輯檢查和參數的自適應調整。涉及關鍵技術包括模式檢查（Model Checking），機器學習（Machine Learning），數據挖掘（Data Mining）等 崗位要求： 取得計算機相關專業國內外博士學位； 計算機理論知識扎實，瞭解大規模系統設計的關鍵因素和相關技術； 具有模式檢查、機器學習、數據挖掘或者分布式系統相關工作背景優先； 熱愛科研，具有帶領團隊獨立研究的能力以及良好的團隊合作精神 關于阿里巴巴集團 阿里巴巴集團是全球電子商務的領導者，是中國最大的電子商務公司。自1999年成立以來，阿里巴巴集團茁壯成長，現已擁有7家子公司，截至2008年1月31日共有8800餘名員工： 阿里巴巴B2B公司&#8212;-阿里巴巴集團的旗艦公司,2007年11月6日于香港上市； 淘寶&#8212;-中國領先的個人網絡購物市場。 支付寶&#8212;-中國領先的在綫支付服務； 阿里軟件&#8212;-服務于中國中小企業者的以互聯網爲平臺的商務管理軟件公司； 中國雅虎&#8212;-國內領先的搜索引擎和社區； 阿里媽媽&#8212;-中國領先的網上廣告交易平臺。 口碑網&#8212;-中國領先的生活搜索引擎。 自2008 年 1 月起阿里巴巴集團宣布成立阿里搜索技術研發中心（ ASC ），ASC是阿里巴巴開設的第一家集團層面的大型科研機構。中心的使命是讓天下沒有難找的信息，將圍繞電子商務生態圈的信息流構建基于搜索技術的各種平臺和應用。 隨著互聯網信息的爆炸性增長，搜索技術目前已日益成爲網絡應用的基礎。阿里搜索技術研發中心將致力于搜索技術在中國的應用研究和技術普及，關注的研發方向包括： 信息檢索和數據挖掘技術：致力于研發海量網頁和結構化信息的搜索基礎技術，爲用戶提供最佳的搜索體驗，包括自然語言處理、分類和聚類、機器學習、相關性排序、反作弊、個性化內容推薦等領域。 系統、網絡和架構：通過對分布式計算、存儲和搜索引擎和信息搜集平臺的研發，建立高性能的大型分布式基礎架構，完成對于海量網頁的抓取和精確抽取，應對每日上億次的查詢，幷有效地管理成千上萬台服務器集群 計算廣告技術：互聯網廣告，特別是基于搜索技術的關鍵字廣告和內容匹配廣告，正成爲廣告行業的新增長點。我們將通過對上網用戶的瀏覽和搜索行爲數據挖掘，進行精確匹配廣告算法的研發。 移動搜索技術：中國手機用戶已經超過5億，擁有全球第一大移動通信市場，移動互聯網市場潜力無窮。我們將關注在網頁信息處理、移動電子商務、人機界面、本地搜索等應用研究領域。 在研發成果的産品化上，阿里搜索技術研發中心將與阿里巴巴、淘寶、中國雅虎、阿里媽媽等兄弟公司密切合作，將中心的創新成果直接應用到海量的網頁、商品、服務信息、廣告匹配等搜索服務中。 我們歡迎有志于搜索研發的人才加入到我們的隊伍當中。在這裏你將和一流的搜索技術人員一起工作，你的工作成果直接影響億萬網民的生活，你的工作將對中國的電子商務産生深遠的影響，加入我們和中國最大的電子商務公司一起成長。 公司網站：http://www.alibaba.com公司地址：中國浙江省杭州市文二路391號西湖國際科技大厦A座18、19樓聯 系 人：人力資源部聯繫方式：postdoctor@alibaba-inc.com - End -]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a target="_blank" href="http://www.china.com.cn/info/zhuanti/recruiment09/2009-10/07/content_18663863.htm">優訊-中國網 china.com.cn/info</a><br />時間： 2009-10-07<br />責任編輯: 香頌</p>
<p>公司行業： IT服務（系統/數據/維護）/多領域經營<br />公司類型： 合資<br />公司規模： 10000人以上<br />職位類別：計算機軟、硬件/互聯網/IT<br />工作地點：北京 正在加載更多城市 發布日期：2009-10-03<br />工作經驗：不限 最低學歷：博士<br />管理經驗：否 工作性質：全職<br />招聘人數：1人</p>
<p>職位描述/要求：</p>
<p>崗位描述：</p>
<p>研究大規模數據存儲及幷行計算系統的自反饋機制，通過對系統運行日志及監控數據的自動化分析，對大規模數據存儲及幷行計算系統在安全性，可靠性和性能方面進行改進，對系統的運行狀態加以展現、預警以及進行邏輯檢查和參數的自適應調整。涉及關鍵技術包括模式檢查（Model Checking），機器學習（Machine Learning），數據挖掘（Data Mining）等</p>
<p>崗位要求：
<ol>
<li> 取得計算機相關專業國內外博士學位；</li>
<li> 計算機理論知識扎實，瞭解大規模系統設計的關鍵因素和相關技術；</li>
<li> 具有模式檢查、機器學習、數據挖掘或者分布式系統相關工作背景優先；</li>
<li> 熱愛科研，具有帶領團隊獨立研究的能力以及良好的團隊合作精神</li>
</ol>
<p>關于阿里巴巴集團</p>
<p>阿里巴巴集團是全球電子商務的領導者，是中國最大的電子商務公司。自1999年成立以來，阿里巴巴集團茁壯成長，現已擁有7家子公司，截至2008年1月31日共有8800餘名員工：
<ol>
<li>阿里巴巴B2B公司&#8212;-阿里巴巴集團的旗艦公司,2007年11月6日于香港上市；</li>
<li>淘寶&#8212;-中國領先的個人網絡購物市場。</li>
<li>支付寶&#8212;-中國領先的在綫支付服務；</li>
<li>阿里軟件&#8212;-服務于中國中小企業者的以互聯網爲平臺的商務管理軟件公司；</li>
<li>中國雅虎&#8212;-國內領先的搜索引擎和社區；</li>
<li>阿里媽媽&#8212;-中國領先的網上廣告交易平臺。</li>
<li>口碑網&#8212;-中國領先的生活搜索引擎。</li>
</ol>
<p>自2008 年 1 月起阿里巴巴集團宣布成立阿里搜索技術研發中心（ ASC ），ASC是阿里巴巴開設的第一家集團層面的大型科研機構。中心的使命是讓天下沒有難找的信息，將圍繞電子商務生態圈的信息流構建基于搜索技術的各種平臺和應用。</p>
<p>隨著互聯網信息的爆炸性增長，搜索技術目前已日益成爲網絡應用的基礎。阿里搜索技術研發中心將致力于搜索技術在中國的應用研究和技術普及，關注的研發方向包括：
<ol>
<li>信息檢索和數據挖掘技術：致力于研發海量網頁和結構化信息的搜索基礎技術，爲用戶提供最佳的搜索體驗，包括自然語言處理、分類和聚類、機器學習、相關性排序、反作弊、個性化內容推薦等領域。</li>
<li>系統、網絡和架構：通過對分布式計算、存儲和搜索引擎和信息搜集平臺的研發，建立高性能的大型分布式基礎架構，完成對于海量網頁的抓取和精確抽取，應對每日上億次的查詢，幷有效地管理成千上萬台服務器集群</li>
<li>計算廣告技術：互聯網廣告，特別是基于搜索技術的關鍵字廣告和內容匹配廣告，正成爲廣告行業的新增長點。我們將通過對上網用戶的瀏覽和搜索行爲數據挖掘，進行精確匹配廣告算法的研發。</li>
<li>移動搜索技術：中國手機用戶已經超過5億，擁有全球第一大移動通信市場，移動互聯網市場潜力無窮。我們將關注在網頁信息處理、移動電子商務、人機界面、本地搜索等應用研究領域。</li>
</ol>
<p>在研發成果的産品化上，阿里搜索技術研發中心將與阿里巴巴、淘寶、中國雅虎、阿里媽媽等兄弟公司密切合作，將中心的創新成果直接應用到海量的網頁、商品、服務信息、廣告匹配等搜索服務中。</p>
<p>我們歡迎有志于搜索研發的人才加入到我們的隊伍當中。在這裏你將和一流的搜索技術人員一起工作，你的工作成果直接影響億萬網民的生活，你的工作將對中國的電子商務産生深遠的影響，加入我們和中國最大的電子商務公司一起成長。</p>
<p>公司網站：<a target="_blank" href="http://www.alibaba.com">http://www.alibaba.com</a><br />公司地址：中國浙江省杭州市文二路391號西湖國際科技大厦A座18、19樓<br />聯 系 人：人力資源部<br />聯繫方式：<a href="mailto:postdoctor@alibaba-inc.com">postdoctor@alibaba-inc.com</a></p>
<p>- End -</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=62</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Data Mining 的方法論！</title>
		<link>http://datamining.com.tw/wordpress/?p=59</link>
		<comments>http://datamining.com.tw/wordpress/?p=59#comments</comments>
		<pubDate>Sun, 22 Mar 2009 14:23:46 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[CRISP-DM]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=59</guid>
		<description><![CDATA[參考資料來源： CRISP-DM.org 自然科學與社會科學的 &#8220;方法論&#8221; 應有其殊途同歸的必然性；雖然研究的對象差異性很大，但透過 &#8220;方法論&#8221; 的應用，我們勉強可以把研究 &#8220;人&#8221; 這樣多變性之對象的行為，也納入 &#8220;科學&#8221; 的領域 (so called 社會科學)。 既然 &#8220;社會科學&#8221; 之不確定性這麼高，那麼研究 &#8220;社會科學&#8221; 的科學 (例如：Data Mining) 的準確性就更要小心了。一般來說，社會科學在應用統計方面的 &#8220;應用&#8221; (例如：市場調查、Data Mining 等) 大多偏重在研究對象 &#8220;本身&#8221; 行為的異質性，而忽略了 &#8220;研究對象&#8221; 在與 &#8220;環境&#8221; 互動之狀況下的行為 &#8220;誤差&#8221;； 不同的時空環境條件下，&#8221;研究對象&#8221; 的不同反應。 也就是除了 &#8220;研究對象的異質性&#8221; 外，我們同時應該要重視 &#8220;研究對象所處的環境 (Brand, Competitor, SOW, etc.) 與 &#8220;研究對象的動態性&#8220;。 CRISP-DM 是 SPSS 主導的計劃，提供 Data Miner 一個標準範本，for 如何展開一個 Data [...]]]></description>
			<content:encoded><![CDATA[<p>參考資料來源：
<ul>
<li><a href="http://www.crisp-dm.org/Process/index.htm" target="_blank">CRISP-DM.org</a></li>
</ul>
<p>自然科學與社會科學的 &#8220;方法論&#8221; 應有其殊途同歸的必然性；雖然研究的對象差異性很大，但透過 &#8220;方法論&#8221; 的應用，我們勉強可以把研究 &#8220;人&#8221; 這樣多變性之對象的行為，也納入 &#8220;科學&#8221; 的領域 (so called 社會科學)。</p>
<p>既然 &#8220;社會科學&#8221; 之不確定性這麼高，那麼研究 &#8220;社會科學&#8221; 的科學 (例如：Data Mining) 的準確性就更要小心了。一般來說，社會科學在應用統計方面的 &#8220;應用&#8221; (例如：市場調查、Data Mining 等) 大多偏重在研究對象 &#8220;本身&#8221; 行為的異質性，而忽略了
<ul>
<li>&#8220;研究對象&#8221; 在與 &#8220;環境&#8221; 互動之狀況下的行為 &#8220;誤差&#8221;；</li>
<li>不同的時空環境條件下，&#8221;研究對象&#8221; 的不同反應。</li>
</ul>
<p>也就是除了 &#8220;研究對象的<font color="#cc0000">異質性</font>&#8221; 外，我們同時應該要重視 &#8220;研究對象所處的<font color="#cc0000">環境</font> (Brand, Competitor, SOW, etc.) 與 &#8220;研究對象的<font color="#cc0000">動態性</font>&#8220;。</p>
<p>CRISP-DM 是 SPSS 主導的計劃，提供 Data Miner 一個標準範本，for 如何展開一個 Data Mining 的專案 (項目)，照貓畫虎可以，但細部展開來看，還是有許多需要彈性調整的地方。目前的文件版本是 1.0，2007 年開始提議要做版本的更新，不過動作不大，似乎大家也不是很急就是了。</p>
<p>CRISP-DM 是 <b><font color="#cc0000">CR</font></b>oss <b><font color="#cc0000">I</font></b>ndustry <b><font color="#cc0000">S</font></b>tandard <b><font color="#cc0000">P</font></b>rocess for <b><font color="#cc0000">D</font></b>ata <b><font color="#cc0000">M</font></b>ining 的縮寫，它把 Data Mining Project 的進程分為六個階段：
<ul>
<li>Business Understanding</li>
<li>Data Understanding</li>
<li>Data Preparation</li>
<li>Modeling</li>
<li>Evaluation</li>
<li>Deployment</li>
</ul>
<p>各階段都提供了許多詳細的說明 (有個 User Guide 可以下載：<font color="#cc0000"><b><a href="http://www.crisp-dm.org/CRISPWP-0800.pdf" target="_blank">Click Here!</a></b></font>)</p>
<p><img style="max-width: 800px;" src="http://datamining.com.tw/wordpress/wp-content/uploads/2009/03/crisp-dmchartnew.gif" /></p>
<p>每個階段除了 User Guide 中所提到的 Process 外，其實都有許多值得探討的東西；特別是在實務應用方面，這些等小弟後面有時間在慢慢跟大家分享吧！</p>
<p>Regards, 工頭 George</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=59</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>轉貼：Visual Numerics &#8211; Developers of IMSL and PV-WAVE</title>
		<link>http://datamining.com.tw/wordpress/?p=57</link>
		<comments>http://datamining.com.tw/wordpress/?p=57#comments</comments>
		<pubDate>Mon, 23 Feb 2009 00:28:27 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[News]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=57</guid>
		<description><![CDATA[資料來源：Visual Numerics 主題：威能信息的產品信息 PV-WAVE 產品家族：PV-WAVE、TS-WAVE 以及 JWAVE！ 主要的運算 Function 來自 IMSL (International Mathematics and Statistics Library) 我們可以在 Wikipedia 找到更詳細的說明：Click Here! Regards, 工頭 George]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a href="http://www.vni.com.tw/cn/solutions/forecasting/" target="_blank">Visual Numerics</a></p>
<p>主題：威能信息的產品信息</p>
<p>PV-WAVE 產品家族：PV-WAVE、TS-WAVE 以及 JWAVE！</p>
<p>主要的運算 Function 來自 IMSL (International Mathematics and Statistics Library)</p>
<p>我們可以在 Wikipedia 找到更詳細的說明：<a href="http://en.wikipedia.org/wiki/IMSL_Numerical_Libraries" target="_blank"><font color="red">Click Here!</font></a></p>
<p>Regards, 工頭 George</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=57</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>轉貼：危機下 BI 迎來新契機</title>
		<link>http://datamining.com.tw/wordpress/?p=56</link>
		<comments>http://datamining.com.tw/wordpress/?p=56#comments</comments>
		<pubDate>Sun, 22 Feb 2009 14:03:11 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[News]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=56</guid>
		<description><![CDATA[資料來源：睿商在線 &#8211; 新聞中心 主題：危機下 BI 迎來新契機 人物：SAP 子公司 Business Objectives 中國區首席顧問 魯百年博士 2008 年的突破 應用內容的增加 行業應用的增加 (從電信、金融為主，擴大到其他行業) 內容方面 &#8220;質&#8221; 的提昇 (從 75% 報表 + 20% 多維分析 + 5% 數據挖掘 到 &#8220;更多的數據分析&#8221;) 由部門級的應用 (銷售、績效分析) 提昇到企業級的應用 (財務獲利分析、ERP、整體企業績效管理、等) 2009 年的熱點應用 G (公司治理) R (風險管理) C (合規？) Said: 1. SI 公司的 Solution 主要還是落在平台與軟件上，訣竅在公司治理、風險管理的制度規劃與策略選擇，S/W 只是實現這些 concept 、 construct 與 Measure [...]]]></description>
			<content:encoded><![CDATA[<p>資料來源：<a href="http://new.spn.com.cn/30/306315.shtml" target="_blank">睿商在線 &#8211; 新聞中心</a></p>
<p>主題：危機下 BI 迎來新契機</p>
<p>人物：SAP 子公司 Business Objectives 中國區首席顧問 魯百年博士</p>
<p>2008 年的突破
<ul>
<li>應用內容的增加</li>
<li>行業應用的增加 (從電信、金融為主，擴大到其他行業)</li>
<li>內容方面 &#8220;質&#8221; 的提昇 (從 75% 報表 + 20% 多維分析 + 5% 數據挖掘 到 &#8220;更多的數據分析&#8221;)</li>
<li>由部門級的應用 (銷售、績效分析) 提昇到企業級的應用 (財務獲利分析、ERP、整體企業績效管理、等)</li>
</ul>
<p>2009 年的熱點應用
<ul>
<li>G (公司治理)</li>
<li>R (風險管理)</li>
<li>C (合規？)</li>
</ul>
<p>Said:</p>
<p>1. SI 公司的 Solution 主要還是落在平台與軟件上，訣竅在公司治理、風險管理的制度規劃與策略選擇，S/W 只是實現這些 concept 、 construct 與 Measure 的工具。<br />2. SI 公司為了協助客戶解決這些問題、either 是自己培養行業的顧問 or 將這部份高端的諮詢委外。<br />3. 隨著 BI 在業界的使用越來越普遍、簡易型的 BI Solution 將由企業自行解決。<br />4. 對外部的 consultant 而言，往高端走、專注於某些行業，應該是比較 OK 的發展與成長策略。</p>
<p>Regards, 工頭 George</p>
<p></p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=56</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Ranking &#8211; DataMining.Com.Tw</title>
		<link>http://datamining.com.tw/wordpress/?p=53</link>
		<comments>http://datamining.com.tw/wordpress/?p=53#comments</comments>
		<pubDate>Tue, 17 Feb 2009 12:20:21 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Misc.]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=53</guid>
		<description><![CDATA[資料內容：Datamining.com.tw &#8211; Traffic Details from Alexa Yesterday 1 Wk. Avg. 3 Mos. Avg. 3 Mos. Change N/A* 4,153,954 4,644,061 up! 18,730,551 透過 Alexa 追蹤 DataMining.Com.Tw 的 Ranking；全世界來看，約莫落在 400 多萬左右 &#8230; 慢慢努力吧！ Regards, 工頭 George]]></description>
			<content:encoded><![CDATA[<p>資料內容：<a href="http://www.alexa.com/data/details/traffic_details/datamining.com.tw/wordpress" target="_blank">Datamining.com.tw &#8211; Traffic Details from Alexa</a></p>
<table border="1" width="500">
<tbody>
<tr>
<td align="center">Yesterday</td>
<td align="center">1 Wk. Avg.</td>
<td align="center">3 Mos. Avg.</td>
<td align="center">3 Mos. Change</td>
</tr>
<tr>
<td align="center">N/A*</td>
<td align="center">4,153,954</td>
<td align="center">4,644,061</td>
<td align="center"><font color="green"><b>up!</b></font> 18,730,551</td>
</tr>
</tbody>
</table>
<p>透過 Alexa 追蹤 DataMining.Com.Tw 的 Ranking；<br />全世界來看，約莫落在 400 多萬左右 &#8230; 慢慢努力吧！</p>
<p>Regards, 工頭 George</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=53</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什麼是 &#8220;方法論&#8221; ？</title>
		<link>http://datamining.com.tw/wordpress/?p=36</link>
		<comments>http://datamining.com.tw/wordpress/?p=36#comments</comments>
		<pubDate>Wed, 11 Feb 2009 12:59:38 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[CRISP-DM]]></category>

		<guid isPermaLink="false">http://datamining.com.tw/wordpress/?p=36</guid>
		<description><![CDATA[維基百科：笛卡兒 (René Descartes) 於 1637 年出版的哲學著作 (Discours de la méthode) 指出，研究問題的方法分四個步驟： 只要沒有經過自己切身體會的問題，不管有什麼權威的結論，都可以懷疑。就是著名的「懷疑一切」理論。 可以將要研究的複雜問題，盡量分解為多個比較簡單的小問題，一個一個地分開解決。 將這些小問題從簡單到複雜排列，先從容易解決的問題著手。 將所有問題解決後，再綜合起來檢驗，看是否完全，是否將問題徹底解決了。 方法論：研究 &#8220;研究方法&#8221; 的方法！ Data Mining 這個 Domain 的廠商都各自有提出所謂的方法論，其中 SPSS 的 CRISP-DM 算是 awareness 比較高的一個吧！其中 Clementine 的普及，應該有不小的功勞。 Regards, 工頭 George]]></description>
			<content:encoded><![CDATA[<p><a href="http://zh.wikipedia.org/wiki/%E6%96%B9%E6%B3%95%E8%AE%BA" target="_blank"><font color=blue>維基百科</font></a>：笛卡兒 (<span xml:lang="fr" lang="fr">René Descartes</span>) 於 1637 年出版的哲學著作 (Discours de la méthode) 指出，研究問題的方法分四個步驟：</p>
<ol>
<li>只要沒有經過自己切身體會的問題，不管有什麼權威的結論，都可以懷疑。就是著名的「懷疑一切」理論。</li>
<li>可以將要研究的複雜問題，盡量分解為多個比較簡單的小問題，一個一個地分開解決。</li>
<li>將這些小問題從簡單到複雜排列，先從容易解決的問題著手。</li>
<li>將所有問題解決後，再綜合起來檢驗，看是否完全，是否將問題徹底解決了。</li>
</ol>
<p>方法論：研究 &#8220;研究方法&#8221; 的方法！</p>
<p>Data Mining 這個 Domain 的廠商都各自有提出所謂的方法論，其中 SPSS 的 <a href="http://www.crisp-dm.org" target="_blank"><font color="blue">CRISP-DM</font></a> 算是 awareness 比較高的一個吧！其中 Clementine 的普及，應該有不小的功勞。</p>
<p>Regards, 工頭 George</p>
]]></content:encoded>
			<wfw:commentRss>http://datamining.com.tw/wordpress/?feed=rss2&amp;p=36</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
