<?xml version="1.0" encoding="utf-8"?>
<?xml-stylesheet type="text/xsl" href="http://feeds.qzone.qq.com/rss.xsl" version="1.0"?>
<rss version="2.0" xmlns:qz="http://qzone.qq.com">
<channel>
<title><![CDATA[大坏蛋]]></title>
<description><![CDATA[张栋伟的QQ江湖]]></description>
<link>http://19750613.qzone.qq.com</link>
<lastBuildDate>Wed, 03 Dec 2008 08:46:46 GMT</lastBuildDate>
<generator>Qzone</generator>
<language>zh-cn</language>
<copyright>Copyright (C), 2005-2008, Tencent Tech. Co., Ltd.</copyright>
<pubDate>Tue, 02 Dec 2008 01:15:30 GMT</pubDate>

<item>
<title><![CDATA[网络营销教程—SEO 第八章 内部链接的优化操作]]></title>
<link>http://19750613.qzone.qq.com/blog/1228180425</link>
<description><![CDATA[ <br>         张栋伟<br><br>一技术篇<br>1图片链接<br>调用图片有个特别的属性就是替换文本属性标签，他可以将某一个图片的ALT标签内的信息替换为文本信息，如果这个图片在网页上显示不出来，在该图片的位置会出现替换文本的信息。图片的ALT标签原本是考虑到残障人士（如盲人）的访问网页而准备的，他们在浏览网页的时候很难获取图片上的文字信息，只能通过 ALT标签替换文本的描述来了解图片内容。而现在搜索引擎会把ALT标签的内容纳入整个页面的文本分析，所以建议在填写图片ALT标签部分的内容时要灵活地在描述中布置合适的关键词。<br>2js的链接<br>由于JS 的内容不能被大多数主流搜索引擎检索，所以做网站的SEO 时一般强调导航菜单等重要的代码部分尽量不使用JS。如果大面积的链接都使用JS，无疑将大大降低搜索引擎抓取收录的机会。采用JavaScript 技术的网页往往在页面一开始就堆积大量java 代码，以致meta 及关键词迟迟不能出现，对搜索引擎很不友好。虽然把html代码封装到JS文件里是给网页减肥的最佳办法之一。但是在seo工作中有可能成为最糟糕的办法之一。在实际操作中如果网站的内部链接正好封装在JS文件中，那么搜索引擎可能永远都不能收录到你的网页。<br>3链接相关性<br>内部链接的相关性是相对于外部链接的相关性而言的。但是他们本身在原理上并没有什么大的区别。也就是说一个网站的构建需要按内容相关性去分类栏目，使同一个栏目下的内容相链接。例如一个构建音乐网站的栏目分类，然后按每个歌星去建立主题栏目。周杰伦相关的新闻就不能和陈奕迅的相关新闻安排在同一个栏目下。很多大型新闻网站也都是这么构建的，例如新浪网。<br> <br>（图8-1）新浪网明星全接触栏目按明星名字进行分类<br>二思路篇<br>1首页链接入口<br>首页是一个网站的门面，也是爬虫程序最常光顾的页面。而且从另一种角度上讲首页就是一张网站地图。尤其对一些分类比较复杂的网站，首页上链接起着通向内页和栏目页的纽带。所以合理设计首页网站日后能被搜索引擎大量收录的一项重要任务。 <br>（图8-2）阿里巴巴网站右侧产品列表就巧妙的利用了这点，实现了首页与热门产品页的链接。<br><br>2面包屑导航<br>关于面包屑还有个童话故事。很久很久以前，在大森林的边上住着一个贫穷的樵夫，他妻子和两个孩子与他相依为命。他的儿子名叫汉赛尔，女儿名叫格莱特。后来樵夫的妻子去世了，他又给孩子们娶了一个后母。后母计划把两个孩子带到森林的深处，然后趁他们睡着的时候跑掉。汉赛尔无意中知道了后母的计划，于是偷偷地把一块面包藏在了口袋里。在去森林的路上，汉赛尔悄悄地捏碎了他的面包，并不时地停下脚步，把碎面包屑撒在路上。后母顺利地趁孩子们睡着的时候溜掉了，汉赛尔和格莱特醒来已是一片漆黑。汉赛尔安慰他的妹妹说：“等太阳一出来，我们就看得见我撒在地上的面包屑了，它一定会指给我们回家的路。”但是当太阳升起来时，他们在地上却怎么也找不到一点面包屑了，原来它们都被那些在树林里、田野上飞来飞去的鸟儿一点点地啄食了。<br>　　这是《格林童话》中所描述的与面包屑有关的故事。不知道从哪一天开始，汉赛尔的面包屑开始悄悄地出现在某个网站的导航位置上，然后迅速地撒遍了全世界，变成了今天大家所熟知的“面包屑导航”。<br>在童话里，面包屑是汉赛尔在进入森林的路中偷偷撒下的，这是一种“历史记录”的应用方式，目的是帮助你追溯来路，因而它应该是一种线性的导航方式。不过在网页的应用中，“追溯来路”这件事浏览器已经做得足够好了，所以“面包屑”慢慢地就变成用来表达内容归属关系的界面元素，也就是我们经常看到的“主分类&gt;一级分类&gt;二级分类&gt;三级分类&gt;……&gt;最终内容页面”这样的方式。但是一般正常的来讲目录结构由3层结构组成。分别是首页&gt;栏目页&gt;内容页。合理的构建目录结构可以让用户随时随地的找到自己所在的位置又能保证栏目分类后的各个栏目的权重不至于太分散。同时在许多关于网站用户使用体验的调查报告中也得出超过3次点击访客还没有找到需要的信息，访客就很大的可能性会离开网站。所以，3层目录结构也是浏览体验的需要。<br>3与用户换位思考<br>与浏览者换位思考从某种程度上也是体现内部链接相关性的一种操作方式。<br> <br>（8-3）右侧的链接列表的安排方便了浏览者，又在内部链接建立了相关性。<br>这样的网页链接设计会使浏览者就像冲浪一样，一页一页的浏览下去，直到找到需要的产品信息。<br>4PR值的传递<br>前几章谈论了PR值的意义，这里不再阐述。只要有好的网站整体结构，整个网站的PR传递应该是很均匀的，首页最高，栏目页次之，内容页再次。但有的时候可以通过网页的链接影响PR和重要性的传递，使某一页或某几页的PR值和重要性升高，这几页也是你重点要推广的网页，例如在首页上将某条信息长期置顶。在搜索引擎优化的过程中每个seo工作者应该产生这样PR传递的意识。<br>5主题的返还归一<br>在一个网站中内部链接就像人类的血管，而每个网页在同一个搜索引擎中的排名的位置和权重就像人类的血液。一个简单的网站的首页往往就像人类的心脏，从首页传递给每一级栏目页的权重，然后又由栏目页把权重传递给内容页，最后又由内容页传递给首页。这样正好产生了一个网站内部权重传递的回路。在此供读者思考一下，网站不同种类的页面的比例。首页在一个网站内只有一个，栏目页一般是若干个，内容页往往是栏目页数量的几倍甚至几十倍。结合前面讲过的面包屑导航，我们就不难看出一个栏目页由本栏目下的内容页推荐投票产生排名权重，而一个网站的首页是由全网站所有内容页推荐投票和所有栏目页推荐投票共同产生的排名权重。这也就是为什么我们在搜索引擎里搜索一下热门关键字返回的自然排名列表内一般都是某某网站的首页的原因。同时前面讲到的网站页面收录量多少的问题也是为了现在能够有多少为首页推荐投票奠定基础。本小节是全书重要的SEO工作指导思想，请读者仔细领会。<br>三高级篇<br>1链接安全性<br>链接安全性问题在一些中小型网站普遍存在。一般主要反映在网站改版之后，新版模板与旧版模板的衔接处了。为了避免这样问题除了使用一些网站地图工具查询外，不外乎就是靠网站程序员仔细的检查和测试。除此以外你还可以建立404错误页来保证你的网站不会因外链错误导致访客浏览。更重要的是网站内部链接错误会引起搜索引擎的爬虫程序找不到你链接的网页，导致无法正常收录网页。在此介绍一款网站链接完全软件Xenu是使用。<br> <br>（图8-4）输入查询网址<br> <br>（图8-5）Xenu可以把错误的链接一一列出来。<br>2链接速度<br>链接速度同样是衡量网站可靠性的一个重要参数。缓慢的服务器速度不但影响访客浏览网站，也影响搜索引擎爬虫程序下载你的网页。每个爬行程序不但有下载数据包的大小限制外同时还有下载时钟限制。超过一定秒数无法下载完整网页，爬虫程序多数会采取放弃处理，导致你的网站页面收录数量不高，被收录页面信息不全。影响链接速度的原因基本有2点。A服务器超过承受的负载，导致打开新网页过慢。B单个网页文件过大，下载速度较慢。常用的网站修改方案可以将网站由动态页面，转向静态页面。调整服务器数据库的负载均衡等等。其中有测试表明静态化页面后，网站运行能力可以提高一倍。<br>]]></description>
<category><![CDATA[网络营销]]></category>
<author><![CDATA[19750613@qq.com(大坏蛋)]]></author>
<comments>http://19750613.qzone.qq.com/blog/1228180425#comment</comments>
<qz:effect>134218240</qz:effect>
<pubDate>Tue, 02 Dec 2008 01:13:45 GMT</pubDate>
<guid>http://19750613.qzone.qq.com/blog/1228180425</guid>
</item>

<item>
<title><![CDATA[穿衣方式揭示内心世界]]></title>
<link>http://19750613.qzone.qq.com/blog/1227669398</link>
<description><![CDATA[ <img src='http://chinese.wsj.com/gb/img/b.gif' height='0' width='298' border='0'/><a href='javascript:SwitchL(this)' target='_blank'>英</a> | <a href='javascript:ChangeFont(22)' target='_blank'>大</a> | <a href='javascript:ChangeFont(18)' target='_blank'>中</a> | <a href='javascript:ChangeFont(14)' target='_blank'>小</a><br>2008年11月21日08:55<br>德<br>里克·约翰逊(Derek Johnson)一手创办的科技公司Tatango.com要招一个营销人员，他在面试应聘者时，一位求职者西装革履地出现在他面前。身为公司首席执行长的约翰逊说，这样让我们挺紧张的。他认为这位应聘者并没有展现自己真实的一面，觉得那套西装简直等于一个谎言。<br><br>约翰逊大学时因学业妨碍了Tatango的经营而退学，Tatango可以让组群向成员群发文本和语音信息。22岁的约翰逊与许多同龄人一样，认为传统的正装是一种掩饰。他说，在他的公司里，人们不会试图用穿衣打扮去掩盖任何东西。<br><br><img src='http://chinese.wsj.com/photo/PJ-AN628_pjFASH_D_20081112180844.jpg' border='0' /> Najlah Feanny for The Wall Street Journal<br><br>德里克·约翰逊（中）和Tatango.com的其他几名<br>员工一起展示休闲办公室着装<br><img src='http://chinese.wsj.com/photo/PJ-AN629_pjFASH_D_20081112181245.jpg' border='0' /> Mitch Moquin for The Wall Street Journal<br>在潜在投资者上门拜访的时候，约翰逊也会穿得相对正式一些<br>知名的大公司长久以来雇用的都是穿衣风格表明自己会遵守公司规定的员工。如今，许多年轻管理人员却认为办公室着装的用途刚好相反：应该表现出一个人的内在精神世界。<br><br>对年长的人来说，年轻人的风格可能很难理解。他们的着装已经远远超出了“商务休闲”的范畴，看上去要么极其不正式，要么太不成熟－－比如说牛仔裤、运动鞋、紧身T恤和超短裙。<br><br>但年轻员工正以自己的一套复杂着装规则和其中传达的潜在信息来取代传统的职业装。他们对品牌的选择都是有实质意义的。举例来说，他们可能不会在Gucci和Allen Edmonds之间选择，但会考虑是穿耐克的Air Force运动鞋还是Chuck Taylors帆布鞋。（其中含义是：选择都市风格还是运动休闲。）<br><br>在某种程度上，他们的审美观代表了一种新的标准－－严重依赖公司品牌。但年轻人认为，混搭风格比老式制服给了他们更多功能和创意。<br><br>34岁的Roman Tsunder说，你能感觉到别人是展现真实自我还是公事公办。他是位于纽约和洛杉矶的青年市场咨询公司Access 360 Media Inc.的首席执行长，MTV和美国电话电报公司(AT&amp;T)都是他的客户。<br><br>Tsunder说，他备了一套西装用于某些场合，比如与投资者开会时，如果他显得太过尖锐，投资者可能会对他没信心。但他特地强调自己那套西装并不是标榜商人地位的正装：他是在快速时尚连锁店Zara买的。其实他那套Diesel蓝色牛仔裤、白色J. Lindeberg皮带和Prada鞋的行头更贵。<br><br><img src='http://chinese.wsj.com/photo/PJ-AN632_pjFASH_DV_20081112180438.jpg' border='0' /> Najlah Feanny for The Wall Street Journal<br><br>Buzz Marketing的CEO蒂娜·韦尔斯穿着Seven牛<br>仔裤上班<br>最近跟MTV开会时，Tsunder身穿银色耐克Air Force运动鞋、白衬衫，外面配薄荷绿V领毛衫，因为“这样显得年轻”。他说，跟更保守的客户开会时，他会穿得更“积极”，比如说在法国南部买的有领衬衫。<br><br>创建了Buzz Marketing Group并任首席执行长的蒂娜·韦尔斯(Tina Wells)也同样会在上班时将不同档次的品牌搭配起来穿。她的行头包括Target的小洋装、香奈尔(Chanel)的平底芭蕾鞋，还有一大堆高档牛仔裤。跟许多同龄人一样，28岁的韦尔斯也用品牌来区分自己的衣服：True Religion、Raven和Citizens of Humanity。<br><br>她16岁创建自己的公司，客户包括施华洛世奇集团(Swarovski Group)。韦尔斯说，我不是哈佛MBA那种类型的人。她说，如果她只是个穿套装的女孩子，那就无法清楚地展示出她的公司所提供的服务的复杂完善。<br><br>韦尔斯并非全盘抛弃传统规则。她禁止某些蕾丝上衣，还让一位实习生去掉下巴上的穿环再来上班，她说，我觉得我们不应该吓到客户。<br><br>但韦尔斯也拒绝母亲提议的及膝裙和配套的毛衫。她说，上一代人喜欢这种两件套式的羊毛衫，她自己也喜欢羊毛衫，但不是成套的－－那绝对不行。<br><br>避免中规中矩的搭配已经成了这一代人特有的选择。感觉好像相配的外套和裙子就说明是过度依赖父母那种呆板的时尚观念。德里克·约翰逊52岁的母亲辛西娅·约翰逊(Cynthia Johnson)说，她生于50年代，她们那代人的惯例是在9月30号以后就不穿白色衣服了。<br><br>当约翰逊得到第一份专职工作（在纽约中城实习）时，他的父母在Nordstrom给他买了两套900美元的西装。但他不愿意穿那些西装，即便是与风险资本家开会为Tatango筹资时也没穿过。他说，他有一次穿着其中一套做演示，但随即十分后悔地补充道，他觉得那不是自己的本来面目。<br><br><i><b>Christina Binkley</b></i>]]></description>
<category><![CDATA[个人日记]]></category>
<author><![CDATA[19750613@qq.com(大坏蛋)]]></author>
<comments>http://19750613.qzone.qq.com/blog/1227669398#comment</comments>
<qz:effect>136315393</qz:effect>
<pubDate>Wed, 26 Nov 2008 03:16:38 GMT</pubDate>
<guid>http://19750613.qzone.qq.com/blog/1227669398</guid>
</item>

<item>
<title><![CDATA[网络营销教程—SEO 第二章 搜索引擎（第二节）]]></title>
<link>http://19750613.qzone.qq.com/blog/1227665363</link>
<description><![CDATA[张栋伟<br><br>第二节 搜索引擎的中文分词技术<br>    中文自动分词是网页分析的基础。在网页分析的过程中，中文与英文的处理方式是不同的，这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格，而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前，先要将网页中的句子切割成一个个的词的序列，这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准，在搜索引擎中，我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此，搜索引擎对分词的准确性和速度都提出了很高的要求。<br>    目前，中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同，机械分词方法又有如下几种算法: 正向最大匹配算法、逆向最大匹配算法、最少分词算法等。这种方法的优点是分词的速度快，准确度有一定的保证，但对未登录词的处理效果较差。实验结果表明: 正向最大匹配的错误率为1/169左右，逆向最大匹配的错误率为1/245左右。另一种比较常用的中文自动分词方法是基于统计的分词方法，这种方法是对语料中的字组频度进行统计，不需要切分词典，因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词，对常用词的识别精度较差，时空开销也比较大。在搜索引擎领域的实际应用中，一般将机械分词方法与统计分词方法相结合，先进行串匹配分词，然后使用统计方法识别一些未登录的新词，这样既发挥了匹配分词速度快、效率高的优势，又利用了统计分词中新词自动识别和自动消除分词歧义的特点。<br>    分词词典是影响中文自动分词的一个重要因素，其规模一般在6万条词左右，词典太大或太小都是不合适的; 辞典太小，有些词切分不出来，辞典太大，切分过程中起义现象将大大增加，同样影响分词的精度。因此，分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域，仅仅使用6万条词左右的分词词典是不够的，但随意向分词词典中加入新词将导致分词精度下降，一般的解决方法是使用辅助词典，其规模在50万词条左右。另外，中文自动分词的难点在于分词歧义的处理和未登录词的识别，如何处理这两个问题一直是该领域研究的热点。<br>1、歧义处理<br>歧义是指可能有两种或者更多的切分方法。例如: “表面的”这个词组，因为“表面”和“面的”都是词，那么这个短语就可以分成“表面+的”和“表+面的”。这种称为交叉歧义。像这种交叉歧义十分常见，“化妆和服装”可以分成“化妆+和+服装”或者“化妆+和服+装”。由于没有人的知识去理解，计算机很难知道到底哪个方案正确。<br>    交叉歧义相对组合歧义来说是还算比较容易处理，组合歧义就必须根据整个句子来判断了。<br>    例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子“请把手拿开”中，“把手”就不是一个词; 在句子“将军任命了一名中将”中，“中将”是个词，但在句子“产量三年中将增长两倍”中，“中将”就不再是词。这些词计算机又如何去识别?<br>    即使交叉歧义和组合歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，由人去判断也不知道哪个应该是词、哪个应该不是词。例如: “乒乓球拍卖完了”，可以切分成“乒乓+球拍+卖+完+了”、也可切分成“乒乓球+拍卖+完+了”，如果没有上下文其他的句子，恐怕谁也不知道“拍卖”在这里算不算一个词。<br>对歧义现象的处理方法一般采用类似于动态规划的算法将歧义问题的求解转化为一个优化问题的求解。在求解过程中，一般使用词频或概率等辅助信息求得一个最大可能的分词结果，这个结果在某种意义下是最佳的。<br>2、 未登录词处理<br>未登录词就是分词词典中没有的词，也称为新词。最典型的是人名、地名、专业术语等。例如，人可以很容易理解句子“王军虎去广州了”中，“王军虎”是个词，因为是一个人的名字，但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本身就是一项巨大的工程。即使这项工作可以完成，还是会存在问题，例如: 在句子“王军虎头虎脑”中的，“王军虎”还能不能算词？<br>    未登录词中除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于搜索引擎来说，分词系统中的新词识别十分重要。目前，对未登录词的处理一般采用统计的方法，首先从语料中统计出出现频率较高的字组，然后按照某种规则把它们作为新词添加到辅助词典中。<br>目前，中文自动分词技术在搜索引擎中已经得到广泛应用，分词准确度已经达到96%以上，但是在对大规模网页进行分析处理的时候，现有的中文自动分词技术还存在许多不足，例如上面提到的歧义问题和未登录词的处理问题等。因此，国内外的科研院校，如北大、清华、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都一直关注并研究中文自动分词技术，这主要是因为网络上的中文信息越来越多，对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市场，存在无限的商机。但是，中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品，还要在基础研究方面和系统的集成方面做许多工作。<br>]]></description>
<category><![CDATA[网络营销]]></category>
<author><![CDATA[19750613@qq.com(大坏蛋)]]></author>
<comments>http://19750613.qzone.qq.com/blog/1227665363#comment</comments>
<qz:effect>134218240</qz:effect>
<pubDate>Wed, 26 Nov 2008 02:09:23 GMT</pubDate>
<guid>http://19750613.qzone.qq.com/blog/1227665363</guid>
</item>

</channel>
</rss>

